Big data چیست؟ کاربردهای بیگ دیتا

بیگ دیتا

Big Data یا داده‌های بزرگ، ترکیبی از داده‌های ساختار یافته، نیمه ساختار یافته و بدون ساختار است که توسط سازمان‌هایی جمع‌آوری شده است که می‌توانند برای تجزیه و تحلیل و دریافت اطلاعات بیشتر، استخراج شوند و در پروژه‌های یادگیری ماشین، مدل‌سازی پیش‌بینی و سایر برنامه‌های کاربردی پیشرفته تحلیلی مورد استفاده قرار بگیرند.

سیستم‌هایی که بیگ دیتا را پردازش و ذخیره می‌کنند، به یک مؤلفه مشترک معماری مدیریت داده در سازمان تبدیل شده‌اند. داده‌های بزرگ غالباً توسط سه مولفه مشخص می‌شوند‌: حجم وسیعی از داده‌ها در بسیاری از محیط‌ها، طیف گسترده‌ای از انواع داده‌های ذخیره شده در سیستم‌های داده‌های بزرگ و سرعتی که در آن، داده‌ها تولید، جمع‌آوری و پردازش می‌شوند. این خصوصیات ابتدا در سال ۲۰۰۱ توسط Doug Laney، و سپس توسط تحلیلگران شرکت Meta Group، شناسایی شدند. اخیراً، چندین نسخه دیگر در توضیحات مختلف داده‌های بزرگ از جمله صحت، ارزش و تغییرپذیری به توضیحات قبلی اضافه شده است. اگرچه داده‌های بزرگ با حجم مشخصی از داده‌ها برابر نیستند، استقرار داده‌های بزرگ اغلب شامل ترابایت (TB)، پتابایت (PB) و حتی اگزابایت (EB) از داده‌های ضبط شده در طول زمان است.

بیگ دیتا چیست؟

چرا بیگ دیتا مهم است؟

شرکت‌ها از داده‌های بزرگ انباشته شده در سیستم‌های خود، به منظور بهبود عملکرد، ارائه خدمات بهتر به مشتریان، ایجاد کمپین‌های بازاریابی شخصی مبتنی بر ترجیحات خاص مشتری و در نهایت افزایش سودآوری استفاده می‌کنند. مشاغلی که از داده‌های بزرگ استفاده می‌کنند، یک مزیت رقابتی بالقوه نسبت به مواردی دارند که نمی‌توانند از این ویژگی استفاده کنند، که سریع‌تر و آگاهانه‌تر تصمیم بگیرند، مشروط بر اینکه از داده‌ها به طور موثر استفاده کنند. به عنوان مثال، داده‌های بزرگ می‌توانند به شرکت‌ها بینش ارزشمندی را در مورد مشتریان خود ارائه دهند که می‌توانند برای بهبود کارآیی و تکنیک‌های بازاریابی به منظور افزایش اشتغال و نرخ تبدیل مشتری استفاده کنند.

علاوه بر این، استفاده از داده‌های بزرگ، شرکت‌ها را قادر می‌سازد به طور فزاینده مشتری محور شوند. از داده‌های انباشته شده قدیمی و واقعی، می‌توان برای ارزیابی ترجیحات در حال تحول مصرف کننده استفاده کرد، در نتیجه کسب و کارها را قادر می‌سازد تا استراتژی‌های بازاریابی خود را به روز کنند و بهبود بخشند و به خواسته‌ها و نیازهای مشتری پاسخگوتر شوند.

داده‌های بزرگ همچنین توسط محققان پزشکی برای شناسایی عوامل خطرات بیماری و توسط پزشکان برای کمک به تشخیص بیماری‌ها و شرایط در بیماران خاص استفاده می‌شود. علاوه بر این، داده‌های به دست آمده از سوابق الکترونیکی بهداشت (EHR)، رسانه‌های اجتماعی، وب و منابع دیگر، به سازمان‌های بهداشت و درمان و آژانس‌های دولتی اطلاعات روزانه در مورد تهدیدات و یا شیوع بیماری‌های عفونی را ارائه می‌دهند.

در صنعت انرژی، داده‌های بزرگ به شرکت‌های نفت و گاز کمک می‌کند تا مکان‌های حفاری بالقوه را شناسایی کنند و بر عملکرد خط لوله نظارت کنند. به همین ترتیب، آب و برق از آن برای ردیابی شبکه‌های برقی و آبی استفاده می‌کنند. شرکت‌های خدمات مالی از سیستم‌های داده بزرگ برای مدیریت ریسک و تحلیل زمان واقعی داده‌های بازار استفاده می‌کنند. تولیدکنندگان و شرکت‌های حمل و نقل، برای مدیریت زنجیره‌های تأمین و بهینه‌سازی مسیرهای تحویل به داده‌های بزرگ اعتماد دارند. سایر کاربردهای دولت شامل واکنش اضطراری، پیشگیری از وقوع جرم و ابتکار عمل در شهر هوشمند است.

نمونه‌هایی از بیگ دیتا

داده‌های بزرگ از منابع مختلف بیشماری از جمله سیستم‌های معاملات تجاری، بانک اطلاعاتی مشتران، سوابق پزشکی بیماران، لاگ‌های مربوط به گشت و گذار در اینترنت، برنامه‌های تلفن همراه، شبکه‌های اجتماعی، مخازن تحقیقات علمی، داده‌های تولید شده توسط ماشین و سنسورهای داده واقعی در اینترنت، استفاده می‌کند. داده‌ها ممکن است به صورت خام در سیستم‌های داده بزرگ باقی بماند و یا با استفاده از ابزارهای داده کاوی یا نرم افزار تهیه داده از پیش پردازش شده باشد، بنابراین برای استفاده‌های خاص از تجزیه و تحلیل آماده است.

با استفاده از داده‌های مشتریان به عنوان نمونه، شاخه‌های مختلف تحلیلی که می‌توان با اطلاعات موجود در مجموعه داده‌های بزرگ انجام داد، موارد زیر را شامل می‌شود:

  • تحلیل مقایسه‌ای: این مورد شامل بررسی معیارهای رفتار کاربر و مشاهده میزان درگیر شدن مشتری در زمان واقعی به منظور مقایسه محصولات، خدمات و اقتدار برند یک شرکت با نمونه‌های رقابتی آن است.
  • گوش دادن به رسانه‌های اجتماعی: این اطلاعات در مورد آن‌چه مردم در رسانه‌های اجتماعی در مورد یک تجارت یا کالای خاص می‌گویند، فراتر از آنچه می‌تواند در نظرسنجی یا مصاحبه ارائه شود، است. از این داده‌ها می‌توان برای مشاهده مخاطبان هدف برای فعالیت‌های بازاریابی با مشاهده فعالیت پیرامون موضوعات خاص در منابع مختلف استفاده کرد.
  • تحلیل بازاریابی: این مورد شامل اطلاعاتی است که می‌تواند مورد استفاده قرار گیرد تا تبلیغ محصولات جدید، خدمات و ابتکارات را آگاه‌تر و خلاقانه‌تر کنید.
  • رضایت مشتری و تحلیل احساسات: تمام اطلاعات جمع آوری شده می‌توانند احساس کنند که مشتریان در مورد یک شرکت یا مارک تجاری چه احساسی دارند، در صورت بروز مشکلات احتمالی، چگونگی حفظ وفاداری به برند و چگونگی بهبود تلاش‌های مشتری می‌تواند نشان دهد.

مولفه داده در Big Data

حجم رایج‌ترین ویژگی استناد به Big Data است. یک محیط داده بزرگ نیازی به مقدار زیادی از داده‌ها ندارد، اما بیشتر آن‌ها به دلیل ماهیت داده‌های جمع‌آوری و ذخیره شده، در آن‌ها انجام می‌شود. Clickstreams، لاگ‌های مربوط به سیستم و سیستم‌های پردازش جریان از جمله منابعی هستند که به‌طور معمول حجم عظیمی از داده‌های بزرگ را به‌طور مداوم تولید می‌کنند.

داده‌های بزرگ همچنین انواع مختلفی از داده‌ها را شامل می‌شود، از جمله موارد زیر:

  • داده‌های ساخت یافته در پایگاه داده‌ها و انبارهای داده‌ها بر اساس ساختار جستجوی ساختار یافته (SQL)
  • داده‌های بدون ساختار مانند فایل‌های متنی و اسناد در کلاستر Hadoop یا سیستم‌های پایگاه داده NoSQL
  • داده‌های نیمه ساختار یافته، مانند گزارش‌های سرور وب یا داده‌های جریان از سنسورها

همه انواع مختلف داده را می‌توان در یک مخزن داده، که معمولاً مبتنی بر Hadoop یا یک سرویس ذخیره‌سازی ابری است، ذخیره کرد. علاوه بر این، برنامه‌های کاربردی داده‌های بزرگ اغلب شامل چندین منبع داده هستند که در غیر این صورت ممکن است یکپارچه نباشند. به عنوان مثال، یک پروژه بزرگ تجزیه و تحلیل داده‌ها، می‌تواند با ارتباط داده‌های فروش گذشته، داده‌های برگشتی و داده‌های بررسی خریدار آنلاین برای آن محصول، موفقیت یک محصول و فروش آینده را محاسبه کند.

سرعت اشاره به سرعتی که در آن داده‌های بزرگ تولید می‌شوند و باید پردازش و تجزیه و تحلیل شوند، دارد. در بسیاری از موارد، به جای به روزرسانی روزانه، هفتگی یا ماهانه که در بسیاری از انبارهای داده‌های سنتی انجام می‌شود، مجموعه داده‌های بزرگ به صورت واقعی یا تقریباً در زمان واقعی به روز می‌شوند. برنامه‌های کاربردی تجزیه و تحلیل داده‌های بزرگ، داده‌های ورودی را با یکدیگر در ارتباط، تجزیه و تحلیل کرده و بر اساس یک سؤال فراگیر پاسخ یا نتیجه می‌دهند. این بدان معناست که دانشمندان داده‌ها و سایر تحلیلگران داده‌ها باید درک دقیقی از داده‌های موجود داشته و از این که چه پاسخی را می‌خواهند به‌دست آورند تا اطمینان حاصل کنند که اطلاعات به‌دست آمده معتبر و به روز هستند، داشته باشند.

مدیریت سرعت داده نیز مهم است زیرا تجزیه و تحلیل داده‌های بزرگ به زمینه‌هایی مانند یادگیری ماشین و هوش مصنوعی (AI) گسترش می‌یابد، جایی که فرآیندهای تحلیلی به‌طور خودکار الگوهای موجود در داده‌های جمع‌آوری شده را پیدا می‌کنند و از آن‌ها برای تولید بینش (Insights) استفاده می‌کنند.

مشخصات بیشتر داده‌های بزرگ

با نگاهی فراتر از ۳ مولفه اصلی، صحت داده‌ها به درجه اطمینان در مجموعه داده‌ها اشاره دارد. داده‌های خام نامشخص جمع‌آوری شده از چندین منبع، مانند سیستم عامل‌های رسانه‌های اجتماعی و صفحات وب، می‌توانند باعث ایجاد مشکلات جدی در کیفیت داده شوند که ممکن است تشخیص آن‌ها دشوار باشد. به عنوان مثال، شرکتی که مجموعه‌ای از داده‌های بزرگ را از صدها منبع جمع می‌کند، ممکن است بتواند داده‌های نادرست را شناسایی کند، اما تحلیلگران آن برای ردیابی محل ذخیره داده‌ها به اطلاعات خط داده نیاز دارند تا بتوانند مشکلات را اصلاح کنند.

داده‌های بد منجر به تحلیل نادرست می‌شوند و ممکن است ارزش تحلیل تجاری را تضعیف کنند، زیرا این امر می‌تواند باعث عدم اعتماد مدیران به طور کلی شود. مقدار داده‌های نامشخص در یک سازمان قبل از استفاده در برنامه‌های کاربردی تجزیه و تحلیل داده‌های بزرگ، باید حساب شود. تیم‌های فناوری اطلاعات و تجزیه و تحلیل نیز باید از داشتن اطلاعات دقیق کافی برای تولید نتایج معتبر اطمینان حاصل کنند.

برخی دانشمندان داده نیز به لیست ویژگی‌های داده‌های بزرگ، ارزش افزوده می‌دهند. همان‌طور که در بالا توضیح داده شد، تمام داده‌های جمع‌آوری شده دارای ارزش تجاری واقعی نیستند و استفاده از داده‌های نادرست می‌تواند بینش‌های ارائه شده توسط برنامه های تحلیلی را تضعیف کند. بسیار مهم است که سازمان‌ها از روش‌هایی مانند پاکسازی داده‌ها استفاده کنند و تأیید کنند که داده‌ها قبل از استفاده در یک پروژه بزرگ تجزیه و تحلیل داده‌ها، مربوط به موضوعات مربوط به مشاغل مرتبط است.

تنوع نیز اغلب در مورد مجموعه داده‌های بزرگ اعمال می‌شود، که از داده‌های معامله متعارف کمتر سازگار هستند و ممکن است دارای معانی مختلف باشند یا به روش‌های مختلف از یک منبع داده به دیگری قالب‌بندی شوند؛ عواملی که تلاش‌های دیگر را برای پردازش و تجزیه و تحلیل داده‌ها پیچیده می‌کند. برخی از افراد حتی بیشتر در برابر داده‌های بزرگ نسبت می‌دهند. دانشمندان و مشاوران داده‌ها لیست‌های مختلفی را بین ۷ تا ۱۰ در مقابل ایجاد کرده‌اند.

چگونه داده‌های بزرگ ذخیره و پردازش می‌شوند؟

نیاز به رسیدگی به سرعت داده‌های بزرگ، خواسته‌های بی‌نظیری را در زیرساخت‌های محاسباتی اساسی ایجاد می‌کند. قدرت محاسباتی مورد نیاز برای پردازش سریع حجم‌ها و انواع زیادی از داده‌ها، می‌تواند یک سرور یا سرور کلاستر را تحت الشعاع قرار دهد. سازمان‌ها باید برای دستیابی به سرعت لازم، از ظرفیت پردازش کافی برای کارهای داده‌های بزرگ استفاده کنند. این به طور بالقوه می‌تواند صدها یا هزاران سرور طلب کند که بتوانند کار پردازش را توزیع کنند و در یک معماری کلاستر مشترک، اغلب مبتنی بر فناوری هایی مانند Hadoop و Apache Spark مبتنی بر کار، مشترک باشند.

دستیابی به چنین سرعتی با روشی مقرون به صرفه نیز یک چالش است. بسیاری از رهبران شرکت‌ها برای حمایت از بارهای بزرگ داده، از سرمایه‌گذاری در یک سرور گسترده و زیرساخت‌های انبارداری خودداری می‌کنند، به ویژه مواردی که ۲۴/۷ کار نمی‌کنند. در نتیجه، محاسبات ابری عمومی اکنون وسیله اصلی برای میزبانی سیستم‌های داده بزرگ است. یک ارائه‌دهنده ابر عمومی می‌تواند مقدار حجم petabytes از داده‌ها را ذخیره کرده و تعداد سرورهای مورد نیاز را به اندازه کافی طولانی انجام دهد تا یک پروژه بزرگ تجزیه و تحلیل داده‌ها را انجام دهد. این مشاغل فقط برای ذخیره‌سازی و زمان محاسبه شده در واقع استفاده می‌کند و موارد ابر را می‌توان تا زمانی که دوباره لازم باشد، خاموش کرد.

چالش های بیگ دیتا

علاوه بر ظرفیت پردازش و مسائل مربوط به هزینه، طراحی یک معماری بیگ دیتا، یکی دیگر از چالش‌های رایج کاربران است. سیستم‌های داده بزرگ باید متناسب با نیازهای خاص سازمان تنظیم شوند، یک شرکت DIY که به تیم‌های IT و توسعه‌دهندگان برنامه نیاز دارد تا مجموعه‌ای از ابزارها از تمام فن‌آوری‌های موجود را جمع کنند. استقرار و مدیریت سیستم‌های داده بزرگ همچنین نیاز به مهارت‌های جدیدی را در مقایسه با مواردی که توسط سرورهای بانک اطلاعاتی (DBA) و توسعه دهندگان متمرکز بر نرم افزارهای ارتباطی وجود دارد، دارند.

علاقمند به حوزه امنیت اطلاعات و آشنا به حوزه تست نفوذ
  • facebook
  • twitter
  • googleplus
  • linkedIn
  • flickr

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.