Big Data یا دادههای بزرگ، ترکیبی از دادههای ساختار یافته، نیمه ساختار یافته و بدون ساختار است که توسط سازمانهایی جمعآوری شده است که میتوانند برای تجزیه و تحلیل و دریافت اطلاعات بیشتر، استخراج شوند و در پروژههای یادگیری ماشین، مدلسازی پیشبینی و سایر برنامههای کاربردی پیشرفته تحلیلی مورد استفاده قرار بگیرند.
سیستمهایی که بیگ دیتا را پردازش و ذخیره میکنند، به یک مؤلفه مشترک معماری مدیریت داده در سازمان تبدیل شدهاند. دادههای بزرگ غالباً توسط سه مولفه مشخص میشوند: حجم وسیعی از دادهها در بسیاری از محیطها، طیف گستردهای از انواع دادههای ذخیره شده در سیستمهای دادههای بزرگ و سرعتی که در آن، دادهها تولید، جمعآوری و پردازش میشوند. این خصوصیات ابتدا در سال ۲۰۰۱ توسط Doug Laney، و سپس توسط تحلیلگران شرکت Meta Group، شناسایی شدند. اخیراً، چندین نسخه دیگر در توضیحات مختلف دادههای بزرگ از جمله صحت، ارزش و تغییرپذیری به توضیحات قبلی اضافه شده است. اگرچه دادههای بزرگ با حجم مشخصی از دادهها برابر نیستند، استقرار دادههای بزرگ اغلب شامل ترابایت (TB)، پتابایت (PB) و حتی اگزابایت (EB) از دادههای ضبط شده در طول زمان است.
بیگ دیتا چیست؟
چرا بیگ دیتا مهم است؟
شرکتها از دادههای بزرگ انباشته شده در سیستمهای خود، به منظور بهبود عملکرد، ارائه خدمات بهتر به مشتریان، ایجاد کمپینهای بازاریابی شخصی مبتنی بر ترجیحات خاص مشتری و در نهایت افزایش سودآوری استفاده میکنند. مشاغلی که از دادههای بزرگ استفاده میکنند، یک مزیت رقابتی بالقوه نسبت به مواردی دارند که نمیتوانند از این ویژگی استفاده کنند، که سریعتر و آگاهانهتر تصمیم بگیرند، مشروط بر اینکه از دادهها به طور موثر استفاده کنند. به عنوان مثال، دادههای بزرگ میتوانند به شرکتها بینش ارزشمندی را در مورد مشتریان خود ارائه دهند که میتوانند برای بهبود کارآیی و تکنیکهای بازاریابی به منظور افزایش اشتغال و نرخ تبدیل مشتری استفاده کنند.
علاوه بر این، استفاده از دادههای بزرگ، شرکتها را قادر میسازد به طور فزاینده مشتری محور شوند. از دادههای انباشته شده قدیمی و واقعی، میتوان برای ارزیابی ترجیحات در حال تحول مصرف کننده استفاده کرد، در نتیجه کسب و کارها را قادر میسازد تا استراتژیهای بازاریابی خود را به روز کنند و بهبود بخشند و به خواستهها و نیازهای مشتری پاسخگوتر شوند.
دادههای بزرگ همچنین توسط محققان پزشکی برای شناسایی عوامل خطرات بیماری و توسط پزشکان برای کمک به تشخیص بیماریها و شرایط در بیماران خاص استفاده میشود. علاوه بر این، دادههای به دست آمده از سوابق الکترونیکی بهداشت (EHR)، رسانههای اجتماعی، وب و منابع دیگر، به سازمانهای بهداشت و درمان و آژانسهای دولتی اطلاعات روزانه در مورد تهدیدات و یا شیوع بیماریهای عفونی را ارائه میدهند.
در صنعت انرژی، دادههای بزرگ به شرکتهای نفت و گاز کمک میکند تا مکانهای حفاری بالقوه را شناسایی کنند و بر عملکرد خط لوله نظارت کنند. به همین ترتیب، آب و برق از آن برای ردیابی شبکههای برقی و آبی استفاده میکنند. شرکتهای خدمات مالی از سیستمهای داده بزرگ برای مدیریت ریسک و تحلیل زمان واقعی دادههای بازار استفاده میکنند. تولیدکنندگان و شرکتهای حمل و نقل، برای مدیریت زنجیرههای تأمین و بهینهسازی مسیرهای تحویل به دادههای بزرگ اعتماد دارند. سایر کاربردهای دولت شامل واکنش اضطراری، پیشگیری از وقوع جرم و ابتکار عمل در شهر هوشمند است.
نمونههایی از بیگ دیتا
دادههای بزرگ از منابع مختلف بیشماری از جمله سیستمهای معاملات تجاری، بانک اطلاعاتی مشتران، سوابق پزشکی بیماران، لاگهای مربوط به گشت و گذار در اینترنت، برنامههای تلفن همراه، شبکههای اجتماعی، مخازن تحقیقات علمی، دادههای تولید شده توسط ماشین و سنسورهای داده واقعی در اینترنت، استفاده میکند. دادهها ممکن است به صورت خام در سیستمهای داده بزرگ باقی بماند و یا با استفاده از ابزارهای داده کاوی یا نرم افزار تهیه داده از پیش پردازش شده باشد، بنابراین برای استفادههای خاص از تجزیه و تحلیل آماده است.
با استفاده از دادههای مشتریان به عنوان نمونه، شاخههای مختلف تحلیلی که میتوان با اطلاعات موجود در مجموعه دادههای بزرگ انجام داد، موارد زیر را شامل میشود:
- تحلیل مقایسهای: این مورد شامل بررسی معیارهای رفتار کاربر و مشاهده میزان درگیر شدن مشتری در زمان واقعی به منظور مقایسه محصولات، خدمات و اقتدار برند یک شرکت با نمونههای رقابتی آن است.
- گوش دادن به رسانههای اجتماعی: این اطلاعات در مورد آنچه مردم در رسانههای اجتماعی در مورد یک تجارت یا کالای خاص میگویند، فراتر از آنچه میتواند در نظرسنجی یا مصاحبه ارائه شود، است. از این دادهها میتوان برای مشاهده مخاطبان هدف برای فعالیتهای بازاریابی با مشاهده فعالیت پیرامون موضوعات خاص در منابع مختلف استفاده کرد.
- تحلیل بازاریابی: این مورد شامل اطلاعاتی است که میتواند مورد استفاده قرار گیرد تا تبلیغ محصولات جدید، خدمات و ابتکارات را آگاهتر و خلاقانهتر کنید.
- رضایت مشتری و تحلیل احساسات: تمام اطلاعات جمع آوری شده میتوانند احساس کنند که مشتریان در مورد یک شرکت یا مارک تجاری چه احساسی دارند، در صورت بروز مشکلات احتمالی، چگونگی حفظ وفاداری به برند و چگونگی بهبود تلاشهای مشتری میتواند نشان دهد.
مولفه داده در Big Data
حجم رایجترین ویژگی استناد به Big Data است. یک محیط داده بزرگ نیازی به مقدار زیادی از دادهها ندارد، اما بیشتر آنها به دلیل ماهیت دادههای جمعآوری و ذخیره شده، در آنها انجام میشود. Clickstreams، لاگهای مربوط به سیستم و سیستمهای پردازش جریان از جمله منابعی هستند که بهطور معمول حجم عظیمی از دادههای بزرگ را بهطور مداوم تولید میکنند.
دادههای بزرگ همچنین انواع مختلفی از دادهها را شامل میشود، از جمله موارد زیر:
- دادههای ساخت یافته در پایگاه دادهها و انبارهای دادهها بر اساس ساختار جستجوی ساختار یافته (SQL)
- دادههای بدون ساختار مانند فایلهای متنی و اسناد در کلاستر Hadoop یا سیستمهای پایگاه داده NoSQL
- دادههای نیمه ساختار یافته، مانند گزارشهای سرور وب یا دادههای جریان از سنسورها
همه انواع مختلف داده را میتوان در یک مخزن داده، که معمولاً مبتنی بر Hadoop یا یک سرویس ذخیرهسازی ابری است، ذخیره کرد. علاوه بر این، برنامههای کاربردی دادههای بزرگ اغلب شامل چندین منبع داده هستند که در غیر این صورت ممکن است یکپارچه نباشند. به عنوان مثال، یک پروژه بزرگ تجزیه و تحلیل دادهها، میتواند با ارتباط دادههای فروش گذشته، دادههای برگشتی و دادههای بررسی خریدار آنلاین برای آن محصول، موفقیت یک محصول و فروش آینده را محاسبه کند.
سرعت اشاره به سرعتی که در آن دادههای بزرگ تولید میشوند و باید پردازش و تجزیه و تحلیل شوند، دارد. در بسیاری از موارد، به جای به روزرسانی روزانه، هفتگی یا ماهانه که در بسیاری از انبارهای دادههای سنتی انجام میشود، مجموعه دادههای بزرگ به صورت واقعی یا تقریباً در زمان واقعی به روز میشوند. برنامههای کاربردی تجزیه و تحلیل دادههای بزرگ، دادههای ورودی را با یکدیگر در ارتباط، تجزیه و تحلیل کرده و بر اساس یک سؤال فراگیر پاسخ یا نتیجه میدهند. این بدان معناست که دانشمندان دادهها و سایر تحلیلگران دادهها باید درک دقیقی از دادههای موجود داشته و از این که چه پاسخی را میخواهند بهدست آورند تا اطمینان حاصل کنند که اطلاعات بهدست آمده معتبر و به روز هستند، داشته باشند.
مدیریت سرعت داده نیز مهم است زیرا تجزیه و تحلیل دادههای بزرگ به زمینههایی مانند یادگیری ماشین و هوش مصنوعی (AI) گسترش مییابد، جایی که فرآیندهای تحلیلی بهطور خودکار الگوهای موجود در دادههای جمعآوری شده را پیدا میکنند و از آنها برای تولید بینش (Insights) استفاده میکنند.
مشخصات بیشتر دادههای بزرگ
با نگاهی فراتر از ۳ مولفه اصلی، صحت دادهها به درجه اطمینان در مجموعه دادهها اشاره دارد. دادههای خام نامشخص جمعآوری شده از چندین منبع، مانند سیستم عاملهای رسانههای اجتماعی و صفحات وب، میتوانند باعث ایجاد مشکلات جدی در کیفیت داده شوند که ممکن است تشخیص آنها دشوار باشد. به عنوان مثال، شرکتی که مجموعهای از دادههای بزرگ را از صدها منبع جمع میکند، ممکن است بتواند دادههای نادرست را شناسایی کند، اما تحلیلگران آن برای ردیابی محل ذخیره دادهها به اطلاعات خط داده نیاز دارند تا بتوانند مشکلات را اصلاح کنند.
دادههای بد منجر به تحلیل نادرست میشوند و ممکن است ارزش تحلیل تجاری را تضعیف کنند، زیرا این امر میتواند باعث عدم اعتماد مدیران به طور کلی شود. مقدار دادههای نامشخص در یک سازمان قبل از استفاده در برنامههای کاربردی تجزیه و تحلیل دادههای بزرگ، باید حساب شود. تیمهای فناوری اطلاعات و تجزیه و تحلیل نیز باید از داشتن اطلاعات دقیق کافی برای تولید نتایج معتبر اطمینان حاصل کنند.
برخی دانشمندان داده نیز به لیست ویژگیهای دادههای بزرگ، ارزش افزوده میدهند. همانطور که در بالا توضیح داده شد، تمام دادههای جمعآوری شده دارای ارزش تجاری واقعی نیستند و استفاده از دادههای نادرست میتواند بینشهای ارائه شده توسط برنامه های تحلیلی را تضعیف کند. بسیار مهم است که سازمانها از روشهایی مانند پاکسازی دادهها استفاده کنند و تأیید کنند که دادهها قبل از استفاده در یک پروژه بزرگ تجزیه و تحلیل دادهها، مربوط به موضوعات مربوط به مشاغل مرتبط است.
تنوع نیز اغلب در مورد مجموعه دادههای بزرگ اعمال میشود، که از دادههای معامله متعارف کمتر سازگار هستند و ممکن است دارای معانی مختلف باشند یا به روشهای مختلف از یک منبع داده به دیگری قالببندی شوند؛ عواملی که تلاشهای دیگر را برای پردازش و تجزیه و تحلیل دادهها پیچیده میکند. برخی از افراد حتی بیشتر در برابر دادههای بزرگ نسبت میدهند. دانشمندان و مشاوران دادهها لیستهای مختلفی را بین ۷ تا ۱۰ در مقابل ایجاد کردهاند.
چگونه دادههای بزرگ ذخیره و پردازش میشوند؟
نیاز به رسیدگی به سرعت دادههای بزرگ، خواستههای بینظیری را در زیرساختهای محاسباتی اساسی ایجاد میکند. قدرت محاسباتی مورد نیاز برای پردازش سریع حجمها و انواع زیادی از دادهها، میتواند یک سرور یا سرور کلاستر را تحت الشعاع قرار دهد. سازمانها باید برای دستیابی به سرعت لازم، از ظرفیت پردازش کافی برای کارهای دادههای بزرگ استفاده کنند. این به طور بالقوه میتواند صدها یا هزاران سرور طلب کند که بتوانند کار پردازش را توزیع کنند و در یک معماری کلاستر مشترک، اغلب مبتنی بر فناوری هایی مانند Hadoop و Apache Spark مبتنی بر کار، مشترک باشند.
دستیابی به چنین سرعتی با روشی مقرون به صرفه نیز یک چالش است. بسیاری از رهبران شرکتها برای حمایت از بارهای بزرگ داده، از سرمایهگذاری در یک سرور گسترده و زیرساختهای انبارداری خودداری میکنند، به ویژه مواردی که ۲۴/۷ کار نمیکنند. در نتیجه، محاسبات ابری عمومی اکنون وسیله اصلی برای میزبانی سیستمهای داده بزرگ است. یک ارائهدهنده ابر عمومی میتواند مقدار حجم petabytes از دادهها را ذخیره کرده و تعداد سرورهای مورد نیاز را به اندازه کافی طولانی انجام دهد تا یک پروژه بزرگ تجزیه و تحلیل دادهها را انجام دهد. این مشاغل فقط برای ذخیرهسازی و زمان محاسبه شده در واقع استفاده میکند و موارد ابر را میتوان تا زمانی که دوباره لازم باشد، خاموش کرد.
چالش های بیگ دیتا
علاوه بر ظرفیت پردازش و مسائل مربوط به هزینه، طراحی یک معماری بیگ دیتا، یکی دیگر از چالشهای رایج کاربران است. سیستمهای داده بزرگ باید متناسب با نیازهای خاص سازمان تنظیم شوند، یک شرکت DIY که به تیمهای IT و توسعهدهندگان برنامه نیاز دارد تا مجموعهای از ابزارها از تمام فنآوریهای موجود را جمع کنند. استقرار و مدیریت سیستمهای داده بزرگ همچنین نیاز به مهارتهای جدیدی را در مقایسه با مواردی که توسط سرورهای بانک اطلاعاتی (DBA) و توسعه دهندگان متمرکز بر نرم افزارهای ارتباطی وجود دارد، دارند.