فناوری بیگ دیتا (Big Data) یا کلان داده در عصر دیجیتالی امروز میتواند به تجزیهوتحلیل دادههای گسترده و بهرهمندی از آنها کمک کند.
در این مطلب قصد داریم ببینیم بیگ دیتا چیست، چه ویژگیهایی دارد، به چند دسته تقسیم میشود، با چه فناوریها و تکنیکهایی در ارتباط است و چه کاربردهایی دارد.
بیگ دیتا چیست؟
در جامعه امروز روزانه حجم گستردهای از دادهها ایجاد شده و حجم دادههای تولیدی لحظهبهلحظه بیشتر میشود. مطمئناً با افزایش باورنکردنی تعداد سیستمها و دستگاههای دیجیتالی و گسترش استفاده از فناوریهایی مانند اینترنت اشیا و هوش مصنوعی، در آینده در تمام حوزههای دیجیتالی با سونامی عظیمی از دادهها مواجه خواهیم شد.
اگرچه با بهرهمندی از دادههای مختلف میتوان به تصمیمگیری بهتر، اتخاذ رویکرد و راهحلهای مناسب و همچنین بهبود عملکرد کسبوکارها و صنایع مختلف کمک کرد، اما برای تحقق این هدف باید دادهها بهشکل مناسبی پردازش و تجزیهوتحلیل شوند. مطمئناً در آینده روشهای قدیمی یا حتی روشهای متداول کنونی برای پردازش و تجزیهوتحلیل حجم گستردهای دادهها کافی نیستند. اینجاست که بیگ دیتا به کمک ما میآید.
کلمه بیگ دیتا یا کلان داده برای تعریف دادههای گسترده و پیچیده پردازشنشده استفاده میشود. پردازش کلان دادهها با استفاده از ابزارهای متداول امروزی دشوار و البته زمانبر است؛ اما اجازه دهید قبل از اینکه بیشتر در مورد مفهوم توضیح دهیم، ببینیم اصولاً به چه دادههایی کلان داده یا بیگ دیتا گفته میشود.
ویژگیهای کلان دادهها
کلان دادهها دارای شش ویژگی هستند که شامل موارد زیر میشود:
- حجم بالا (Volume)
- تنوع گسترده (Variety): این ویژگی باعث دشوارشدن فرایند تجزیهوتحلیل کلان داده میشود
- سرعت بالا در تولید (Velocity): کلان دادهها با سرعت بالایی تولید میشوند و طبیعتاً باید با سرعت بالایی هم آنالیز و پردازش شوند.
- متغیربودن (Variability): برخی از دادهها اصلاً ثابت نیستند و پیوسته درحال تغییرند. مطمئناً پردازش چنین دادههایی و مدیریت آنها دشوار و نیازمند بهرهمندی از راهحلهای کارآمدی است.
- قابلاستفاده بودن در حوزههای مختلف (Veracity): کلان دادهها میتوانند در گستره وسیعی از زمینههای مختلف استفاده شوند؛ بنابراین از دقت بالایی برخوردار هستند.
- پیچیدهبودن (Complexity): در برخی از موارد کلان دادهها بسیار پیچیده هستند و پردازش آنها فرایند بسیار پیچیدهای محسوب میشود؛ مخصوصاً اگر از چند منبع مختلف جمعآوریشده باشند.
دستهبندی کلان دادهها
اکنون که میدانیم بیگ دیتا چیست، اجازه دهید با دستهبندی آن نیز آشنا شویم. کلان دادهها به سه دسته تقسیم میشوند. دسته اول، دادههای دارای ساختار یا ساختیافته (structured big data) هستند که میتوان آنها را در قالب مجموعه دادهها (Data sets) بهصورت مرتب (مثلاً در ستونها و ردیفهای مشخص) در پایگاههای داده و صفحات گسترده (اسپریت شیتها) ذخیره کرد. خواندن و پردازش چنین اطلاعاتی برای ابزارهای متداول طراحیشده برای این منظور، کار سادهای است.
اطلاعاتی مانند اسامی، دادهها، آدرسها، شماره کارتهای بانکی، اطلاعات سهام و موقعیت جغرافیایی، مثالهایی از کلان دادههای دارای ساختار هستند.
دسته دوم کلان دادهها، دادههای بدون ساختار یا ساختنیافته (unstructured big data) هستند. این دادهها با فرمت پایگاه داده ذخیره نمیشوند و دارای ساختار نیستند؛ البته دادههای بدون ساختار، یک ساختار داخلی مختص به خود دارند؛ اما چنین ساختاری در مدلهای دادهها قابل پیشبینی نیست. این دسته از کلان دادهها ممکن است توسط انسان یا ماشین با فرمت متنی یا غیرمتنی ایجاد شده باشند. تبدیل دادههای بدون ساختار به دادههای دارای ساختار امکانپذیر است؛ اما فرایند زمانبری دارد.
اطلاعاتی مانند اطلاعات مرتبط با سرگرمی و رسانهها، اینترنت اشیا، دادههای مرتبط با سنسورها، اطلاعات اسناد، صورتحسابها، اطلاعات ثبتشده و اطلاعات مرتبط با هوش مصنوعی و یادگیری ماشینی، مثالهایی از کلان دادههای بدون ساختار هستند.
دسته سومی از کلان دادهها نیز وجود دارد که کلان دادههای نیمهساختیافته (semi-structured) نام دارند و میتوان آنها را جزو کلان دادههای دارای ساختار دستهبندی کرد. این دادهها بهدلیل عدم برخورداری از ساختار دارای فرمت، نمیتوانند در جداول و مدلهای دادهای قرار گیرند و ارائه شوند، اما بدون ساختار هم نیستند؛ این دادهها دارای تگها، علامتها و شاخصهایی هستند که میتوانند برای دستهبندی دادهها و ایجاد فیلدها استفاده شوند.
دادههای مرتبط با ایمیلها، XML و دیگر زبانهای نشانهگذاری، فایلهای زیپشده، دادههای ادغامشده و استخراجشده از منابع مختلف و دادههای مرتبط با صفحات وب، مثالهایی از دادههای نیمهساختیافته هستند.
مهمترین فناوریها و تکنیکهای مورد استفاده در بیگ دیتا
همانطور که گفتیم پردازش و آنالیز کلان دادهها دشوار است. برای انجام این کار باید از تکنیکها و فناوریهای مختلف استفاده کرد. مهمترین تکنیکها و فناوریهای مورد استفاده در این حوزه به سه دسته تقسیم میشوند:
تجزیهوتحلیل دادهها
- آزمون A/B: اینتکنیک برای تشخیص گزینه مناسبتر از بین دو گزینه (گزینه A/B) استفاده میشود. آزمون A/B درحقیقت برای مقایسه نتایج یک آزمایش در دو حالت و نیز انتخاب حالت و روش مناسب بهکار گرفته میشود.
- یادگیری ماشینی: این فناوری که یکی از فناوریهای زیرمجموعه هوش مصنوعی محسوب میشود، توانایی تقلید از هوش انسانی را دارد. یادگیری ماشینی جهت آموزش سیستمهای کامپیوتری برای انجام وظایف بسیار پیچیده استفاده میشود. تجزیهوتحلیل کلان دادهها یکی از این وظایف است.
- پردازش زبان طبیعی: این فناوری نیز یکی از فناوریهای زیرمجموعه هوش مصنوعی است. با ادغام فناوری پردازش طبیعی در سیستمهای کامپیوتری، این سیستمها میتوانند متن و گفتار را درست به همان صورتی که انسان آنها را میفهمد، درک کنند.
فناوریهای بیگ دیتا
- هوش تجاری: با استفاده از این فناوری میتوان فرایندهای مرتبط با تحلیلهای تجاری، استخراج دادهها، تجسمسازی دادهها و همچنین زیرساختها و ابزارهای مرتبط با دادهها و بهترین اقدامات را برای کمک به سازمانها جهت افزایش میزان اتخاذ تصمیمات دادهمحور، با یکدیگر ترکیب کرد.
- رایانش ابری: منظور از فناوری رایانش ابری، ارائه سرویسهای محاسباتی در فضای ابری است. این سرویسها شامل ایجاد سرور، پایگاه داده، شبکه، نرمافزار، ابزارهای تجزیهوتحلیل، ابزارهای هوش مصنوعی و همچنین ذخیرهسازی در فضای ابری است.
- پایگاه داده: پایگاه داده به زبان ساده مجموعهای سازمانیافته از اطلاعات یا دادههای دارای ساختار است که معمولاً بهصورت الکترونیکی در سیستمهای کامپیوتری ذخیره میشوند.
- ابزار ارائه بصری دادهها مثل چارتها و دیگر ابزار نمایش دادهها
کاربرد بیگ دیتا در حوزههای مختلف
اکنون که بهخوبی میدانیم بیگ دیتا چیست، اجازه دهید ببینیم چه کاربردهایی دارد. بیگ دیتا در حوزههای مختلف کاربردهای متعددی دارد؛ البته اصلیترین کاربرد این فناوری، آنالیز دادههاست که در حوزههای مختلف با اهداف مختلف انجام میشود: مهمترین موارد کاربرد کلان داده در حوزههای مختلف به شرح زیر است:
دولت و انتخابات
بدون تردید پیوسته دادههای بسیار زیادی در بخشهای دولتی ایجاد میشود که تجزیهوتحلیل دقیق، درست و سریع آنها بسیار مهم است. میتوان با کمک فناوریهای مرتبط با کلان دادهها بهترین سیاستها، خطیمشیها، تصمیمات و اقدامات دولتی را اتخاذ کرد.
سیاستمداران میتوانند با بهرهمندی از فناوریهای مذکور، در انتخابات نیز پیروزی قاطعی بهدست آورند. حزب بهاراتیا جاناتای هند و متحدانش و نیز ستاد انتخاباتی اوباما در سال ۲۰۱۲، با این روش توانستند در انتخابات پیروز شوند.
شبکههای اجتماعی
در عصر فناوری کنونی، شبکههای اجتماعی یکی از اصلیترین منابع تولیدکننده سیلی از دادهها هستند. راهحلهای جدید زیادی برای آنالیز دادههای شبکههای اجتماعی روی پلتفرمهای بیگ دیتا ایجاد شدهاند. ابزار نرمافزاری Cognos Consumer که توسط IBM ارائه و بر پلتفرم کلان داده این شرکت با نام BigInsights اجرا شده، با همین هدف ایجاد شده است.
با آنالیز دادههای شبکه اجتماعی میتوان به نگرشهای مختلف و ارزشمند دست یافت. همچنین میتوان با این روش نگرشها و رویکردها را متناسب با شرایط و وضعیتها تغییر داد و آنها را بهروز کرد.
صاحبان کسبوکارها و صنایع مختلف و افراد فعال در حوزه تبلیغات نیز میتوانند با کمک آنالیز دقیق دادههای شبکههای اجتماعی، بهترین تصمیمات و رویکردها را در زمینههایی مثل قیمتگذاری و تعیین نوع کالا، خدمات خود و شیوه عرضه آنها اتخاذ کنند. همچنین میتوان برای بررسی دقیق پژوهش و نظرسنجیهای انجامشده در بستر شبکههای اجتماعی نیز از فناوریهای بیگ دیتا بهرهمند شد.
ارائه اطلاعات لازم به کاربران هنگام جستجوی آنها در پلتفرمهای تعاملی آنلاین
استفاده از تکنیکهای کلان داده برای ارائه اطلاعات در حوزه فناوری بسیار ضروری است. ارائه نتایج جستجوها در بخشهای مختلف ازجمله موتورهای جستجو، ارائه پیشنهادها و اطلاعات لازم به کاربران، بدون استفاده از این تکنیکها امکانپذیر نیست.
در فروشگاه اینترنتی eBay برای ارائه چنین اطلاعاتی، از دادههای موجود در یک انبار داده ۷.۵ پتابایتی و یک Hadoop cluster (محیطی توزیعشده برای ذخیرهسازی دادههای دارای ساختار) ۴۰ پتابایتی استفاده میشود.
در زیرساخت فروشگاه اینترنتی آمازون که هر روز در آن میلیونها عملیات بکاند (پردازش دادههای ورودی سایت) انجام و بیش از نیم میلیون از تقاضاهای فروشندگان شخص ثالث بررسی میشوند نیز از فناوریهای کلان داده در مقیاس بسیار گستردهای استفاده میشود. فناوری اصلی کلان داده مورد استفاده در فروشگاه آمازون بر پایه لینوکس ایجاد شده است.
سه مورد از بزرگترین پایگاههای داده لینوکس با ظرفیتهای ۷.۸، ۱۸.۵ و ۲۴.۷ ترابایت متعلق به این فروشگاه هستند. فیسبوک هم مجموعه عظیمی از تصاویر بارگذاریشده توسط کاربران (با ۵۰ میلیارد تصویر) را مدیریت میکند.
تشخیص کلاهبرداری
صاحبان برخی از کسبوکارها ازجمله بیمهگذاران همیشه با ادعاهای مختلفی مواجه هستند که معمولاً میزان قابلتوجهی از این ادعاها فریبکارانهاند و به قصد کلاهبرداری مطرح میشوند. با فناوریهای کلان داده میتوان برای شناسایی ادعاهای کلاهبردارانه و فریبکارانه، ادعاهای مطرحشده در زمینههای مختلف را لحظهبهلحظه آنالیز کرد. شناسایی رفتارهای غیرعادی از سوی کاربران نیز با این روش امکانپذیر است.
بررسی دادههای مراکز تماس
دادههای مراکز تماس نیز منبع خوبی برای دستیابی به نگرشهای و رویکردهای مناسب و سازنده در زمینه بازاریابی و تبلیغات هستند. شاید نیروی انسانی بتواند این دادهها را تجزیهوتحلیل کند، اما طبیعتاً ممکن است اطلاعات ارزشمند پنهان در میان چنین دادههایی نادیده گرفته شود یا بهموقع تشخیص داده نشود.
همچنین ممکن است تماسگیرندگان مشکلات مشابهی را گزارش کنند و نیرویهای انسانی سریعاً نتوانند به آن مشکل پی ببرند. با کمک فناوریهای کلان داده و آنالیز سریع دادهها میتوان هر دو مشکل را بهشکل مطلوبی برطرف کرد.
همچنین درصورت استفاده از این فناوریها میتوان الگوهای رفتاری مشتریان و پاسخدهندگان را در مدت کوتاهی مشخص کرد. در برخی از موارد میتوان فرایند آنالیز دادههای مراکز تماس را کاملاً خودکار کرد. این کار هم باعث کاهش هزینههای مرکز تماس در زمینه استخدام و آموزش نیروی انسانی میشود و هم به بهبود پاسخگوی این مراکز کمک میکند.
دستیابی به اطلاعات مهم در کشاورزی
کشاورزان باید به دادههای زیادی دسترسی داشته باشند تا بتوانند محصول باکیفیتی را برداشت کرده و از مواجهه با خسارات مالی شدید جلوگیری کنند. فناوریهای کلان داده میتوانند به کشاورزان برای دستیابی بهموقع به این دادهها و تصمیمگیریهای مهم بر مبنای آنها کمک کنند. این دادهها شامل اطلاعات لازم برای بهینهسازی کیفیت محصولات و اطلاعات لازم در مورد شرایط آبوهوایی، میزان دما و رطوبت، ترکیبات و شرایط خاک، سطح آبهای زیرزمینی و غیره میشود.
سایر موارد مهم کاربرد بیگ دیتا در حوزههای مختلف به شرح زیر است:
- اطلاع از شرایط بازارهای مالی
- تحلیل خطر سرمایهگذاری
- تولید محتواهای مختلف برای مخاطبین هدف
- دستیابی به اطلاعات لازم برای تجویز داروی مناسب برای هر یک از بیماران متناسب با شرایط آنها
- دستیابی به اطلاعات لازم برای انتخاب بهترین روش آموزشی در هر یک از حوزههای آموزشی
- دستیابی به اطلاعات لازم برای تصمیمگیری در مورد انتخاب بهترین روشهای تولید و همچنین دستیابی به روشهای مؤثر برای مقابله با چالشها و مشکلات مرتبط با تولید محصولات
- دستیابی به اطلاعات ضروری برای حفظ مشتریان در کسبوکارهای خدماتی مختلف (مثل بیمه) و ارتقای کیفی سرویسدهی در آنها
- اطلاع لحظهبهلحظه از موجودی زنجیرههای تأمین
- دستیابی به اطلاعات ضروری برای ارائه خدمات لجستیک با سرعت و امنیت بالا و بدون خطا
- کنترل و مدیریت بهتر ترافیک، پیشنهاد مسیرهای مناسب به رانندگان، بهبود عملکرد سیستمهای حملونقل هوشمند و همچنین تعیین تعداد لازم مراکز فروش و ارائه خدمات در هر مسیر و بخش برای صرفهجویی در مصرف سوخت وسایل نقلیه افراد و همچنین صرفهجویی در زمان آنها
- مدیریت بهتر نیروی کار، منابع و داراییها
- دستیابی به اطلاعات لازم برای انتقال و توزیع بهتر انرژی