اجداد ما انسانها تا قبل از کشف وجود اجرام آسمانی هیچ ایدهای درباره نقاط نورانی که هر شب میدیدند نداشتند. آنها وقتی به آسمان شب خیره میشدند سعی میکردند با وصل کردن نقاط نورانی در تخیل خود موجوداتی بسازند یا آنها را به اتفاقات روزمره ربط دهند. هزاران سال از آن شبهای مبهم گذشته است و اکنون خیلی چیزها را فهمیدهایم. انسانها عاشق وصل کردن نقاط مبهم برای پیدا کردن معنی و ارتباط هستند.
حالا انسانها با کمک رایانهها به راحتی میتوانند مفاهیم و اطلاعات بهدردبخوری را از میان انبوهی از دادههای نامفهوم و بدون ساختار استخراج کنند. این انبوه داده همان چیزی است که به آن میگوییم بیگ دیتا (big data) یا کلان داده.
بیگ دیتا یک واژه باب روز (Buzzwords) برای فرایندهایی شامل جمعآوری، استخراج و تحلیل دادههایی پیچیده است که با ابزارهای معمول نمیتوان از آنها برای دستیابی به اهداف استفاده کرد.
این تعریف ساده بیگ دیتا همه ماجرا را بیان نمیکند. در واقع اصطلاح بیگدیتا فقط به دادهها اشاره میکند در حالی که بخش بزرگی از این فرایند بر عهده علم داده (Data science)، استخراج داده (data mining)، تحلیل داده (Data analysis)، یادگیری ماشین (Machine learning) و در ابعاد بزرگتر، هوش مصنوعی است.
در این درس قرار است تعریف بیگ دیتا یا همان کلانداده را واضحتر بیان کنیم و بعد کاربردها، راهکارها، ابعاد و چالشهای آن را مرور کنیم.
بیگ دیتا چیست؟ به زبان ساده
اگر بخواهیم بیگدیتا را خیلی ساده و خودمانی تعریف کنیم، داستان کتابفروشی آقای جعفری کار را راحت میکند.
آقای جعفری یک کتابفروشی قدیمی در مرکز شهر دارد. او از همان دوران جوانی که کتابفروشی را از پدرش به ارث برد یک دفتر روی میزش گذاشت و عنوان هر کتابی که فروخته میشد را در کنار تاریخ و قیمت کتاب مینوشت. با این دفتر هم حساب و کتابش را داشت، هم موقع سفارش کتاب از آن استفاده میکرد.
آقای جعفری هر وقت میخواست به توزیعکنندههای کتاب سفارش خرید دهد نگاهی به دفتر فروش میانداخت و کتابهایی را سفارش میداد که بیشتر فروش میرفت، موضوعاتی که طرفدار بیشتری داشتند انتخاب میکرد و حواسش به این هم بود که کتابهایی را لیست کند که در طیف قیمتی کتابهای پرفروش باشند.
کتابفروش داستان ما با این کار توانست تا چندین سال فروش خود را بیشتر کند و نسبت به دیگر کتابفروشیها درآمد بیشتری داشته باشد. او در این مدت علایق مشتریان ثابتش را فهمیده بود و حتی در مواردی به انتخابهای او اعتماد بیشتری داشتند.
آقای جعفری وقتی به دوران پیری رسید پسر جوانش در کتابفروشی کمکش میکرد. علی پسر آقای جعفری کامپیوتری را به کتابفروشی آورد تا جستجوی موجودی کتابها، ثبت سفارش اینترنتی، حسابرسی مالیات و … را با نرمافزارهای رایانه انجام دهد.
علی متوجه شد فروش کتاب کمتر و کمتر میشود و یکی از دلایل آن تمایل مردم به خرید اینترنتی بود. پس او هم به سرعت یک فروشگاه اینترنتی راهاندازی کرد و فروش کتاب با فروشگاه اینترنتی بهتر شد.
علی از افزایش فروش خوشحال بود؛ اما فکر کرد حتماً راههای دیگری هم برای افزایش هرچه بیشتر فروش باید باشد، پس شروع به جستجو و تحقیق کرد تا راهی برای افزایش فروش پیدا کند.
علی متوجه شد اگر اطلاعاتی دقیق درباره مشتریان داشته باشد میتواند پیشبینی کند هر مشتری در آینده تمایل دارد چه کتابی بخواند و همان کتاب را به او پیشنهاد دهد. این همان تجربه و مهارتی بود که پدرش در طول سالها به دست آورده بود.
علی که در ابتدا نمیدانست چه کار باید بکند ساعتها جستجو کرد، تا این که مطالبی درباره داده و دادهکاوی خواند.
او به سرعت یک شرکت دادهکاوی پیدا کرد و درخواستش را مطرح کرد. آنها به علی پیشنهاد دادند که با جمعآوری دادههایی از اینترنت کتاب بعدی که هر مشتری میخواهد بخواند را پیشبینی کنند.
آنها دادههایی از منابع زیر جمع کردند:
- مشخصات فردی مشتریان
- لیست کتابهایی که خواندهاند
- فعالیتشان در شبکههای اجتماعی مثل لایکها
- علاقهمندیهایی مثل تیم فوتبال یا موسیقی مورد علاقه
- واکنش به تبلیغات و پیشنهادها
- دادههایی از فعالیت سایر مردم در شبکههای اجتماعی مثل نظر در پستهای اینستاگرامی
- توئیتهایی که درباره کتاب هستند
- مقالات منتشر شده با موضوع کتاب
- آمارهایی از کتابهای پرجستجو در اینترنت
اگر یک نفر علاقه به خواندن رمانهای علمی-تخیلی دارد و در تحلیل دادههای حاصل از شبکههای اجتماعی مشخص شود مردم در حال گفتگو درباره کتاب علمی-تخیلی جدید هستند، با مطابقت دادن پرسونای مشتری و کتاب جدیدی که هنوز نخوانده است، میتوان در قالب یک پیام، کتاب جدید را به او پیشنهاد داد.
علی که توانسته بود فروشگاه اینترنتی خودش را با موفقیت راهاندازی کند از وارد شدن به دنیای دادهها هم نترسید و پیشنهاد شرکت داده کاوی را قبول کرد.
بعد از جمعآوری حجم زیادی از دادهها و طراحی مدلی مبتنی بر بیگدیتا، فروشگاه علی به یکی از پرفروشترین کتابفروشیهای اینترنتی تبدیل شد. رمز موفقیت علی همین پیشنهادهای کتاب هوشمندی بود که از طریق بیگ دیتا به دست آمد.
با این روش هر کتاب جدیدی که منتشر میشد به صورت هدفمند به اطلاع مشتریهایی که به احتمال بالای ۹۰ درصد علاقه به خواندنش داشتند میرسید و بالای ۵۰ درصد مشتریان کتاب پیشنهادی را میخریدند.
اگر علی از همان روش پدرش برای فهرست کردن همه اطلاعات مشتریان و علایق جامعه به کتابهای جدید استفاده میکرد، حتماً نمیتوانست با این کیفیت و در زمانی محدود راهی برای پیشنهاد کتاب به مشتریان پیدا کند.
در این مثال از دو نوع منبع برای جمعآوری دادهها استفاده شد:
- دادههای از مشتریان سابق
- دادههای از محتواهای تولید شده توسط مردم در فضای مجازی
ارتباط دادههای حاصل از این دو منبع مدلی ایجاد کرد که به کمک آن میتوان پیشنهادهای شخصیسازی شده و هدفمندی به مشتریان ارائه داد.
این فقط یک مثال فرضی و ساده از چگونگی کاربرد بیگ دیتا بود.