برای کلان داده در ابتدا سه ویژگی (3V) گفته میشد؛ اما حالا میگویند کلانداده دارای چند ویژگی زیر است.
وقتی از دادههای کلان صحبت میکنیم، مشخص است که منظورمان چند صد ردیف مشخصات افراد در فایل اکسل باشگاه مشتریان نیست.
زمانی میتوان از اصطلاح کلانداده استفاده کرد که حجم دادههای جمع شده آنقدر بزرگ باشد که با ابزارهای معمولی نتوانیم آنها را تحلیل کنیم.
در ضمن دقت کنید که استفاده از واحدهای اندازهگیری مثل ترابایت یا پتابایت هم برای تعریف حجم داده چندان درست نیست؛ چون وابسته به نوع داده است. مثلاً حجم فیلم و تصویر قابل مقایسه با نوشتار نیست.
در بسیاری از موارد جمعآوری دادهها به صورت مقطعی نیست. یعنی این دادهها همچنان تولید میشوند و حجم اطلاعات بزرگتر و بزرگتر میشود.
به لطف اینترنت و فناوریهای جمعآوری داده (از سنسورها بگیرید تا اپلیکیشنهای گوشی)، جمعآوری حجم زیاد اطلاعات کار آسانی شده است.
بهترین مثال از نرخ تولید بالای داده، شبکههای اجتماعی هستند. در هر ثانیه میلیونها نفر در شبکههای اجتماعی فعالیت میکنند.
همه این اطلاعات یکدست و یک نوع نیستند. برای مثال در شبکه اجتماعی توئیتر روزانه میلیونها نوشته، عکس، ویدیو و لینک به اشتراک گذاشته میشود. هرکدام از توئیتها خودشان حاوی دهها اطلاعات دیگر هستند؛ از اطلاعات سادهای مثل ساعت و تاریخ توئیت تا اطلاعات عمیقتر مثل موضوع محتوا و چگونگی واکنش کاربران به آن. راستی اگر یادتان باشد، در داستان کتابفروشی آقای جعفری هم از چند نوع داده مختلف استفاده شده بود.
داخل پرانتر: پس یادتان نرود که اگر در توئیتر فعالیت میکنید، مواظب توئیتهایی که یکدفعه فیواستار میشوند و از شما میخواهند نام شهر، خاطره، سن و … را بگویید، باشید. این دادهها ممکن است بعدها در جاهای دیگری استفاده شوند.
دادههایی را میتوان در رده بیگ دیتا قرار داد که از صحت آن مطمئن باشیم. این ویژگی کلان داده شاید بدیهی به نظر برسد اما همین اطمینان از صحت منابع، استاندارها و شاخصهای پیچیده و تخصصی دارد که به تحلیلگرها کمک میکند به خطا نروند.
در مرحله فیلتر کردن دادهها اطمینان یافتن از صحت خیلی مهم است. اگر دادهها صحت کافی نداشته باشند، همه مراحل بعدی تحت تاثیر قرار میگیرد و نتایج درستی حاصل نخواهد شد.
برای فهمیدن این که داده ارزش دارد یا نه، باید پاسخ یک سوال مهم را پیدا کرد:
چطور میتوان از دادهها برای استخراج چیزی بامعنی در راستای اهداف افراد یا کسبوکارها استفاده کرد؟
دادهای ارزشمند است که در رسیدن به این هدف کمک کند؛ واگرنه بیشتر دادهها بیارزش هستند. در بسیاری از سازمانها و شرکتها، روزانه حجم زیادی داده تولید میشود که شاید مدیران در نگاه اول فکر کنند با ارزش هستند اما در واقع دادههایی هرز باشند.