فصل اول: دریچه ورود به دنیای بیگ دیتا
فصل دوم: ابزارهای فنی کار با بیگ دیتا

درس دوم: ویژگی های اصلی بیگ دیتا

برای کلان داده در ابتدا سه ویژگی (3V) گفته می‌شد؛ اما حالا می‌گویند کلان‌داده دارای چند ویژگی زیر است.

۱. حجم زیاد (Volume)

وقتی از داده‌های کلان صحبت می‌کنیم، مشخص است که منظورمان چند صد ردیف مشخصات افراد در فایل اکسل باشگاه مشتریان نیست.

زمانی می‌توان از اصطلاح کلان‌داده استفاده کرد که حجم داده‌های جمع شده آنقدر بزرگ باشد که با ابزارهای معمولی نتوانیم آن‌ها را تحلیل کنیم.

در ضمن دقت کنید که استفاده از واحدهای اندازه‌گیری مثل ترابایت یا پتابایت هم برای تعریف حجم داده چندان درست نیست؛ چون وابسته به نوع داده است. مثلاً حجم فیلم و تصویر قابل مقایسه با نوشتار نیست.

۲. نرخ تولید بالا (Velocity)

در بسیاری از موارد جمع‌آوری داده‌ها به صورت مقطعی نیست. یعنی این داده‌ها همچنان تولید می‌شوند و حجم اطلاعات بزرگ‌تر و بزرگ‌تر می‌شود.

به لطف اینترنت و فناوری‌های جمع‌آوری داده (از سنسورها بگیرید تا اپلیکیشن‌های گوشی)، جمع‌آوری حجم زیاد اطلاعات کار آسانی شده است.

بهترین مثال از نرخ تولید بالای داده، شبکه‌های اجتماعی هستند. در هر ثانیه میلیون‌ها نفر در شبکه‌های اجتماعی فعالیت می‌کنند.

۳. تغییر پذیری و تنوع زیاد (Variety)

همه این اطلاعات یک‌دست و یک نوع نیستند. برای مثال در شبکه اجتماعی توئیتر روزانه میلیون‌ها نوشته، عکس، ویدیو و لینک به اشتراک گذاشته می‌شود. هرکدام از توئیت‌ها خودشان حاوی ده‌ها اطلاعات دیگر هستند؛ از اطلاعات ساده‌ای مثل ساعت و تاریخ توئیت تا اطلاعات عمیق‌تر مثل موضوع محتوا و چگونگی واکنش کاربران به آن. راستی اگر یادتان باشد، در داستان کتاب‌فروشی آقای جعفری هم از چند نوع داده مختلف استفاده شده بود.

داخل پرانتر: پس یادتان نرود که اگر در توئیتر فعالیت می‌کنید، مواظب توئیت‌هایی که یک‌دفعه فیواستار میشوند و از شما می‌خواهند نام شهر، خاطره، سن و … را بگویید، باشید. این داده‌ها ممکن است بعدها در جاهای دیگری استفاده شوند.

۴. صحت داده‌ها (Veracity)

داده‌هایی را می‌توان در رده بیگ دیتا قرار داد که از صحت آن مطمئن باشیم. این ویژگی کلان داده‌ شاید بدیهی به نظر برسد اما همین اطمینان از صحت منابع، استاندارها و شاخص‌های پیچیده و تخصصی دارد که به تحلیل‌گرها کمک می‌کند به خطا نروند.

در مرحله فیلتر کردن داده‌ها اطمینان یافتن از صحت خیلی مهم است. اگر داده‌ها صحت کافی نداشته باشند، همه مراحل بعدی تحت تاثیر قرار می‌گیرد و نتایج درستی حاصل نخواهد شد.

۵. ارزش (value)

برای فهمیدن این که داده ارزش دارد یا نه، باید پاسخ یک سوال مهم را پیدا کرد:

چطور می‌توان از داده‌ها برای استخراج چیزی بامعنی در راستای اهداف افراد یا کسب‌وکارها استفاده کرد؟

داده‌ای ارزشمند است که در رسیدن به این هدف کمک کند؛ واگرنه بیشتر داده‌ها بی‌ارزش هستند. در بسیاری از سازمان‌ها و شرکت‌ها، روزانه حجم زیادی داده تولید می‌شود که شاید مدیران در نگاه اول فکر کنند با ارزش هستند اما در واقع داده‌هایی هرز باشند.

اسکرول به بالا