دادههای بزرگ را می توان در سه مورد دسته بندی کرد:
هر دادهای که قابلیت دخیره شدن، قابلیت دسترسی و پردازش را داشته باشد و به یک فرمت ثابت نیز باشد، به عنوان یک “داده ساختار یافته” در نظر گرفته می شود. به مرور زمان، استعدادها در علوم کامیپوتری بیشتر شد و به موفقیت های بیشتری در نکنیک های توسعه ی کار کردن با این داده های ساختار یافته دست یافته است. (که در آن فرمت به خوبی شناخته شدهاست)و همچنین ارزش خود را از آن استخراج میکند. با این حال، در حال حاضر، ما مسائلی را پیشبینی میکنیم که اندازه چنین دادههایی تا حد زیادی رشد میکند. در آینده اندازههای معمول این داده ها به چندین zettabyte خواهد رسید.
آیا میدانید؟.
زتابایت به انگلیسی: Zettabyte یک واحد از اطلاعات که برابر ۱۰۲۴ اگزابایت است. کوتاه شده آن (ZB) میباشد.
۰۰۰ ۰۰۰ ۰۰۰ ۰۰۰ ۰۰۰ ۰۰۰ ۰۰۰ ۱ بایت = 1000 به توان 7 یا 10 به توان 21 !!!
با نگاه کردن به این ارقام بزرگ، به راحتی میتوانید درک کنید که چرا نام “کلان داده” به آنها اختصاص داده شده و چالشهای موجود در ذخیرهسازی و پردازش آنها را تصور میکنید.
آیا میدانید که دادههای ذخیرهشده در یک سیستم مدیریت پایگاهداده رابطهای، یک نمونه از دادههای “ساختار یافته” است؟!
یک جدول از مجموعه ای “کارمند” در پایگاهداده، یک نمونه از دادههای ساختاریافته است.
هر دادهای با فرمت یا ساختار ناشناخته، به عنوان دادههای بدون ساختار طبقهبندی میشود. دادههای بدون ساختار علاوه بر داشتن اندازه بزرگ، ، چالشهای متعددی را از نظر پردازش آن برای استخراج ارزش آن داده ها، به وجود میآورد. نمونه بارز دادههای غیر ساختاریافته، یک منبع داده ناهمگن که شامل ترکیبی از فایلهای متنی ساده، تصاویر، ویدئوها و غیره است. در حال حاضر، سازمانهای امروزی روزانه سرمایه ای از داده ها را در اختیار دارند، اما متاسفانه نمیدانند چگونه از آنها استفاده کنند و اطلاعات ارزشمندی را از آن داده ها استخراج و استنتاج کنند؛ چرا که این دادهها در قالب خام و یا بدون ساختار قرار دارند.
مثالهایی از دادههای غیر ساختاریافته
خروجی که توسط “جستجوی گوگل” بازگردانده می شود
دادههای نیمه ساختار یافته میتوانند هر دو نوع داده (ساختار یافته و غیرساختاریافته) را شامل شوند. ما میتوانیم دادههای نیمه ساختار یافته را به صورت ساختاریافته ببینیم اما این داده ی نیمه ساختاریافته، به صورتی که بخواهیم آنها را به عنوان یک جدول رابطه ای در نظر بگیریم، در DBMS تعریف نشده است.
مثالی از دادههای نیمه ساختار یافته، می توان به داده هایی که درون یک فایل XML است اشاره کرد.
مثالهایی از دادههای نیمه ساختار یافته
اطلاعات شخصی ذخیرهشده در یک سند XML –