فصل اول: دریچه ورود به دنیای بیگ دیتا
فصل دوم: ابزارهای فنی کار با بیگ دیتا

درس اول: آپاچی هدوپ

در بازه‌اي تقریباً دو ساله، هدوپ، یک نرم‌افزار اپن سورس رایگان، که از روی یک اسباب بازی نام‌گذاری‌شده بود، بسیاری از سایت‌هاي بزرگ و معروف دنیا را تسخیر‌کرد. این نرم‌افزار هم‌اکنون موتورهای جست‌وجوی بزرگ را کنترل مي‌کند و درباره نمایش تبلیغات در کنار نتایج جست‌وجو تصمیم مي‌گیرد، مطالبی را که در صفحه نخست یاهو نمایش داده مي‌شوند،تعیین مي‌کند یا در یافتن دوستی بسیار قدیمی در یک شبکه اجتماعی نقشی اساسی ایفا مي‌كند. هدوپ چنین قدرتی را از طریق ارزان سازی و ساده‌سازی تحلیل حجم غیر‌قابل تصور‌داده‌هایی که در سطح اینترنت پراکنده‌اند، به دست آورده‌است. با فراهم‌شدن امکان نگاشت اطلاعات روی هزاران كامپيوتر ارزان و خلق روش‌هاي آسان‌تر برای نوشتن پرس و جوهای تحلیلی، مهندسان از شر چالش‌هاي بزرگ برای واکاوی داده‌ها خلاص شده‌اند و به سادگی، سؤال‌شان را مي‌پرسند.

به زبان ساده، هدوپ یک فریم‌ورک کلی پردازشی است که برای اجرای پرس‌و‌جوها و دیگر عملیات تکراری روی مجموعه‌هاي داده‌اي عظیم با حجم­‌های ترابایت و حتی پتا‌بایتی طراحی‌شده است. در این نرم‌افزار، داده­‌ها در یک سیستم فایلی مخصوص و توریع یافته با نام HDFS (سرنامHadoop Distributed File System) ذخیره‌سازی و بارگذاری مي‌شوند.

این پروژه که هم اکنون یکی از پروژه‌هاي سطح بالای آپاچی است، بر اساس مفهوم Map Reduce و GFS معرفی شده از طرف گوگل توسعه داده‌شده است. هدوپ برای نخستين‌بار توسط فردی با نام دوگ کاتینگ(Doug Cutting) برای پشتیبانی از توزیع‌شدگی در پروژه موتور جست وجوی Nutch ایجاد شد. کاتینگ نام پروژه را از روی فیل عروسکی پسرش انتخاب کرد.

هم اکنون، تعداد بسیار زیادی از توسعه دهندگان در رشد و توسعه آن نقش دارند و در حوزه ذخیره‌سازی و مدیریت داده‌هاي عظیم توجه زيادي به آن شده است. هم‌اکنون، بزرگ‌ترین شرکت سهیم در توسعه هدوپ یاهو است که به طور گسترده‌اي از امکانات آن در تجارت خود استفاده مي‌كند.

اسکرول به بالا