آشنایی با ویژگی و بُعد در یادگیری ماشین

مهندسی ویژگی‌ و استخراج و انتخاب ویژگی

در این گام استخراج ویژگی و انتخاب ویژگی تاثیرگذار و انواع روش‌های آن مورد بحث قرار می‌گیرد. برای درک بهتر این مرحله یک مثال ساده می آوریم. برای مثال فرض کنید شرکت گوگل می‌خواهد یک الگوریتم توسعه دهد که با آن بتواند بفهمد که یک ایمیلْ هرزنامه است یا خیر؟ برای این کار بایستی ویژگی‌های مختلفی را جمع آوری کند، برای مثال یکی از مجموعه ویژگی‌ها می‌تواند بردار TF-IDF باشد (که در درسی جدا به آن خواهیم پرداخت). بردار TF-IDF برداری است که از روی کلمات می‌تواند ویژگی‌های مختلف را برای یک متن بسازد (در واقع متن را تبدیل به اعداد قابل فهم برای الگوریتم کند). همان‌طور که می‌دانید محتوای اصلی یک ایمیلْ متنِ آن است. پس گوگل از متن‌های موجود در ایمیل یک مجموعه ویژگی می‌سازد. مثلا اینکه تعداد تکرار کلمه‌ی “تبلیغ” در متن یک ایمیل چقدر بوده است؟ یا تعداد تکرار کلمه “جایزه” در یک ایمیل چقدر بوده است؟ الگوریتم یادگیری‌ماشین با استفاده از این دست ویژگی‌ها می‌تواند به بفهمد یک ایمیلْ هرزنامه هست یا خیر.

ولی آیا تمامِ ویژگی‌ها برای طبقه‌بندیِ یک ایمیلْ می‌تواند صرفاً از روی متونِ آن به دست آید؟ در این مثال شاید بتوان ویژگی‌ها یا همان ابعادِ دیگری را نیز از ایمیل‌ها استخراج کرد و به الگوریتم یاد داد. مثلا اینکه IP ارسال کننده کدام است؟ یعنی ممکن است IP ارسال کننده نیز در طبقه‌بندی تاثیر داشته باشد چون برخی از ارسال کننده‌های هرزنامه (Spam) از IPهای مشخصْ ایمیل‌های هرزنامه را ارسال می‌کنند و الگوریتمِ یادگیری‌ماشین می‌تواند این IPها را در طبقه‌بندیِ ایمیل (به هرزنامه یا غیرِ هرزنامه) تاثیر دهد.

مثلا تعدادِ تصاویرِ موجود در یک ایمیل هم می‌تواند به عنوان یکی از ویژگی‌ها یا همان ابعادْ درنظر گرفته شود چون این احتمال می‌رود که تعداد تصاویر هم بتواند یکی از ویژگی‌های تاثیرگزار در هرزنامه بودن یا نبودن ایمیل باشد.

روش‌های انتخاب ویژگی (Feature Selection Methods) به منظور مواجهه با داده‌ها با ابعاد بالا است. یک انتخاب ویژگی صحیح می‌تواند منجر به بهبود فرایند یادگیری شود. مجموعه داده‌های متعددی با ابعاد بالا در اینترنت در دسترس است. اما این موضوع چالش جالب توجهی را برای جوامع پژوهشی در پی داشته است. زیرا برای الگوریتم‌های یادگیری ماشین سر و کار داشتن با حجم زیادی از ویژگی‌های ورودی کاری دشوار است. در این رابطه واژه «ابعاد کلان» (Big Dimensionality)  در قیاس با واژه بیگ دیتا  ساخته شده است. روش‌های کاهش ابعاد به ترتیب در دو دسته استخراج ویژگی و انتخاب ویژگی مطرح است.

استخراج ویژگی (Feature extraction)

با توجه بع توضیحات فوق اولین قدم بدست آوردن تمام وییژگی های داده ی مورد نظر است. تا بتوان در مراحل بعدی ویژگی های برتر را گل چین نمود. روش‌های استخراج ویژگی با ترکیب ویژگی‌های اصلی به کاهش ابعاد دست می‌یابند. از این رو، قادر به ساخت مجموعه‌ای از ویژگی‌های جدید هستند که معمولا فشرده‌تر و دارای خاصیت متمایزکنندگی بیشتری است.

انتخاب ویژگی (Feature Selection)

شاید مهم‌ترین بخش برای عملیاتِ داده‌کاویْ عملیاتِ انتخابِ ویژگی است. در گام انتخاب ویژگی با حذف ویژگی‌های غیر مرتبط و تکراری میتوان ابعاد مسئله را کاهش داد. در مباحثِ آکادمیک معمولا ویژگی‌ها در مسئله در اختیار کاربران قرار دارند ولی در مباحث عملی یک متخصص علوم‌داده بایستی خود  ویژگی‌های مورد نیاز را از میان دادگان استخراج کند. انتخاب ویژگی که با عناوین دیگری همانند Variable Selection و Attribute Selection و نیز Variable Subset Selection شناخته می شود. انتخاب ویژگی را می‌توان به عنوان فرآیند شناسایی ویژگی‌های مرتبط و حذف ویژگی‌های غیر مرتبط و تکراری با هدف مشاهده زیرمجموعه‌ای از ویژگی‌ها که مساله را به خوبی تشریح می‌کنند تعریف کرد.

کل مجموعه ویژگی می‌تواند به طور مفهومی به چهار بخش مجزا تقسیم شود که عبارتند از:

  1. ویژگی‌های نامرتبط
  2. ویژگی‌های به طور ضعیف مرتبط و ویژگی‌های دارای افزونگی
  3. ویژگی‌های به طور ضعیف مرتبط ولی فاقد افزونگی
  4. ویژگی‌های به شدت قدرتمند

لازم به ذکر است که مجموعه بهینه حاوی همه ویژگی‌های موجود در بخش‌های 3و 4می‌شود.

اسکرول به بالا