در این گام استخراج ویژگی و انتخاب ویژگی تاثیرگذار و انواع روشهای آن مورد بحث قرار میگیرد. برای درک بهتر این مرحله یک مثال ساده می آوریم. برای مثال فرض کنید شرکت گوگل میخواهد یک الگوریتم توسعه دهد که با آن بتواند بفهمد که یک ایمیلْ هرزنامه است یا خیر؟ برای این کار بایستی ویژگیهای مختلفی را جمع آوری کند، برای مثال یکی از مجموعه ویژگیها میتواند بردار TF-IDF باشد (که در درسی جدا به آن خواهیم پرداخت). بردار TF-IDF برداری است که از روی کلمات میتواند ویژگیهای مختلف را برای یک متن بسازد (در واقع متن را تبدیل به اعداد قابل فهم برای الگوریتم کند). همانطور که میدانید محتوای اصلی یک ایمیلْ متنِ آن است. پس گوگل از متنهای موجود در ایمیل یک مجموعه ویژگی میسازد. مثلا اینکه تعداد تکرار کلمهی “تبلیغ” در متن یک ایمیل چقدر بوده است؟ یا تعداد تکرار کلمه “جایزه” در یک ایمیل چقدر بوده است؟ الگوریتم یادگیریماشین با استفاده از این دست ویژگیها میتواند به بفهمد یک ایمیلْ هرزنامه هست یا خیر.
ولی آیا تمامِ ویژگیها برای طبقهبندیِ یک ایمیلْ میتواند صرفاً از روی متونِ آن به دست آید؟ در این مثال شاید بتوان ویژگیها یا همان ابعادِ دیگری را نیز از ایمیلها استخراج کرد و به الگوریتم یاد داد. مثلا اینکه IP ارسال کننده کدام است؟ یعنی ممکن است IP ارسال کننده نیز در طبقهبندی تاثیر داشته باشد چون برخی از ارسال کنندههای هرزنامه (Spam) از IPهای مشخصْ ایمیلهای هرزنامه را ارسال میکنند و الگوریتمِ یادگیریماشین میتواند این IPها را در طبقهبندیِ ایمیل (به هرزنامه یا غیرِ هرزنامه) تاثیر دهد.
مثلا تعدادِ تصاویرِ موجود در یک ایمیل هم میتواند به عنوان یکی از ویژگیها یا همان ابعادْ درنظر گرفته شود چون این احتمال میرود که تعداد تصاویر هم بتواند یکی از ویژگیهای تاثیرگزار در هرزنامه بودن یا نبودن ایمیل باشد.
روشهای انتخاب ویژگی (Feature Selection Methods) به منظور مواجهه با دادهها با ابعاد بالا است. یک انتخاب ویژگی صحیح میتواند منجر به بهبود فرایند یادگیری شود. مجموعه دادههای متعددی با ابعاد بالا در اینترنت در دسترس است. اما این موضوع چالش جالب توجهی را برای جوامع پژوهشی در پی داشته است. زیرا برای الگوریتمهای یادگیری ماشین سر و کار داشتن با حجم زیادی از ویژگیهای ورودی کاری دشوار است. در این رابطه واژه «ابعاد کلان» (Big Dimensionality) در قیاس با واژه بیگ دیتا ساخته شده است. روشهای کاهش ابعاد به ترتیب در دو دسته استخراج ویژگی و انتخاب ویژگی مطرح است.
استخراج ویژگی (Feature extraction)
با توجه بع توضیحات فوق اولین قدم بدست آوردن تمام وییژگی های داده ی مورد نظر است. تا بتوان در مراحل بعدی ویژگی های برتر را گل چین نمود. روشهای استخراج ویژگی با ترکیب ویژگیهای اصلی به کاهش ابعاد دست مییابند. از این رو، قادر به ساخت مجموعهای از ویژگیهای جدید هستند که معمولا فشردهتر و دارای خاصیت متمایزکنندگی بیشتری است.
انتخاب ویژگی (Feature Selection)
شاید مهمترین بخش برای عملیاتِ دادهکاویْ عملیاتِ انتخابِ ویژگی است. در گام انتخاب ویژگی با حذف ویژگیهای غیر مرتبط و تکراری میتوان ابعاد مسئله را کاهش داد. در مباحثِ آکادمیک معمولا ویژگیها در مسئله در اختیار کاربران قرار دارند ولی در مباحث عملی یک متخصص علومداده بایستی خود ویژگیهای مورد نیاز را از میان دادگان استخراج کند. انتخاب ویژگی که با عناوین دیگری همانند Variable Selection و Attribute Selection و نیز Variable Subset Selection شناخته می شود. انتخاب ویژگی را میتوان به عنوان فرآیند شناسایی ویژگیهای مرتبط و حذف ویژگیهای غیر مرتبط و تکراری با هدف مشاهده زیرمجموعهای از ویژگیها که مساله را به خوبی تشریح میکنند تعریف کرد.
کل مجموعه ویژگی میتواند به طور مفهومی به چهار بخش مجزا تقسیم شود که عبارتند از:
لازم به ذکر است که مجموعه بهینه حاوی همه ویژگیهای موجود در بخشهای 3و 4میشود.