طبقه بندی در داده کاوی Classification : یکی از دانش هایی که در عصر حاضر بسیار مورد استقبال قرار گرفته داده کاوی است. به طور کلی به معنای کاوش در داده ها است که به اشکال مختلف برای به دست آوردن الگوها و کسب دانش در مورد الگوی حاکم بر این داده ها مورد استفاده قرار میگیرد. در فرآیند داده کاوی، ابتدا مجموعه داده های بزرگ مرتب میشود، سپس الگوها شناسایی میشود و روابط و تکنیکهایی برای انجام تجزیه و تحلیل داده ها و حل مسائل استفاده میشود. یکی از پرکاربردترین این روشها، تکنیک طبقه بندی یا Classification است که در این مقاله قصد بررسی مفاهیم اولیه و پایه ای طبقه بندی را داریم.
انسان ها دانش خود را از راه های گوناگونی می آموزند. گاهی یک راهنما یا یک معلم پاسخ صحیح مسئله را به ما می آموزد تا در موارد مشابه از آن استفاده کنیم. با الهام از این موضوع، یک روش یادگیری در علم شناسایی الگو، یادگیری با نظارت است. یکی از تکنیکهای پرکاربرد در یادگیری باناظر، تکنیک طبقه بندی است؛ تکنیک طبقه بندی یک روش تجزیه و تحلیل داده و یک روش کلاسیک داده کاوی مبتنی بر یادگیری ماشین است.
*یادآوری: یادگیری با ناظر: یکی از روش های داده کاوی، یادگیری با ناظر است. یادگیری الگوریتم های داده کاوی تحت نظارت میتوانند آنچه را که در گذشته آموخته شده است به منظور پیشبینی رویدادهای آینده با استفاده از مثالهای برچسب گذاری شده برای داده های جدید اعمال کنند. با شروع فرایند تجزیه و تحلیل یک مجموعه داده شناخته شده، الگوریتم، یک تابع برای پیش بینی مقادیر خروجی تولید میکند. سیستم میتواند اهداف هر ورودی جدید را پس از آموزش کافی فراهم کند. الگوریتم همچنین میتواند خروجی خود را با خروجی صحیحِ در نظر گرفته شده مقایسه کرده و به منظور تغییر مدل، خطای خود را پیدا کند. روشهایی که در یادگیری با ناظر استفاده میشوند خوشه بندی و رگرسیون است.
اصولاً از تکنیکهای طبقه بندی برای طبقه بندی هر داده در مجموعه ای از داده ها و اختصاص به یکی از مجموعه های از پیش تعیین شده کلاسها یا گروهها استفاده میشود. روش طبقه بندی از تکنیکهای ریاضی مانند درخت تصمیم، برنامه ریزی خطی، شبکه عصبی و آمار برای طبقه بندی استفاده میکند. به عبارتی طبقهبندی، فرایند یافتن مدلی که توصیف کننده کلاسها و مفاهیم داده است و داده ها را به گروههای مشخص تفکیک میکند. الگوریتم های طبقه بندی، قادر به یادگیری از تجربیات گذشته هستند و این یادگیری بر اساس تجربه نشان دهنده یک گام اساسی در تقلید از تواناییهای استقرایی مغز انسان است که بر اساس این توانایی مغز میتواند مسئله ی شناسایی یک گروه از دسته ها (زیرجمعیت ها) را انجام دهد.
فرایند طبقه بندی به این صورت است که براساس یک مجموعه آموزشی سیستم یاد میگیرد داده ها را به گروه های درست با کمترین خطا تقسیم بندی کند. مجموعه ی آموزش حاوی داده هایی است که دسته ی آنها مشخص است؛ هر الگو یا دسته یک برچسب (Label) دارد و داده هایی با برچسب هدف یکسان در یک گروه قرار میگیرند. هدف این روش، یادگیری تابعی است که الگوهای (بردارهای ویژگی) ورودی را به برچسبهای متناظرشان نگاشت میکند.
فرایند طبقه بندی دارای دو فاز اموزش (Train) و آزمون (Test) است. حدود 80% از داده های موجود در دیتاست را به عنوان داده ی آموزش انتخاب کرده و 20% داده های باقی مانده را برای آزمون و اعتبارسنجی انتخاب میکنیم. بدیهی است که برچسبهای واقعی الگوهای آموزشی از قبل داده شده اند. در فاز تست الگوهایی که برچسب آنها مشخص نیست به سیستم داده میشوند و سیستم طراحی شده به کمک تابع یادگرفته شده ی خود خروجی یا برچسب آنها را پیش بینی میکند.