طبقه بندی یا کلاسیفیکیشن چیست؟

طبقه بندی در داده کاوی Classification : یکی از دانش­ هایی که در عصر حاضر بسیار مورد استقبال قرار گرفته داده کاوی است. به طور کلی به معنای کاوش در داده­ ها است که به اشکال مختلف برای به دست آوردن الگوها و کسب دانش در مورد الگوی حاکم بر این داده­ ها مورد استفاده قرار می­گیرد. در فرآیند داده کاوی، ابتدا مجموعه داده­ های بزرگ مرتب می­شود، سپس الگوها شناسایی می­شود و روابط و تکنیک­هایی برای انجام تجزیه و تحلیل داده ­ها و حل مسائل استفاده می­شود. یکی از پرکاربردترین این روش­ها، تکنیک طبقه­ بندی یا Classification است که در این مقاله قصد بررسی مفاهیم اولیه و پایه ­ای طبقه­ بندی را داریم.

طبقه­ بندی داده ها

انسان ها دانش خود را از راه های گوناگونی می ­آموزند. گاهی یک راهنما یا یک معلم پاسخ صحیح مسئله را به ما می­ آموزد تا در موارد مشابه از آن استفاده کنیم. با الهام از این موضوع، یک روش یادگیری در علم شناسایی الگو، یادگیری با نظارت است. یکی از تکنیک­های پرکاربرد در یادگیری باناظر، تکنیک طبقه­ بندی است؛ تکنیک طبقه ­بندی یک روش تجزیه و تحلیل داده و یک روش کلاسیک داده کاوی مبتنی بر یادگیری ماشین است.

*یادآوری: یادگیری با ناظر: یکی از روش های داده کاوی، یادگیری با ناظر است.  یادگیری الگوریتم های داده­ کاوی تحت نظارت می­توانند آنچه را که در گذشته آموخته شده است به منظور پیش­بینی رویدادهای آینده با استفاده از مثال­های برچسب گذاری شده برای داده­ های جدید اعمال کنند. با شروع فرایند تجزیه و تحلیل یک مجموعه داده‌ شناخته شده، الگوریتم، یک تابع برای پیش­ ­بینی مقادیر خروجی تولید می­کند. سیستم می­تواند اهداف هر ورودی جدید را پس از آموزش کافی فراهم کند. الگوریتم  همچنین می­تواند خروجی خود را با خروجی صحیحِ در نظر گرفته شده مقایسه کرده و به منظور تغییر مدل، خطای خود را پیدا کند. روش­هایی که در یادگیری با ناظر استفاده می­شوند خوشه ­بندی و رگرسیون است.

 اصولاً از تکنیک­های طبقه ­بندی برای طبقه­ بندی هر داده در مجموعه ­ای از داده­ ها و اختصاص به یکی از مجموعه­ های از پیش تعیین شده کلاس­ها یا گروه­ها استفاده می­­شود. روش طبقه بندی از تکنیک­های ریاضی مانند درخت تصمیم، برنامه ­ریزی خطی، شبکه عصبی و آمار برای طبقه ­بندی استفاده می­کند. به عبارتی طبقه­بندی، فرایند یافتن مدلی که توصیف کننده کلاس­ها و مفاهیم داده است و داده ­ها را به گروه­های مشخص تفکیک می­کند. الگوریتم­ های طبقه­ بندی، قادر به یادگیری از تجربیات گذشته هستند و این یادگیری بر اساس تجربه نشان دهنده یک گام اساسی در تقلید از توانایی­های استقرایی مغز انسان است که بر اساس این توانایی مغز می­تواند مسئله­ ی شناسایی یک گروه از دسته­ ها (زیرجمعیت ها) را انجام دهد.

انجام فرایند طبقه­ بندی

 فرایند طبقه ­بندی به این صورت است که براساس یک مجموعه آموزشی سیستم یاد می­گیرد داده ­ها را به گروه­ های درست با کمترین خطا تقسیم ­بندی کند. مجموعه ­ی آموزش حاوی داده ­هایی است که دسته ­ی آن­ها مشخص است؛ هر الگو  یا دسته یک برچسب (Label) دارد و داده ­هایی با برچسب هدف یکسان در یک گروه قرار می­گیرند. هدف این روش، یادگیری تابعی است که الگوهای (بردارهای ویژگی) ورودی را به برچسب­های متناظرشان نگاشت می­کند.

فرایند طبقه­ بندی دارای دو فاز اموزش (Train) و آزمون (Test) است. حدود 80% از داده­ های موجود در دیتاست را به عنوان داده ­ی آموزش انتخاب کرده و 20% داده ­های باقی مانده را برای آزمون و اعتبارسنجی انتخاب می­کنیم.  بدیهی است که برچسب­های واقعی الگوهای آموزشی از قبل داده شده ­اند. در فاز تست الگوهایی که برچسب آنها مشخص نیست به سیستم داده می­شوند و سیستم طراحی شده به کمک تابع یادگرفته شده ­ی خود خروجی یا برچسب آنها را پیش بینی می­کند.

اسکرول به بالا