مدل کاهل[۱۰] نوعی از یادگیری با نظارت است که روش مبتنی بر نمونه نیز نامیده می شود. در واقع مدلی از دادهها ساخته نمی شود و یادگیری تا زمان دسته بندی به تعویق میافتد و زمان زیادی صرف دستهبندی می شود.
ماشین بردار پشتیبان
ماشین بردار پشتیبان[۱۱] نوعی از یادگیری با نظارت است که هم در داده های خطی و هم غیر خطی کاربرد دارد. مبنای آن استفاده از داده های خطی است و داده های غیر خطی را به خطی تبدیل مینماید.
مدل قانونمحور
مدل قانونمحور[۱۲] نوعی از یادگیری با نظارت است است که نتایج بصورت قوانین if-then نشان میدهد. بخش بعد از if شرطها و بخش then جواب نهایی مشخص مینماید.
۱-۶ ساختار پایان نامه
ساختار پایان نامه در پنج فصل بصورت زیر ساماندهی شده است:
در فصل اول به شرح کلیات تحقیق از جمله تبین موضوع تحقیق، ضرورت انجام طرح، اهداف و فرضیات مسئله میپردازیم. در فصل دوم به ادبیات، مبانی نظری و پیشینه تحقیق پرداخته شده است. سپس روش انجام طرح بصورت تفصیلی در فصل سوم شرح داده شده است. در فصل چهارم روش پیشنهادی پیادهسازی شد و نتایج حاصل مورد ارزیابی قرار گرفت. در آخرین فصل از فصول پنجگانه نتیجه تحقیق و پیشنهاداتی برای کارهای آینده عنوان شده است.
( اینجا فقط تکه ای از متن فایل پایان نامه درج شده است. برای خرید متن کامل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )
فصل دوم
ادبیات و پیشینه تحقیق
۲-۱ داده کاوی
داده کاوی را می توان حاصل سیر تکاملی طبیعی تکنولوژی اطلاعات دانست، که این سیر تکاملی ناشی از یک سیر تکاملی در صنعت پایگاهداده میباشد. نظیر عملیات جمعآوری داده ها وایجاد پایگاه داده، مدیریت داده و تحلیل و فهم داده ها.
دراینجا تعریفی از داده کاوی ارائه میدهیم:
“داده کاوی عبارتست از فرایند یافتن دانش از مقادیر عظیم داده های ذخیره شده در پایگاهداده، انباره داده ویا دیگر مخازن اطلاعات"[۲].
بر اساس این دیدگاه یک سیستم داده کاوی به طور نمونه دارای اجزاء اصلی زیر است که شکل ۲-۱ بیانگر معماری سیستم است.
بنابراین داده کاوی به عنوان یکی از شاخه های پیشرو در صنعت اطلاعات مورد توجه قرار گرفته و به عنوان یکی از نوید بخشترین زمینه های توسعه بین رشته ای در صنعت اطلاعات است.
۲-۱-۱دستهبندی[۱۳]
در مسائل دستهبندی هدف شناسایی ویژگیهایی است که گروهی را که هر مورد به آن تعلق دارد را نشان دهند. از این الگو میتوان هم برای فهم داده های موجود و هم پیش بینی نحوه رفتار داده جدید استفاده کرد.
شکل ۲-۱: معماری یک نمونه سیستم داده کاوی[۳]
داده کاوی مدلهای دستهبندی را با بررسی داده های دستهبندی شده قبلی ایجاد می کند و یک الگوی پیش بینی کننده را بصورت استقرایی ایجاد مینماید. این موارد موجود ممکن است از یک پایگاه داده تاریخی آمده باشند[۵].
۲-۲مدلها و الگوریتمهای داده کاوی
در این بخش قصد داریم مهمترین الگوریتمها و مدلهای داده کاوی را بررسی کنیم. بسیاری از محصولات تجاری داده کاوی از مجموعه از این الگوریتم ها استفاده می کنند و معمولا هر کدام آنها در یک بخش خاص قدرت دارند و برای استفاده از یکی از آنها باید بررسی های لازم در جهت انتخاب متناسبترین محصول توسط گروه متخصص در نظر گرفته شود.نکته مهم دیگر این است که در بین این الگوریتم ها و مدل ها ، بهترین وجود ندارد و با توجه به داده ها و کارایی مورد نظر باید مدل انتخاب گردد.
۲-۲-۱ شبکه های عصبی[۱۴]
هر شبکه عصبی شامل یک لایه ورودی[۱۵]میباشد که هر گره در این لایه معادل یکی از متغیرهای پیش بینی میباشد. گرههای موجود در لایه میانی به تعدادی گره در لایه نهان[۱۶]وصل میشوند. هر گره ورودی به همه گرههای لایه نهان وصل می شود.
گرههای موجود در لایه نهان میتوانند به گرههای یک لایه نهان دیگر وصل شوند یا میتوانند به لایه خروجی[۱۷]وصل شوند.
لایه خروجی شامل یک یا چند متغیر خروجی می باشد
هر یال که بین نود هایX,Y میباشد دارای یک وزن است که با Wx,y نمایش داده می شود. این وزن ها در محاسبات لایه های میانی استفاده میشوند و طرز استفاده آنها به این صورت است که هر نود در لایه های میانی (لایه های غیر از لایه اول) دارای چند ورودی از چند یال مختلف میباشد که همانطور که گفته شد هر کدام یک وزن خاص دارند.
هر نود لایه میانی میزان هر ورودی را در وزن یال مربوطه آن ضرب می کند و حاصل این ضربها را با هم جمع می کند و سپس یک تابع از پیش تعیین شده (تابع فعالسازی) روی این حاصل اعمال می کند و نتیجه را به عنوان خروجی به نودهای لایه بعد میدهد.
وزن یالها پارامترهای ناشناختهای هستند که توسط تابع آموزش [۱۸]و داده های آموزشی که به سیستم داده می شود تعیین میگردند.
تعداد گرهها و تعداد لایه های نهان و نحوه وصل شدن گرهها به یکدیگر معماری(توپولوژی) شبکه عصبی را مشخص می کند.کاربر یا نرم افزاری که شبکهعصبی را طراحی می کند باید تعداد گرهها ، تعداد لایه های نهان ، تابع فعالسازی و محدودیتهای مربوط به وزن یالها را مشخص کند[۳].
شکل ۲-۲: Wx,yوزن یال بین X و Y است[۳].
از مهمترین انواع شبکه های عصبی شبکه انتشار به جلو[۱۹] و شبکه انتشار به عقب[۲۰] میباشد که در اینجا به اختصار آنرا توضیح میدهیم.
انتشار به جلو به معنی این است که مقدار پارامتر خروجی براساس پارامترهای ورودی و یک سری وزن های اولیه تعیین می گردد. مقادیر ورودی با هم ترکیب شده و در لایه های نهان استفاده میشوند و مقادیر این لایه های نهان نیز برای محاسبه مقادیر خروجی ترکیب می شوند[۳].
انتشار به عقب خطای خروجی با مقایسه مقدار خروجی با مقدار مد نظر در داده های آزمایشی محاسبه می گردد و این مقدار برای تصحیح شبکه و تغییر وزن یالها استفاده میگردد و از گره خروجی شروع شده و به عقب محاسبات ادامه می یابد.
این عمل برای هر رکورد موجود در بانک اطلاعاتی تکرار می گردد.
به هر بار اجرای این الگوریتم برای تمام داده های موجود در بانک یک دوره [۲۱]گفته می شود. این دوره ها آنقدر ادامه می یابد که دیگر مقدار خطا تغییر نکند[۳].
۲-۲-۲درخت تصمیم
درختهای تصمیم روشی برای نمایش یک سری از قوانین هستند که منتهی به یک رده یا مقدار میشوند.
یکی از تفاوتها بین متدهای ساخت درخت تصمیم این است که این فاصله چگونه اندازه گیری می شود. درختهای تصمیمی که برای پیش بینی متغیرهای دستهای استفاده میشوند، درختهای دستهبندی نامیده میشوند زیرا نمونهها را در دستهها یا ردهها قرار می دهند. درختهای تصمیمی که برای پیش بینی متغیرهای پیوسته استفاده میشوند درختهای رگرسیون نامیده میشوند[۳].
شکل ۲-۳: درخت تصمیم گیری[۳]
الگوریتمهای یادگیری درخت تصمیم:
اغلب الگوریتمهای یادگیری درخت تصمیم بر پایه یک عمل جستجوی حریصانه بالا به پائین در فضای درختهای موجود عمل می کنند.
در درخت تصمیم ID3 از یک مقدار آماری به نام بهره اطلاعات[۲۲] استفاده می شود تا اینکه مشخص کنیم که یک ویژگی تا چه مقدار قادر است مثالهای آموزشی را بر حسب دستهبندی آنها جدا کند[۴].
آنتروپی:
میزان خلوص (بی نظمی یا عدم خالص بودن) مجموعه ای از مثالها را مشخص می کند. اگر مجموعه S شامل مثالهای مثبت و منفی از یک مفهوم هدف باشد آنتروپیS نسبت به این دسته بندی بولی بصورت رابطه ۲-۱ تعریف می شود[۴].