پس از آمادهسازی دادهها و مشخص شدن وضعیت آنها، پایگاهداده حاصل آماده ورود به مرحله بعد که همان فرایند مدلسازی است، میباشد.
۴-۲-۴-مدلسازی
در این مرحله، انواع تکنیکهای مدلسازی، انتخاب شده و بهکار گرفته میشوند. نوعاً برای یک نوع مساله چندین تکنیک وجود دارد. بعضی از تکنیکها نیازمند فرمت ویژهای از دادهها میباشند.بنابراین بازگشت به مرحله آمادهسازی داده، اغلب مورد نیاز است. در این مرحله گامهای زیر دنبال شد که جزییات آنها در ادامه بیان میشود.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
-
- انتخاب تکنیک مدلسازی
-
- ساخت مدل
برای ساخت مدل لازم است که ابتدا تکنیک مدلسازی انتخاب شود که در این تحقیق برای بخش دادهکاوی خوشهبندی، شبکهعصبی و درختتصمیم C5 انتخاب گردیده است.
۴-۲-۴-۱-خوشهبندی
در این مرحله دادهها وارد فرایند خوشهبندی میشوند.یکی از مسائل مهم در خوشهبندی، تعیین تعداد بهینه خوشهها میباشد که در اکثر الگوریتمها مانند k-means باید توسط خود کاربر معین شود.
یک راه ممکن و رایج، جهت تعیین تعداد خوشه بهینه، امتحان k های مختلف و تعیین مقدار بهینه براساس یکسری شاخصهای از پیش تعریف شده است. در این تحقیق جهت اطمینان از نتیجه خوشهبندی، روش k-means جهت خوشهبندی با k های مختلف استفاده شده است.
۴-۲-۴-۲- خوشهبندی k-means
تابع k-means دادهها را به k خوشه دوبهدو ناسازگار تفکیک میکند، این روش بر مشاهدات واقعی عمل میکند و یک سطح واحد از خوشهها را ایجاد میکند. به منظور انجام خوشهبندی k-means، از متغیرهای موردنظر تحقیق استفاده میکنیم. در خوشهبندی k-means، همانطور که قبلا ذکر شد، تعیین تعداد خوشهها از اهمیت زیادی برخوردار بوده و بر نتیجه بهینه کارمان تاثیر خواهد گذاشت از اینرو با بهره گرفتن از معیار SSE برای ارزیابی کیفیت خوشهبندی به بررسی تعداد خوشهها پرداخته میشود. با توجه به حجم دادههای دراختیار مقایسه تعداد خوشهها را از ۲ خوشه آغاز میکنیم.روند اجرا و ارزیابی متد خوشهبندی k-means در نرمافزار matlab 2012 انجام شده است.همانطور که در جدول ۴-۴ مشاهده میکنید خوشهبندی با ۴ خوشه شاخص SSE کمتری نسبت به خوشهبندی های دیگر دارد، درواقع عملکرد بهتری را نشان میدهد.
جدول ۴-۴ نرخ پارامتر SSE به ازای تعداد خوشهها در k-means
تعداد خوشهها | SSE |
۲ | ۱۱٫۷۹ |
۳ | ۱۶٫۳۴ |
۴ | ۷٫۰۸ |
۵ | ۹٫۳۰ |
خوشهبندی نهایی با درنظر گرفتن ۴ خوشه مبنای این تحقیق قرار گرفته است تا مبنایی برای مرحله پیشبینی با بهره گرفتن از شبکهعصبی و درختتصمیم C5 باشد.درشکل زیرتعداد رکوردهای موجود در هر خوشه نمایش داده شده است.
شکل ۴-۳ تعداد رکوردها در هر خوشه
۴-۲-۴-۳- پیشبینی خوشهها
با توجه به اینکه پیشبینی، اساسیترین و مهمترین مرحلهای است که قبل از انجام هر اقدام پیشگیرانه باید صورت پذیرد. لذا با درختتصمیم C5 به پیشبینی پیشرفت تحصیلی دانشجویان پرداخته شده است.
متغیری که در اینجا باید پیشبینی شود معدل ترم ششم دانشجویان میباشد، الگوریتمهای پیشنهادی برای ساخت مدل مورد نظر شامل انواع درختتصمیم(CHAID, QUEST,CART,C5)، رگرسیون لجستیک، شبکههایعصبی هستند. با توجه به اینکه ما بهدنبال بهدست آوردن بهترین و دقیقترین پیشبینی هستیم بهتر است از تکنیکهای شبکهعصبی و درختتصمیم استفاده نمود.
۴-۲-۴-۴- پیشبینی با شبکهعصبی
شبکههایعصبی یکی از متداولترین فنون دادهکاوی است و میتواند برای پیشبینیها
استفاده شود، یکی از مزایای بارز شبکههایعصبی کاربرد وسیع آنها میباشد و به خاطر امکانات آن، ابزارهایی که از شبکههایعصبی پشتیبانی میکنند بر روی هر بستری بهراحتی یافت میشوند که در این تحقیق از نرمافزار Clementine 12 استفاده شده و برای خوشههای بهدست آمده، پیشبینیهایی طبق جدول ۴-۵ بهدست آمد.
جدول ۴-۵ پیش بینی با بهره گرفتن از روش شبکهعصبی