دانلود منابع دانشگاهی : منابع کارشناسی ارشد در مورد ارائه و مقایسه ...

ارسال شده در 21 آذر 1400 توسط نجفی زهرا در بدون موضوع

امروزه ابزارهای داده کاوی داده ها را آنالیز کرده و الگوهای دادهای را کشف می کند. شکاف موجود بین داده و اطلاعات سبب ایجاد نیاز برای ابزارهای داده کاوی شده است تا داده های بیارزش را به دانشی ارزشمند تبدیل کند. اکنون داده‌کاوی به صورت وسیعی توسط شرکتها، با تمرکز بر روی مشتریان خود، مسائل مادی، ارتباطات و تشکیلات بازار استفاده می شود.

( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )

داده کاوی این شرکتها را قادر میسازد که ارتباط عوامل درونی (مانند قیمت، وضعیت تولید یا مهارت کارمندان) با عوامل بیرونی (مانند شاخص های اقتصادی، رقابت و جمعیت مشتریان) را تعیین و تاثیرات فروش، رضایت مشتریان و منابع مشترک را مشخص کند. در نهایت شرکت‌ها می‌توانند در بین خلاصه اطلاعات برای مشاهده جزئیات تراکنش داده ها به جستجوی سریع بپردازند.
۲-۳-۱ فرایندهای داده کاوی
برخی مولفین داده کاوی را مترادف عبارت اکتشاف دانش از پایگاههای داده میدانند و بقیه به داده کاوی به عنوان یک مرحله ضروری از فرایند بزرگتر یعنی اکتشاف دانش در پایگاه داده مینگرند که به اختصار به آن KDD^[۳۷] میگویند که شامل مراحل زیر میباشند.
۱- پاکسازی داده^[۳۸]: حذف داده های مزاحم و ناایستا.
۲- یکپارچهسازی داده ها^[۳۹]: ترکیب منابع داده متعدد و پراکنده و احیانا ناهمگن.
۳- انتخاب داده ها^[۴۰]: بازیابی داده های مربوط به عمل کاوش از پایگاه داده ها.
۴- تبدیل داده ها^[۴۱]: تبدیل یا تلفیق داده ها به اشکالی مناسب برای بکار بردن روشهای مختلف آماری.
۵- داده کاوی^[۴۲]: مرحله ای ضروری از فرایند KDD است که در آن از روشهای مختلف آماری برای استخراج الگوها استفاده می شود.
۶- ارزیابی الگوها^[۴۳]: شناسایی الگوهای جذاب ارائه دانش.
۷- ارائه دانش^[۴۴]: ارائه دانش استخراج شده با بهره گرفتن از تکنیکهای نمایش اطلاعات.
در شکل ۲-۲ مراحل کشف دانش نشان داده شده است.
شکل ۲-۲ فرایند کشف دانش، (نیاگا و هاردینگ^[۴۵]، ۲۰۰۶)
۲-۳-۲ فعالیتها و کاربردهای داده کاوی
در عمل دو هدف اصلی داده کاوی شامل پیشگویی و توصیف میباشد. پیشگویی شامل بکارگیری بعضی متغیرها یا فیلدها در مجموعه داده ها برای پیشگویی مقادیر ناشناخته یا آتی دیگر متغیرها میباشد. از سوی دیگر توصیف، بر روی یافتن الگوهای توصیف داده ها که توسط انسانها قابل تفسیر هستند، تاکید دارد. بنابراین میتوان فعالیتهای داده کاوی را در دو گروه زیر طبقه‌بندی کرد (رضایی‌نیا، ۱۳۸۸):

- داده کاوی پیش بینیکننده^[۴۶] که مدلی از سیستم را ارائه میدهد، توسط مجموعه داده های مشخصی توصیف می‌شود.

- داده کاوی توصیفی^[۴۷] که اطلاعات جدید و غیر بدیعی را بر اساس مجموعه داده های موجود ارائه میدهد.

در طیف پیش بینی، هدف کلی داده کاوی ایجاد مدلی است که به عنوان یک برنامه و کد اجرایی بتوان از آن برای طبقه‌بندی، پیش بینی، برآورد و دیگر اعمال مشابه استفاده نمود. از طرف دیگر در طیف توصیفی، هدف کلی بدست آوردن یک شناخت از سیستمهای تجزیه و تحلیل شده توسط الگوها و روابط آشکار در مجموعه داده‌های بزرگ می‌باشد. اهداف پیش بینی و توصیفی با بهره گرفتن از روشها و تکنیکهای داده کاوی محقق میگردد. در شکل ۲-۳ انواع فعالیتهای داده کاوی مشخص می شود.
شکل ۲-۳ انواع فعالیتها و کاربردهای داده کاوی (مرادی، ۱۳۹۰)
۲-۳-۲-۱ روشهای داده کاوی پیش بینیکننده
هدف از انجام پیش بینی تعیین ترکیب خروجی با بهره گرفتن از رفتار موجود میباشد. در واقع رسیدن به یک نتیجه به وسیله اطلاعات موجود از داده ها میباشد. مشخصههای خروجی در این روش میتوانند عددی و قیاسی باشند. این استراتژی در بین استراتژی های داده کاوی از اهمیت خاصی برخوردار است و مفهوم کلیتری را نسبت به موارد دیگر دارد. همانطور که در شکل قبل نشان داده شد روشهای پیش بینیکننده به شرح ذیل میباشد:
۲-۳-۲-۱-۱ طبقه بندی
طبقه بندی^[۴۸] در واقع ارزشیابی ویژگیهای داده ها و سپس اختصاص دادن آنها به مجموعه ای از داده های از پیش تعیین شده است. این متداولترین قابلیت داده کاوی میباشد. داده کاوی را میتوان با بهره گرفتن از داده های تاریخی برای تولید یک مدل یا نمایی از یک گروه بر اساس ویژگی داده ها به کار برد. سپس میتوان از این مدل تعریف شده برای طبقه‌بندی مجموعه داده های جدید استفاده کرد. همچنین میتوان با تعیین نمایی که با آن سازگار است برای پیش‌بینیهای آتی از آن بهره گرفت.
برای مثال برای طبقه بندی تخلفات و کلاهبرداریها در صنعت و اعتبارات بانکی، با بهره گرفتن از قابلیت طبقه بندی داده‌کاوی، سیستم با بهره گرفتن از مجموعه ای از پیش تعریف شده از
داده ها، آموزش میبیند. مجموعه داده های مورد استفاده در این نمونه باید هم شامل مجموعه‌هایی از داده های معتبر باشند و هم شامل مجموعههایی از داده های جعلی، از آنجا که این داده ها از پیش تعیین شده هستند، سیستم پارامترهایی را مییابد که میتوان از آنها برای تشخیص طبقه بندی متمایز استفاده کرد. بعد از تعیین پارامترها سیستم از آنها برای طبقه بندیهای بعدی بهره خواهد گرفت. در واقع سیستمهایی که بر اساس طبقه بندی داده کاوی می کنند، دو مجموعه ورودی دارند:
یک مجموعه آموزشی که در آن دادههایی که به طور پیش فرض در دستههای مختلف قرار دارند، همراه با ساختار دستهبندی خود وارد سیستم میشوند و سیستم بر اساس آنها به خود آموزش میدهد یا به عبارتی پارامترهای دسته‌بندی را برای خود مهیا می کند. دسته دیگر از ورودیهایی هستند که پس از مرحله آموزش و برای تعیین دسته وارد سیستم میشوند. تکنیکهای داده کاوی که برای دستهبندی بکار میآیند عموما شامل تکنیکهای شبکه عصبی^[۴۹] و درخت تصمیم گیری^[۵۰] هستند.
۲-۳-۲-۱-۲ رگرسیون
رگرسیون از مقادیر موجود برای پیش بینی مقادیر دیگر استفاده می کند. در سادهترین فرم رگرسیون، از تکنیکهای آماری استاندارد مانند رگرسیون خطی^[۵۱] استفاده می کنند. متاسفانه بسیاری مسائل دنیای واقعی تصویر خطی سادهای از مقادیر قبلی نیستند. بنابراین تکنیکهای پیچیدهتری مانند رگرسیون لجستیک^[۵۲]، درختهای تصمیم و یا شبکه های عصبی ممکن است برای پیش بینی مورد نیاز باشند.
مدلهای یکسانی را میتوان هم برای رگرسیون و هم برای طبقه بندی استفاده کرد. برای مثال الگوریتم درخت تصمیم CART را میتوان برای ساخت درختهای طبقه بندی و هم درختهای رگرسیون استفاده کرد. شبکه های عصبی را نیز میتوان برای هر دو مورد استفاده کرد.
۲-۳-۲-۱-۳ سریهای زمانی
پیش بینی از طریق سری‌های زمانی^[۵۳] برای مقادیر ناشناخته آینده، بر اساس یک سری از پیشگویی‌های متغیر با زمان صورت میگیرد. این روش از نتایج معلوم قبلی برای اعمال پیشگوییهای بعدیاش بهره میبرد. مدلها باید دارای ویژگیهای مشخص زمانی مخصوصا به صورت سلسه مراتب دوره های زمانی (پنج یا هفت روز هفته، سیزدهم ماه از سال…)، فصلی، داده های تاریخی و توجه خاص به گذشته داشته باشند.
۲-۳-۲-۲ روشهای توصیفی داده کاوی^[۵۴]
همانطور که گفته شد در طیف توصیفی، نهایت کار و هدف کلی بدست آوردن یک شناخت از سیستمهای تجزیه و تحلیل شده توسط الگوها و روابط آشکار در مجموعه داده های بزرگ میباشد. روشهای توصیفی به شرح زیر میباشد.
۲-۳-۲-۲-۱ خلاصه سازی^[۵۵]
قبل از اینکه بتوان روی مجموعه ای از داده ها داده کاوی انجام داد تا یک مدل پیش بینی مناسب ایجاد شود، باید بتوان داده ها را به خوبی شناخت که برای شروع این کار میتوان از پارارمترهایی مثل میانگین، انحراف معیار و… استفاده کرد. ابزارهای تصویرسازی داده ها و گرافسازی برای شناخت داده ها و نقش آنها در آماده‌سازی بسیار مفید و غیرقابل انکار میباشد. مثلا با بهره گرفتن از این ابزارها میتوان توزیع مقادیر مختلف داده ها را در یک نمودار مشاهده کرد و میزان داده‌های دارای خطا را بطور تقریبی حدس زد.
مهمترین مشکل این ابزار این است که معمولا تحلیلها دارای تعداد زیادی پارامتر می‌باشند که به هم مربوط هستند و باید رابطه این پارامترها را که چند بعدی میباشد در دو بعد نمایش دهند، که این کار اگر هم عملی باشد برای استفاده از آنها نیاز به افراد خبره میباشد.
۲-۳-۲-۲-۲ قوانین انجمنی^[۵۶]
اساسا ارتباط میان مجموعه‌ی اشیاء (چیزها) وابستگیهای جالب توجهی هستند که منجر به امکان آشکارسازی الگوهای مفید و قوانین وابستگی برای پشتیبانی تصمیم، پیش بینیهای مالی، سیاستهای بازاریابی، وقایع پزشکی و… می شود که توجه زیادی را در تحقیقات اخیر به خود جلب کرده است.
در این تکنیک رابطه وابستگی بین متغیرهای مختلف در پایگاه داده ها شناسایی می شود این روش بین مدیران بازاریابی و عمدهفروشان به نام سبد بازار معروف است. این روش یک حالت غیر نظارتی^[۵۷] داده میباشد که به جستجو برای یافتن ارتباط در مجموعه داده ها می پردازد. یکی از کاربردیترین حالات تحلیل وابستگیها، تجزیه و تحلیل سبد بازار میباشد که در آن هدف یافتن کالاهایی است که معمولا به طور همزمان خریداری میشوند. این کار کمک می کند که خرده‌فروشان بهتر بتوانند کالای خود را سازماندهی کرده و چیدمان بهتری از محصولات خود داشته باشند (مرادی، ۱۳۹۰).
۲-۵ خوشهبندی
فرایند گروه‌بندی مجموعه‌ای از اشیاء را در رده اشیاء مشابه، خوشه‌بندی^[۵۸] می‌نامیم.
در داده‌کاوی، روش‌های خوشه‌بندی، کل مجموعه داده‌ها را به گروه یا خوشه‌های نسبتا همگنی تقسیم می‌کند. داده‌ها بر اس
اس اصل به حداکثر رساندن تشابه در داخل خوشه و به حداقل رساندن شباهت خوشه‌ها، گروه‌بندی می‌شوند، یعنی خوشه‌ها به طوری که اشیاء درون یک خوشه با توجه به یکدیگر تشابه بالایی دارند، اما بسیار بی‌شباهت به اشیاء در خوشههای دیگر می‌باشند شکل می‌گیرند. تکنیک‌های خوشهبندی، تجزیه و تحلیل داده را بدون استفاده از یک برچسب کلاس شناخته شده انجام می‌دهد. برخلاف تکنیکهای طبقه بندی، که به تجزیه و تحلیل داده‌های نشان‌دار با کلاس اشیاء می‌پردازد، برچسبهای کلاس در داده‌های آموزشی وجود ندارد، تنها به این دلیل که آنها در ابتدا شناخته شده نیستند. خوشه‌بندی برای تولید چنین برچسب‌های کلاسی استفاده می شود. هر خوشهای که تشکیل شده است می‌تواند به عنوان یک کلاس از اشیاء مشاهده شود، که قوانینی از آن مشتق می‌شود.
در خوشهبندی ابتدا مجموعه‌ای از داده‌ها را به گروه‌هایی بر اساس تشابه تقسیم می‌کنیم و پس از آن برچسب‌هایی را به تعداد نسبتا کمی از گروه‌ها، اختصاص می‌دهیم. مزیت مهم یک فرایند مبتنی بر خوشه‌بندی این است که به تغییرات سازگار است و به بدست آوردن ویژگی‌های مفیدی که گروه های مختلف را از هم متمایز می‌کند کمک می‌کند (پراسد^[۵۹] و همکاران، ۲۰۱۱).
۲-۵-۱ مزایای روش خوشهبندی
مزایای روش خوشهبندی عبارتند از:

- این روش را میتوان برای داده های گوناگون استفاده نمود.

با انتخاب درست اندازه فاصلههای گوناگون خوشهبندی را میتوان برای بیشتر داده ها استفاده کرد.

- خوشهبندی یک روش غیر مستقیم است.

کلیه مطالب این سایت فاقد اعتبار و از رده خارج است. تعطیل کامل

کلیه مطالب این سایت فاقد اعتبار و از رده خارج است. تعطیل کامل

جستجو

آخرین مطالب

فیدهای XML