روش های داده کاوی

روش های داده کاوی
روش های داده کاوی مختلفی در دسترس می باشد. دو روش مرسوم که توسط ابزار داده کاوی استفاده می شود فرآیند SEMMA برای ابزار داده کاوی SAS و فرآیند ۵A برای ابزار داده کاوی SPSS ،Clementine ،CRISP-DM می باشند.
استاندارد صنعتی CRISP-DM
استاندارد صنعتی CRISP-DM که در سال ۱۹۹۷ عرضه شد یک استاندارد غیر اختصاصی ، مستند شده و رایگان می باشد. جهت تدوین آن از تجربیات تعداد زیادی کاربران داده کاوی و تولید کنندگان و ارائه دهندگان خدمات ابزارهای داده کاوی استفاده شده است و یک مدل عمومی است که توانایی تطابق با ویژگی های خصوصی هر صنعت یا شرکتی را داراست.
کریسپ یکی از روشهای پروژه های داده کاوی است که بیشترین استفاده را در بین بقیه روشها دارد. کریسپ داده کاوی در اواخر سال ۱۹۹۶ توسط سه بازار داده کاوی کهنه کار جوان و بی تجربه طرح ریزی شد. DaimlerChrysler (بعد از آن Daimler-benz) در ابتدا پیش قدم بیشترین سازمان های تجاری و صنعتی در به کار گیری داده کاوی در فعالیت های تجاری اش بود. SSPS (سپس ISL) از سال ۱۹۹۰ در حال تولید سرویس بر پایه داده کاوی بوده است و اولین میز کار تجاری داده کاوی Clementine را در سال ۱۹۹۴ وارد بازار کرده است. NCR به عنوان بخشی از هدفش، برای دادن ارزش بیشتر به مشتریان انبار داده Teradata خود، تیم هایی از مشاوران و متخصصین فنی داده کاوی را برای سرویس دهی به نیازمندیهای مشتریانش تأسیس نمود .
چرخه SEMMA
این چرخه شامل چهار بخش نمونه برداری، اکتشاف، اصلاح و ارزیابی است که در زیر بخش بعد با جزئیات بیشتری تشریح می گردد. تحلیل SEMMA از طریق استفاده از ابزارهای دیداری و آماری ، تبدیل داده، مدل سازی متغیر ها جهت تخمین خروجی ها و ارزیابی مدل اقدام به تحلیل فرآیند می کند
• نمونه برداری: اولین گام، ایجاد یک یا چند جدول داده از انباره دیتا می باشد. داده کاوی در یک نمونه داده به جای کل حجم داده ، زمان پردازش را کاهش می دهد.
• اکتشاف: پس از نمونه گیری گام بعدی جستجوی دیتا به صورت دیداری یا عددی جهت گروه بندی می باشد. روش هایی مانند تحلیل فاکتور، تحلیل همبستگی و کلاستر بندی برای فرایند اکتشاف استفاده می شود
• اصلاح: منظور از اصلاح داده ایجاد، انتخاب و تبدیل متغیرها برای تمرکز نمودن فرآیند انتخاب مدل در جهتی خاص می باشد همچنین اصلاح دیتا برای پیوستگی و پاک سازی می باشد
• ارزیابی: گام آخر ارزیابی عملکرد مدل می باشد. یک روش معمول جهت ارزیابی این است که همزمان با نمونه گیری یک قسمت از دیتا جهت ارزیابی کنار گذاشته شود. اگر مدل معتبر باشد می بایست هم در مورد نمونه ای که از آن مدل تهیه شده درست کار کند و هم در مورد آن قسمت از دیتا که کنار گذاشته شده است
با توجه به اهمیت خوشه بندی در این پژوهش در قسمت زیر انواع الگوریتم ها و دسته های مربوط به خوشه بندی به صورت کلی بررسی می گردد.

۸ Comments

Add a Comment

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پاسخ من را به ایمیلم ارسال کن