اهداف داده کاوی:
داده کاوی ممکن است با اهداف زیر انجام شود:
- تشخیص اتفاقاتی که رخداد آنها عمومیت ندارد و کشف دلایل آنها: مثلا در دو سال گذشته، تماس مشتریان خارجی با شرکت 100% افزایش داشته است و دلیل آن نامشخص است. بعدا کشف می شود که به دلیل رشد ارز دلار، هزینه تولید در ایران بسیار پایینتر از کشورهای دیگر است و مشتریان متمایل به خرید از تولیدکنندگان ایرانی شده اند.
- کشف ارتباطات بین اتفاقات: مثلا ممکن است یک فروشگاه اینترنتی متوجه شود که معمولا 20% از مشتریانی که دستگاه اسپرسوساز می خرند، به دنبال تمپر نیز می گردند اما از این 20% اکثر کسانی که تمپر را در فروشگاه می بینند آنرا می خرند. این تحلیل نشان می دهد که اکثر مشتریان به تمپر نیاز دارند اما ممکن است نام یا کاربرد آنرا ندانند و اگر به ایشان معرفی شود، به احتمال بسیار زیاد می خرند.
- خوشه بندی: یعنی بتوان تمام داده ها را بر اساس مشترکات به دسته هایی که دارای مشابهت تقسیم کرد. مثلا مشتریان شهرستانها را به دسته هایی تقسیم کرده و برای هرکدام برنامه هایی متناسب با همان موقعیت جغرافیایی تنظیم نمود.
- طبقه بندی داده ها: معیارهای طبقه بندی ممکن است به عوامل بسیاری مرتبط باشد. یک مثال واضح از این عملکرد، زمانی است که یک سیستم ایمیل بخواهد نامه های الکترونیکی را به هرزنامه و صحیح تقسیم کند. در این زمان معمولا به ماهیت ارسال کننده توجه می کند مثلا سرویس های ارسال ایمیل انبوه از پروتکل SMTP استفاده می کنند تا به سیستم های ایمیل بگویند که ارسال پیامها از یک سرویس معتبر انجام می شود.
- خلاصه سازی: در بسیاری از موارد، هدف از داده کاوری این است که بتواند یک گزارش کوتاه (شاید در حد یک نمودار خطی) از انبوه داده ها ارائه کند تا جهت کلی حرکت را نشان دهد.
- رگرسیون: رگرسیون یک الگوریتم پرکاربرد در داده کاوی و یادگیری ماشین است. هدف اصلی رگرسیون، پیشبینی یک متغیر وابسته با توجه به یک یا چند متغیر مستقل است. رگرسیون به دو نوع تقسیم میشود: خطی و غیرخطی. در رگرسیون خطی، فرض بر این است که رابطه بین متغیرهای وابسته و مستقل به صورت خطی است. در رگرسیون غیرخطی، رابطه بین متغیرهای وابسته و مستقل به صورت غیرخطی است. مثال دیگری از کاربرد رگرسیون، پیشبینی حجم فروش یک محصول به وابستگی به عواملی مانند قیمت، تبلیغات، فصل، منطقه جغرافیایی و ... است. با جمعآوری دادههای مربوط به فروشهای گذشته و تحلیل رابطه بین این عوامل و حجم فروش، میتوانیم با استفاده از الگوهای یافت شده، پیشبینی حجم فروش در آینده را انجام دهیم. در کل، رگرسیون یکی از قدرتمندترین روشهای پیشبینی و پیشبینی خطاست و به همین دلیل در بسیاری از صنایع و کاربردهای داده کاوی مورد استفاده قرار میگیرد.
بر اساس نظریات: لاول، پیاتتسکی، شاپیرو، آزودو، سانتوس، ویگن، کلیفتون، کامبر، ویتن، بوکارت، هلمز، چارمزا، ددمن، پارکر