اهداف داده کاوی:

داده کاوی ممکن است با اهداف زیر انجام شود:

  1. تشخیص اتفاقاتی که رخداد آنها عمومیت ندارد و کشف دلایل آنها: مثلا در دو سال گذشته، تماس مشتریان خارجی با شرکت 100% افزایش داشته است و دلیل آن نامشخص است. بعدا کشف می شود که به دلیل رشد ارز دلار، هزینه تولید در ایران بسیار پایینتر از کشورهای دیگر است و مشتریان متمایل به خرید از تولیدکنندگان ایرانی شده اند.
  2. کشف ارتباطات بین اتفاقات: مثلا ممکن است یک فروشگاه اینترنتی متوجه شود که معمولا 20% از مشتریانی که دستگاه اسپرسوساز می خرند، به دنبال تمپر نیز می گردند اما از این 20% اکثر کسانی که تمپر را در فروشگاه می بینند آنرا می خرند. این تحلیل نشان می دهد که اکثر مشتریان به تمپر نیاز دارند اما ممکن است نام یا کاربرد آنرا ندانند و اگر به ایشان معرفی شود، به احتمال بسیار زیاد می خرند.
  3. خوشه بندی: یعنی بتوان تمام داده ها را بر اساس مشترکات به دسته هایی که دارای مشابهت تقسیم کرد. مثلا مشتریان شهرستانها را به دسته هایی تقسیم کرده و برای هرکدام برنامه هایی متناسب با همان موقعیت جغرافیایی تنظیم نمود.
  4. طبقه بندی داده ها: معیارهای طبقه بندی ممکن است به عوامل بسیاری مرتبط باشد. یک مثال واضح از این عملکرد، زمانی است که یک سیستم ایمیل بخواهد نامه های الکترونیکی را به هرزنامه و صحیح تقسیم کند. در این زمان معمولا به ماهیت ارسال کننده توجه می کند مثلا سرویس های ارسال ایمیل انبوه از پروتکل SMTP استفاده می کنند تا به سیستم های ایمیل بگویند که ارسال پیامها از یک سرویس معتبر انجام می شود.
  5. خلاصه سازی: در بسیاری از موارد، هدف از داده کاوری این است که بتواند یک گزارش کوتاه (شاید در حد یک نمودار خطی) از انبوه داده ها ارائه کند تا جهت کلی حرکت را نشان دهد.
  6. رگرسیون: رگرسیون یک الگوریتم پرکاربرد در داده کاوی و یادگیری ماشین است. هدف اصلی رگرسیون، پیش‌بینی یک متغیر وابسته با توجه به یک یا چند متغیر مستقل است. رگرسیون به دو نوع تقسیم می‌شود: خطی و غیرخطی. در رگرسیون خطی، فرض بر این است که رابطه بین متغیرهای وابسته و مستقل به صورت خطی است. در رگرسیون غیرخطی، رابطه بین متغیرهای وابسته و مستقل به صورت غیرخطی است. مثال دیگری از کاربرد رگرسیون، پیش‌بینی حجم فروش یک محصول به وابستگی به عواملی مانند قیمت، تبلیغات، فصل، منطقه جغرافیایی و ... است. با جمع‌آوری داده‌های مربوط به فروش‌های گذشته و تحلیل رابطه بین این عوامل و حجم فروش، می‌توانیم با استفاده از الگوهای یافت شده، پیش‌بینی حجم فروش در آینده را انجام دهیم. در کل، رگرسیون یکی از قدرتمندترین روش‌های پیش‌بینی و پیش‌بینی خطاست و به همین دلیل در بسیاری از صنایع و کاربردهای داده کاوی مورد استفاده قرار می‌گیرد.

بر اساس نظریات: لاول، پیاتتسکی، شاپیرو، آزودو، سانتوس، ویگن، کلیفتون، کامبر، ویتن، بوکارت، هلمز، چارمزا، ددمن، پارکر