داده کاوی چیست؟

داده کاوی یک فعالیت میان رشته ای مابین علوم کامپیوتر و آمار است و هدف اصلی آن کشف رابطه بین انبوه داده ها با هدفی است که قبلا تعیین شده باشد. یک مثال بسیار ساده در داده کاوی، این است که یک شرکت بخواهد از میان تمام مشتریانی که تاکنون خرید کرده اند، آنهایی که احتمال بیشتری برای خرید محصول جدید دارند را شناسایی کند. در شکتهای تجاری، مهموا داده کاوی در خدمت استراتژی های درآمدی شرکت است.

مراحل داده کاوی:

  1. مشخص کردن هدف (مثلا شناسایی مشتریان).
  2. جمع آوری داده از تمام زیرساخت های در اختیار (مثلا تمام بانکهای اطلاعاتی شرکت).
    توجه: برای داده کاوی باید حجم داده ها به قدری بزرگ باشد که بتوان از آن نتیجه ای را استخراج کرد.
  3. مرتب سازی و یکسان سازی داده ها (تمام داده ها از یک نوع باشند مثلا در یک جدول اکسل نمی توان داده های صوتی یا تصویری را درج کرد).
  4. اصلاح یا حذف داده های مخدوش.
  5. پیدا کردن رابطه ها (مثلا مشتریانی که شماره موبایل آنها 0912 است یا در سال گذشته یخچال خریده اند).
  6. حذف داده های زائد (سایر داده های نامرتبط با موضوعی که درمورد آن تحقیق می کنیم حذف می شوند).
  7. پس از کسب خروجی از فرایند فوق، کیفیت و صحت نتایج مورد ارزیابی و تست قرار می گیرد.
  8. ذخیره سازی نتایج و استفاده از آنها با اهدافی که از ابتدا مشخص شده بود.
  9. اتوماتیک سازی این فرایند از طریق برنامه نویسی (درصورتیکه کاربرد آن دایمی باشد).
  10. در بسیاری از موارد، هدف از داده کاوی این است که بتواند داده های آماری را به صورت لحظه ای (Real-time) تبدیل به نمودارها و گزارشات کند تا بتوان از آن در سیستم های گزارش دهی (مانند هوش تجاری) استفاده کرد.

بر اساس نظریات: لاول، پیاتتسکی، شاپیرو، آزودو، سانتوس، ویگن، کلیفتون، کامبر، ویتن، بوکارت، هلمز، چارمزا، ددمن، پارکر