مقدمه
دنیای مدرن در واقع دنیایی داده گرا است. ما با داده های عددی و غیرعددی در بخش های صنعتی ، بازرگانی ، مدیریتی ، مالی و علمی احاطه شده ایم. این داده ها باید تحلیل و پردازش شوند تا تبدیل به اطلاعاتی شوند که آگاهی بخش ، آموزش دهنده و پاسخگو باشند یا به شکل دیگری به درک و تصمیم گیری ما کمک کنند.
در سالهای اخیر رشد انفجارآمیزی از روش ها برای اکتشاف دانش جدید از داده های خام به وقوع پیوسته است. در پاسخ به این امر ، رشته ی جدیدی از کاوش داده ها موسوم به داده کاوی به طور ویژه گسترش یافته است تا اطلاعات با ارزشی از مجموعه داده های عظیم استخراج نمایند.
امروزه فناوری داده کاوی به صورت موضوعی داغ برای تصمیم گیران در آمده است ، زیرا این فن ، اطلاعات نهفته ی با ارزش تجاری و علمی را از داده های حجیم ذخیره شده استخراج میکند. با این وجود ، ماهیت داده کاوی فناوری جدیدی محسوب نمیشود. استخراج اطلاعات و دانش از داده های ذخیره شده یک مفهوم کاملا دیرینه در مطالعات علمی و پزشکی میباشد. آنچه که جدید است همگرایی و اشتراک چندین رشته و فناوری های متناظر آنها است که فرصت منحصر به فردی برای داده کاوی به دنیای علم ، تجارت و اقتصاد ایجاد کرده است. اما داده کاوی یا کشف دانش و معرفت از پایگاه داده هابا این تعریف یک شاخه ی نسبتا جدید علمی است که از انجام تحقیقات در رشته های آمار ، یادگیری ماشین ، علوم رایانه (به ویژه پایگاه داده ها) شکل گرفته است. در حالی که مرزهای این رشته ها در داده کاوی مبهم است ، ولی میتوان گفت که مهمترین این رشته ها آمار میباشد به طوری که بدون آمار داده کاوی مفهومی نخواهد داشت. با وجود اینکه داده کاوی یک رشته ی نسبتا جدید علمی میباشد و کاربردهای متنوع و گسترده ای در رشته هایی مانند بازرگانی ، پزشکی ، مهندسی ، علوم رایانه ، صنعت ، کنترل کیفیت ، ارتباطات و کشاورزی پیدا کرده است. امروزه مرز و محدودیتی برای دانش داده کاوی متصور نیست و مرز آن را از اعماق اقیانوس ها تا بی کران فضا میدانند. به عبارت دیگر کاربرد دانش داده کاوی در تمامی حوزه های برخوردار از داده بوده و تنها محدودیت دانش داده کاوی نبود داده است.
تاریخچه
از سال ۱۹۵۰ رایانه ها در تحلیل و ذخیره سازی داده ها به کار گرفته شدند. پس از حدود ۲۰ سال حجم داده ها دو برابر شد و پس از آن تقریبا هر دو سال یک بار همزمان با پیشرفت فناوری اطلاعات ، حجم داده ها هم به دو برابر افزایش یافت. این پیشرفت آن قدر زیاد بود که تعداد رکوردهای برخی از پایگاه داده ها به چند صد میلیارد رسید. پدیده ی شبکه ی جهانی وب ، استفاده ی گسترده از بارکد برای تولیدات تجاری ، به خدمت گرفتن کامپیوتر در کسب و کار ، خدمات الکترونیکی دولتی و پیشرفت در وسایل جمع آوری داده ، انفجاری را در مجموعه های اطلاعاتی سازمان ها و موسسات ایجاد کرده است. حجم زیاد اطلاعات ، مدیران این مجموعه ها را در تحلیل و یافتن اطلاعات مفید دچار چالش کرده است.
پیشرفت شگفت انگیز فناوری رایانه ای و مجهز شدن بشر به این ابزار سبب پیشرفت فوق العاده در کسب و ذخیره سازی داده های عددی و همچنین به وجود آمدن پایگاه داده های بزرگ در زمینه های مختلف شده است. داده های تبادلات تجاری ، کشاورزی ، ترافیک ، اینترنت ، داده های نجومی ، جزئیات مکالمات تلفنی ، داده های پزشکی و درمانگاهی مثال هایی از چنین پایگاه داده هایی میباشند. در واقع تکنیک های تولید و جمع آوری پایگاه داده ها بسیار سریع تر از توانایی ما در درک و استفاده از آنها رشد کرده است. از اواخر دهه ی ۸۰ میلادی بشر به فکر دستیابی به اطلاعات نهفته در این داده های حجیم افتاد و تلاش ها برای انجام این کار را شروع کرد که با سیستم های سنتی استفاده از پایگاه داده ها میسر نبود. شدت رقابت ها در عرصه های علمی ، اجتماعی ، اقتصادی ، سیاسی و نظامی نیز اهمیت عامل سرعت یا زمان دسترسی به اطلاعات را دو چندان کرد. بنابراین نیاز به طراحی سیستم هایی که قادر به اکتشاف سریع اطلاعات مورد علاقه ی کاربران با تاکید بر حداقل مداخله ی انسانی باشند از یک طرف و روی آوردن به روش های تحلیل متناسب با حجم داده های زیاد از سوی دیگر احساس شد.
در سال ۱۹۸۹ و ۱۹۹۱ کارگاه های کشف دانش و معرفت از پایگاه داده ها توسط پیاتتسکی و همکارانش برگزار شد. در واقع دادهکاوی فرایندی است که در آغاز دهه ی ۹۰ پا به عرصه ی ظهور گذاشته و با نگرشی نو ، به مساله ی استخراج اطلاعات از پایگاه داده ها پرداخت. در واقع پژوهش جدی روی موضوع داده کاوی از اوایل دهه ی ۹۰ شروع شد. پژوهش ها و مطالعه های زیادی در این زمینه صورت گرفته ؛ همچنین سمینارها ، دوره های آموزشی و کنفرانس هایی نیز برگزار شد و پایه های نظری داده کاوی در تعدادی از مقاله های پژوهشی آورده شد. در فواصل سال های ۱۹۹۱ تا ۱۹۹۴ کارگاه های کشف دانش و معرفت از پایگاه داده ها توسط فیاد و پیاتتسکی و دیگران برگزار شد. از سال ۱۹۹۵ داده کاوی به صورت جدی وارد مباحث آمار شد.
واژه ی «کشف دانش» به طور رسمی اولین بار توسط فیاد در اولین کنفرانس بین المللی داده کاوی و کشف دانش که در سال ۱۹۹۵ در مونترال برگزار شده بود ، معرفی شد که به بیان ارتباط تکنیک های آنالیز در چندین مرحله با هدف استخراج دانش های ناشناخته ی قبلی از داده های در دسترس می پرداخت. داده هایی که ارتباط منظم و پراهمیت آنها قبلا به نظر نمی رسید.
گروهی از محققین سال ۱۹۹۵ با استفاده از داده کاوی ، انباره های داده ی بانک های آمریکا را بررسی کرده و بیان کردند که چگونه این سیستم ها برای بانک های آمریکا قدرت رقابت بیشتری ایجاد میکنند. در این سال انجمن داده کاوی همزمان با اولین کنفرانس بین المللی «کشف دانش و داده کاوی» شروع به کار و یک سازمان علمی به نام ACM- SIGKDD را تاسیس کرد. در سال ۱۹۹۶ اولین شماره ی مجله ی «کشف دانش از پایگاه داده ها» منتشر شد. در همان سال دیدگاهی از داده کاوی به عنوان «پرس و جو کننده از پایگاه های استنتاجی» پیشنهاد شد و فیاد و پیاتتسکی پیشرفت های کشف دانش و داده کاوی را اعلام کردند. همچنین دیدگاه اقتصادسنجی روی داده کاوی و عملکرد داده کاوی به عنوان یک مساله ی بهینه ، ارائه و کنفرانس های ناحیه ای و بین المللی در مورد داده کاوی برگزار شد که از جمله می توان به کنفرانس آسیا و اقیانوسیه درباره ی کشف دانش و داده کاوی اشاره کرد. سال ۲۰۰۰ بحث های مقایسه ای بین آمار و داده کاوی و نیز استفاده از وب در کاوش داده ها و کاربردهای آن ارائه شد و در نهایت در سال ۲۰۰۲ «داده کاوی ساختارهای پیوند برای مدل رفتار مصرف کننده» عرضه شد. در حال حاضر ، داده کاوی مهمترین فناوری جهت بهره برداری موثر از داده های حجیم است و اهمیت آن رو به افزایش است.
سیر تحول داده کاوی
- ۱۹۶۰
ایجاد سیستم های جمع آوری و مدیریت داده ها توسط CDC و IBM
ذخیره ی داده ها روی دیسک ها و کامپیوترها
بازیابی ایستا (محاسبه کل سود یک فروشگاه در ۵ سال گذشته)
- ۱۹۸۰
ایجاد زبان پرس و جو برای تهیه ی گزارشات از پایگاه داده
شاخص گذاری و سازماندهی داده ها با DBMS های DB2 و Sybase و Oracle
بازیابی پویا در سطح رکورد (میزان فروش یک کالا در یک شعبه به صورت روزانه)
- ۱۹۹۰
ایجاد پایگاه داده های چند بعدی Data Warehouse و OLAP
بازیابی پویا در چند سطح (با امکان Drill Down )
- در حال حاضر
ابزارهای پیشرفته مانند SAS و SGI و SPSS Clementine
کشف الگوهای جدید در پایگاه داده ها
بازیابی پویا با نگاه پیشرو به آینده (فروش یک کالا در ماه آینده در یک شعبه خاص و دلایل آن)
داده ، اطلاعات و دانش
داده ها نمایشی از واقعیت ها ، معلومات ، مفاهیم ، رویدادها یا پدیده ها برای برقراری ارتباط ، تفسیر یا پردازش ، توسط انسان یا ماشین می باشند. از طرف دیگر واژه ی اطلاعات به دانشی که از طریق خواندن ، مشاهده و آموزش به دست می آید اطلاق میشود و در حقیقت می توان گفت اطلاعات داده هایی هستند که پس از جمع آوری پردازش شده اند و شکل مفهومی آن را دانش می نامند. بین داده ها و اطلاعات یک شکاف وجود دارد که اندازه ی این شکاف با حجم داده ها ارتباط مستقیم دارد. هرچه داده ها حجیم تر باشند ، این شکاف بیشتر خواهد بود و هرچه حجم داده ها کمتر و روش ها و ابزارهای پردازش داده ها کاراتر باشد ، فاصله ی بین داده ها و اطلاعات کمتر است. امروزه افزایش سریع حجم پایگاه داده ها به شکلی است که توانایی انسان برای درک این داده ها بدون ابزارهای پرقدرت میسر نمیباشد. در این وضعیت ، تصمیم گیری ها به جای تکیه بر اطلاعات بر درک مدیران و کاربران تکیه دارند ، چرا که تصمیم گیرندگان ابزار قوی برای استخراج اطلاعات با ارزش را در دست ندارند.
جایگاه داده کاوی در سازمان داده کاوی و دیگر رشته ها
داده کاوی یک رشته ی نسبتا جدید علمی میباشد که از انجام تحقیقات حداقل در رشته های آمار ، یادگیری ماشین ، علوم رایانه (خصوصا مدیریت پایگاه داده) شکل گرفته است. مهمترین این رشته ها ، آمار کلاسیک میباشد. بدون آمار داده کاوی وجود نخواهد داشت ، به طوری که آمار ، اساس اغلب تکنولوژی هایی میباشد که داده کاوی بر روی آنها بنا میشود. آمار کلاسیک مفاهیمی مانند تحلیل رگرسیون ، توزیع استاندارد ، انحراف استاندارد ، واریانس ، تحلیل خوشه ای و فاصله های اطمینان را که همه ی این موارد برای مطالعه ی داده و ارتباط بین داده ها میباشد را در بر می گیرد. مطمئنا تحلیل آماری کلاسیک نقش اساسی در تکنیک های داده کاوی ایفا میکند. دومین رشته ی مرتبط با داده کاوی ، یادگیری ماشین میباشد ، که به مفهوم دقیق تر اجتماع آمار و هوش مصنوعی است. در حالی که هوش مصنوعی نتوانست موفقیت تجاری کسب کند ، یادگیری ماشین در بسیاری از موارد جایگزین آن گردید. از یادگیری ماشین به عنوان تحول هوش مصنوعی یاد شده است چون ترکیبی از روش های ابتکاری هوش مصنوعی به همراه تحلیل آماری پیشرفته میباشد. یادگیری ماشین اجازه می دهد تا برنامه های رایانه ای در مورد داده ای که آنها را مطالعه میکنند ، مانند برنامه هایی که تصمیمات متفاوتی بر مبنای کیفیت داده ی مطالعه شده میگیرند ، یادگیری داشته باشند و برای مفاهیم پایه ای آن از آمار استفاده کنند و از الگوریتم ها و روش های ابتکاری هوش مصنوعی برای رسیدن به هدف بهره گیرند.
آمار و داده کاوی
در داده کاوی تلاش میشود بین آمار و علوم رایانه ای رابطه ای برقرار گردد. برقراری این ارتباط به دلیل وجود یک سلسله از فرضیات ضمنی و غیر واضح ، دشوار بودن تبدیل مفاهیم نظری به الگوریتم های رایانه ای در مباحث آماری و به دلیل وجود الگوریتم های فراوان در متون رایانه ای ، دشوار است. لذا داشتن درکی درست از مدل سازی و الگوریتم های محاسباتی برای کارهای داده کاوی ضروری است.
اگرچه آمار و داده کاوی هر دو با روش های تحلیل و مدل بندی داده ها مرتبط می باشند و اشتراکات زیادی بین این دو رشته وجود دارد اما می توان تفاوت های آمار و داده کاوی را در جدول زیر نشان داد :
| آمار | داده کاوی | |
| حجم داده ها | کوچک و متوسط | بزرگ |
| نوع داده ها | داده های دست اول | داده های دست دوم |
| مطالعه های کنترل موردی | داده های تبادلات تجاری | |
| طرح آزمایش ها | داده های ترافیک اینترنت | |
| بررسی نظرخواهی | داده های مکالمات تلفن | |
| مطالعه های مشاهده ای | داده های پزشکی | |
| پردازش داده ها | روش های دستی | روش های کاملا خودکار |
| پردازش داده ها توسط انسان به کمک رایانه | پردازش داده ها توسط الگوریتم های رایانه ای به کمک انسان | |
| وظایف معمول | برازش مدل | جستجو و شناخت الگوها |
| آزمون مدل | رده بندی | |
| فواصل اطمینان و پیش بینی | دسته بندی | |
| اهداف تحقیق | توسعه ی روش های آماری بهتر | توسعه ی الگوریتم های بهتر و سریع تر |
| مطالعه ی خواص آماری و ریاضی روش ها | مطالعه عملکردهای تجربی الگوریتم های داده کاوی |
نام های دیگر داده کاوی
علاوه بر داده کاوی اصطلاحات دیگری از جمله «استخراج دانش» ، «اکتشاف اطلاعات» ، «تحصیل اطلاعات» ، «دیرینه شناسی یا تبارشناسی داده ها» معادل داده کاوی به کار برده می شوند. به علاوه گریگوری پیاتتسکی شاپیرو برای اولین بار در ۱۹۹۱ اصطلاح «کشف دانش از پایگاه داده ها» را به منظور تصریح بر این امر که دانش محصول نهایی این فرایند است ، به کار برد.
تعاریف داده کاوی
Data mining is the exploration and analysis of large quantities of data in order to discover valid , novel , potentially useful , and ultimately understandable patterns in data
Valid : The patterns hold in general.
Novel : We did not know the pattern beforehand.
Useful : We can devise actions from the patterns.
Understandable : We can interpret and comprehend the patterns
* داده کاوی تحلیل و کشف مقادیر بزرگی از داده است به منظور کشف الگوهای معتبر ، جدید ، به طور بالقوه مفید و نهایتا قابل فهم از داده ها می باشد. (Fayyad)
Data mining , or knowledge discovery in databases , refers to the “discovery of interesting , implicit , and previously unknown knowledge from large databases.”
* داده کاوی یا کشف دانش از پایگاه داده ها اشاره به کشف دانش جدید [از قبل آن را نمی دانیم] ، مطلق و جالب توجه از پایگاه داده های بزرگ دارد. (Frawley)
* داده کاوی یعنی فرایند کشف یا استنتاج الگوهای بالقوه سودمند ، اطلاعات معتبر و بدیع ، دانش پنهان و قابل فهم موجود در داده ها و یا پایگاه داده ها (Judson)
* داده کاوی به فرایند استخراج اطلاعات نهفته ، قابل فهم ، قابل پیگیری از پایگاه داده های بزرگ و استفاده از آن در تصمیم گیری های تجاری مهم ، اطلاق میشود. (Zekulin)
* داده کاوی مجموعه ای از روش ها در فرایند کشف دانش میباشد که برای تشخیص الگوها و روابط نامعلوم در داده ها مورد استفاده قرار می گیرد. (Ferruzza)
* فرایند کشف الگوهای مفید از داده ها را داده کاوی می گویند. (Elder)
* فرایند انتخاب ، کاوش و مدل بندی داده های حجیم ، جهت کشف روابط نهفته با هدف به دست آوردن نتایج واضح و مفید ، برای مالک پایگاه داده ها را داده کاوی گویند.
* داده کاوی یعنی جستجو در یک پایگاه داده ها برای یافتن الگوهایی میان داده ها.
* داده کاوی فرایند تحلیل داده از چشم اندازها یا زوایای گوناگون و تلخیص و تبدیل آن به دانش یا اطلاعاتی سودمند است.
دو دیدگاه در مورد داده کاوی
با توجه به این تعاریف دو تعبیر مختلف از داده کاوی وجود دارد. برخی مولفین مانند چتفیلد (۱۹۹۵) ، داده کاوی را مترادف عبارت کشف دانش و معرفت از پایگاه داده ها می دانند. بقیه از جمله فیاد (۱۹۹۶) به داده کاوی به عنوان یک مرحله ضروری از فرایند بزرگتر کشف دانش و معرفت از پایگاه داده ها که به اختصار KDD میگویند ، اشاره دارند.
در دیدگاه اول داده کاوی به عنوان مجموعه ای از فرایندها که از تعریف اهداف تا ارزیابی نتایج را در بر میگیرد ، معرفی میشود. مراحل مختلف داده کاوی در این دیدگاه عبارتند از :
- تعریف اهداف تحلیل
- انتخاب و سازماندهی داده ها
- تحلیل کاوشگرانه ی داده ها
- مشخص کردن روش های آماری مورد استفاده در مرحله ی تحلیل
- تحلیل داده ها بر اساس روش انتخابی
- ارزیابی و مقایسه روش های مورد استفاده و انتخاب مدل نهایی برای تحلیل
- تفسیر مدل حاصل و استفاده از آن در فرایند تصمیم گیری
اما در دیدگاه دوم ، KDD شامل مراحل زیر است :
- پاکسازی داده ها : حذف داده های ناپایدار و مزاحم
- یکپارچه سازی داده ها : ترکیب منابع متعدد ، پراکنده و احیانا ناهمگن داده ها
- انتخاب داده ها : بازیابی داده های مربوط به عمل کاوش از پایگاه داده ها
- تبدیل داده ها : تبدیل داده ها به اشکالی مناسب برای به کار بردن روش های مختلف
- داده کاوی : مرحله ای ضروری از فرایند KDD است که در آن از روش های مختلف آماری و یادگیری ماشین برای استخراج الگوها استفاده میشود ، که شامل مراحل زیر است :
- انتخاب عملیات دادهک اوی (رده بندی ، خوشه بندی ، پیش بینی ، تعیین وابستگی و …)
- انتخاب روش داده کاوی (شبکه های عصبی ، درخت تصمیم گیری ، الگوریتم ژنتیک و …)
- داده کاوی و جستجو برای یافتن الگوی مناسب
- ارزیابی الگوها : شناسایی الگوهای جذاب ارائه دانش ، بر اساس معیارهای جذابیت.
- ارائه دانش : ارائه دانش استخراج شده با استفاده از تکنیک های نمایش اطلاعات
آماده سازی و پیش پردازش داده ها
آماده سازی داده ها گاهی در متون داده کاوی به عنوان موضوع کم اهمیت و به عنوان یک گام در فرایند داده کاوی ندیده گرفته میشود. در کاربردهای داده کاوی در دنیای واقعی ، وضعیت برعکس میشود. برای آماده سازی داده ها تلاشی بیشتر از کاربست روش های داده کاوی صرف میشود. دو وظیفه ی اصلی برای آماده سازی داده ها وجود دارد :
- سازماندهی داده ها به شکل استاندارد به طوری که برای پردازش با داده کاوی و دیگر ابزارهای مبتنی بر رایانه آماده باشد.
- مجموعه های داده ها طوری آماده شوند که به بهترین عملکرد روش های داده کاوی منتهی شوند.
داده کاوی به نوعی تحلیل داده های دست دوم است ، با این مفهوم که داده کاوها مستقیما در فرایند جمع آوری داده ها دخالت نداشته اند. گاهی این واقعیت می تواند کیفیت بد دادههای خام را توجیه کند. کیفیت داده ها در استخراج نتایج مطلوب و اطلاعات حقیقی بسیار موثر است. پایگاه داده های حجیم شامل داده های مزاحم ، گمشده و ناپایدار هستند. از این رو برای ارتقای کیفیت داده ها لازم است در ابتدای کار به صورت زیر پردازش شوند :
- پاکسازی داده ها : برای انجام یک داده کاوی مطلوب لازم است مقادیر گمشده جایگزین شوند. داده های مزاحم شناسایی و به نحوی مناسب با آنها برخورد و ناپایداری ها اصلاح شوند.
- مقادیر گمشده
داده هایی هستند که به هر دلیلی در هنگام تحلیل داده ها در اختیار تحلیلگر قرار ندارند. وجود چنین داده هایی می تواند تحلیل دادهها را بسیار دشوار سازد. در صورت وجود مقادیر گمشده در داده ها باید به گونه ای مناسب در مورد آنها تصمیم گیری شود. به عنوان مثال ممکن است رکورد مربوطه حذف یا به جای آن یک مقدار ثابت ، میانگین مقادیر خصیصه ی مورد نظر ، میانگین نمونه های مشابه یا محتمل ترین مقدار جایگزین گردد. این جایگذاری ممکن است با استفاده از رگرسیون یا سایر روش های مدل سازی انجام شود.
- داده های مزاحم
انحرافی تصادفی یا غیر تصادفی در یک متغیر اندازه گیری شده هستند که به عنوان مثال میتوانند نتیجه ی خطای اندازه گیری یا یک اثر پنهان باشند. باید علت وجود یک داده ی مزاحم به خوبی بررسی و در مورد آن تصمیم گیری شود. خوشه بندی و برازش یک تابع رگرسیونی به داده ها از جمله راه های هموارسازی داده ها هستند. البته بسیاری از روش های هموارسازی داده ها ، روش هایی برای تخلیص داده ها محسوب میشوند.
- داده های ناپایدار
این گونه داده ها شامل تغییراتی بی قاعده هستند که تحلیل آنها را دچار مشکل میسازد. برخی از انواع آنها را میتوان با تبدیل مناسب اصلاح کرد یا برای تحلیل آنها روش های خاصی را به کار برد.
- یکپارچه سازی داده ها : از آن جا که داده ها از منابع مختلف جمع آوری می شوند ، ممکن است دارای ناسازگاری هایی مانند تفاوت در مقیاس باشند یا خصیصه های مختلف به گونه ای با یکدیگر مرتبط باشند که برخی از آنها بر حسب تعدادی دیگر قابل حصول باشند. در این گونه موارد لازم است داده ها به گونه ای یکپارچه شوند که حتی الامکان دارای کمترین تفاوت باشند و از ورود خصایص مشابه یا تکراری در تحلیل داده ها پرهیز شود. برخی از خصایص زائد را می توان از طریق تحلیل همبستگی کشف کرد. همبستگی بین دو متغیر به این معنی است که می توان اطلاعات یکی را از دیگری به دست آورد و بنابراین حضور هر دو این خصیصه ها لزومی ندارد.
- تبدیل داده ها : گاهی برای خلاصه سازی یا به کارگیری روش های تحلیل داده ها لازم است به یکی از روش های زیر داده ها به شکلی مناسب تبدیل شوند.
- هموارسازی : برای حذف افت وخیز شدید داده ها از تکنیک های هموارسازی مانند خوشه بندی و رگرسیون استفاده میشود.
- انبوهش : نوعی خلاصه سازی است که با عملیات جبری روی برخی مقادیر و به دست آوردن مقادیر کلی تر اجرا میشود. به عنوان مثال مقادیر فروش روزانه میتوانند به صورت مقادیر ماهانه یا سالانه انباشته شوند.
- تعمیم داده ها : با استفاده از سلسله مراتب مفاهیم داده های ابتدایی یا سطح پایین مانند سن به وسیله ی مفاهیم سطح بالاتر مانند جوان ، میان سال و کهن سال جایگزین می شوند.
- نرمال سازی داده ها : داده ها به یک نحوی مقیاس بندی می شوند که در داخل یک محدوده ی مشخص و کوچک قرار گیرند
- تخلیص داده ها : برای کاهش داده ها از تکنیک هایی مانند کاهش بعد ، فشرده سازی و مجزا سازی داده ها استفاده میشود. موضوع اصلی برای ساده کردن داده ها ، کاهش بعد است و سوال عمده این است که آیا برخی از این داده های آماده و پیش پردازش شده را می توان بدون فدا کردن کیفیت نتایج کنار گذاشت یا خیر.
ساختار یک سیستم داده کاوی
پس از پیش پردازش داده ها ، نتایج در پایگاه داده یا انبار داده ی جدیدی ذخیره می شوند. شکل زیر ساختار یک سیستم داده کاوی معمول را نشان میدهد که ورودی آن مخازن بزرگ داده ها و خروجی آن اطلاعات مورد نیاز کاربر است و پایان کار کشف دانش و معرفت از پایگاه داده ها تلقی میشود.
در حالت کلی یک سیستم داده کاوی می تواند شامل مولفه های زیر باشد :
- پایگاه داده و انبار داده : برای ذخیره سازی داده های حجیم به کار می روند.
- سرور : مسئول بازخوانی داده های مربوط به کار کاوش بر اساس اهداف داده کاوی است.
- پایگاه دانش : محدودهای از دانش است که جهت هدایت فرایند کاوش یا ارزیابی جذابیت الگوهای حاصل به کار میرود. این اطلاعات میتواند شامل دانستنی هایی مانند عقاید کاربر یا مفاهیم طبقه بندی شده جهت سازماندهی خصیصه ها ، آستانه های تعیین جذابیت و … باشد.
- موتور داده کاوی : به صورت گسترده از روش های آماری و یادگیری ماشین برای توصیف ، پیوند دادن ، رده بندی ، تحلیل خوشه ای ، پیش بینی و … استفاده میکند و هسته ی اصلی سیستم داده کاوی را تشکیل می دهد.
- واحد ارزیابی الگوها : با استفاده از معیارهای جذابیت الگو و آستانه های جذابیت و همچنین ارتباط متقابل با واحدهای دیگر داده کاوی ، کاوش را به سمت تمرکز بر استخراج الگوهای جذاب هدایت میکند.
- رابط گرافیکی کاربر : بین کاربران و سیستم داده کاوی ارتباط برقرار میکند.
معیارهای جذابیت الگو
گرچه مشخص ساختن داده های کاری و نوع دانشی که باید استخراج شود ، می تواند تعداد الگوهای تولید شده را کاهش دهد اما یک فرایند داده کاوی ممکن است تعداد بسیار زیادی از الگوها را تولید کند که تنها تعداد کمی از آنها مد نظر هستند. بنابراین کاربر نیاز به معیارهایی برای تشخیص الگوهای جذاب دارد.
به طور کلی هر معیار با یک آستانه در ارتباط است که به وسیله ی کاربر مشخص میشود و آن دسته از الگوهایی که این آستانه را کسب نکنند ، جذاب تشخیص داده نمیشوند و به عنوان الگو به کاربر ارائه نمیشوند. برخی معیارهای مورد نظر برای جذابیت الگو عبارتند از :
- سادگی : یکی از عوامل موثر بر جذابیت یک الگو ، سادگی کلی آن الگو است که با توجه به معیارهای عینی ، اندازه ی الگو ، تعداد خصیصه ها و یا عملگر ظاهر شده در الگو کنترل میشود.
- قطعیت : هر الگوی استخراج شده باید یک معیار حتمیت وابسته به آن داشته باشد که درجه ی اعتبار الگو و صحت آن را نشان می دهد.
- مطلوبیت : یکی دیگر از معیارهایی که می تواند جذابیت یک الگو را تعیین کند ، میزان سودمندی آن الگوست که توسط یک تابع سودمندی تقریب زده میشود.
ارزیابی و به تصویر کشیدن الگوهای کشف شده
برای آن که داده کاوی موثر باشد ، سیستم داده کاوی باید قادر به ارائه و نمایش الگوهای کشف شده در اشکال مختلف مانند قواعد ، جداول ، نمودارهای مختلف ، درخت های تصمیم و سایر نمایش های تصویری باشد. امکان به تصویر کشیدن الگوهای کشف شده می تواند به کاربران با پس زمینه های مختلف برای شناسایی الگوهای مورد علاقه و هدایت سیستم به اکتشاف بیشتر کمک کند. استفاده از سلسله مراتب مفاهیم نیز بسیار مفید است و امکان نمایش داده ها به صورت مفاهیم سطح بالاتر ممکن است برای کاربران بیش از قواعد ارائه شده به صورت مفاهیم سطح پایین قابل درک باشد.
انواع داده کاوی
داده کاوی در دو نوع هدایت شده و غیرهدایت شده ظاهر میشود. داده کاوی هدایت شده ، دارای متغیر هدفی خاص و از پیش تعیین شده است که به دنبال الگویی خاص می گردد ؛ در حالی که هدف داده کاوی غیر هدایت شده ، یافتن الگوها یا تشابهات بین گروه هایی از اطلاعات ، بدون داشتن متغیر هدفی خاص و یا مجموعه ای از دسته ها و الگوهای از پیش تعیین شده میباشد.
وظایف داده کاوی
داده کاوی با همه ی عظمت و بزرگی خود که امروزه در تمامی موضوعات جهان ورود پیدا کرده است شامل شش عمل و وظیفه مهم است که می توان بسیاری از مسائل محیط اطراف را در قالب یکی از این شش عمل و وظیفه ی زیر گنجاند :
۱) دسته بندی ۲) تخمین ۳) پیش بینی ۴) گروه بندی شباهت ۵) خوشه بندی ۶) توصیف و نمایه سازی
سه مورد اول همگی داده کاوی هدایت شده هستند که هدف آنها یافتن ارزش یک متغیر هدف خاص است. گروه بندی شباهت و خوشه بندی جزو داده کاوی غیر هدایت شده هستند که در آن هدف ، یافتن ساختار پنهان درون داده ها بدون توجه به یک متغیر هدف خاص است. نمایه سازی عملی توصیفی است که می تواند هم هدایت شده و هم غیر هدایت شده باشد.
- دسته بندی
به نظر می رسد دسته بندی که یکی از معمول ترین کارکردهای داده کاوی است ، یکی از واجبات بشر باشد. تمامی خلقت خداوند بر پایه دسته بندی ایجاد گردیده است. ما برای شناخت و برقراری رابطه درباره ی دنیا ، به طور مداوم دسته بندی ، طبقه بندی و درجه بندی میکنیم. ما موجودات زنده را به شاخه ها و گونه ها ، مواد را به عناصر و حیوانات و انسان ها را به نژادها تقسیم میکنیم.
دسته بندی شامل بررسی ویژگی های یک شئ جدید و تخصیص آن به یکی از مجموعه های از قبل تعیین شده میباشد. عمل دسته بندی با تعریف درستی از دسته ها و مجموعه ای از ویژگی ها که حاوی موارد از پیش دسته بندی شده هستند مشخص میگردد ؛ این عمل شامل ساختن مدلی است که بتوان از آن برای دسته بندی کردن داده های دسته بندی نشده ، استفاده نمود. اشیائی که باید دسته بندی شوند ، معمولاً به وسیله ی اطلاعاتی در جدول پایگاه داده ها یا یک فایل ارائه می شوند. عمل دسته بندی شامل افزودن ستون جدیدی با کد دسته بندی خاصی است. مثال هایی از دسته بندی در زیر ارائه شده است :
* دسته بندی متقاضیان وام و اعتبار به عنوان کم خطر ، متوسط و پرخطر
* انتخاب محتویات یک صفحه ی وب برای قرار دادن در شبکه ی اینترنت
* تعیین شماره تلفن های متصل به دستگاه های نمابر
* تشخیص مدعیان غیر واقعی دریافت خسارت از بیمه
در همه ی این مثال ها تعداد محدود و از پیش تعیین شده ای از دسته ها وجود دارد و انتظار داریم بتوانیم هر اطلاعاتی را به یک یا دو مورد از آنها تخصیص دهیم. تکنیک های درخت تصمیم و نزدیکترین همسایه از جمله تکنیک های دسته بندی میباشند. شبکه های عصبی و تحلیل پیوند نیز در شرایط خاصی عمل دسته بندی را انجام می دهند.
- تخمین
تخمین ، با نتایج مجزایی که با ارقام پیوسته نشان داده شده اند ، سروکار دارد. در تخمین ، داده های ورودی در قالب متغیرهای ورودی مختلف به سیستم داده میشود و متغیرهای خروجی آن رقمی چون درآمد یا تراز کارت اعتباری میباشد. در عمل ، تخمین اغلب برای انجام دسته بندی استفاده میشود. یک شرکت کارت های اعتباری که مایل است یک فضای تبلیغاتی را در پاکت های صورت حساب به یک تولید کننده ی پوتین اسکی بفروشد ، باید مدل دسته بندی تهیه کند که همه ی دارندگان کارت ها را در یکی از دو دسته ی اسکی باز یا غیر اسکی باز قرار دهد. روش دیگر ایجاد مدل تخمین این است که به هر دارنده ی کارت ، یک امتیاز تمایل به اسکی تخصیص می دهد ؛ این ارقام میتواند صفر و یک باشد که نشانگر احتمال تخمین زده شده برای اسکی باز بودن یا نبودن دارندهی کارت است. عمل دسته بندی ، اکنون به ایجاد امتیازی آستانه ایمنجر میگردد. هر کسی که امتیازی بیشتر یا مساوی با امتیاز آستانه داشته باشد به عنوان اسکی باز قلمداد میشود و هر کسی که امتیازی کمتر از امتیاز مورد نظر داشته باشد اسکی باز محسوب نمی گردد.
روش تخمین فواید زیادی دارد که مهم ترین آنها این است که می توان اطلاعات را مطابق تخمین به دست آمده مرتب نمود. برای پی بردن به اهمیت آن فرض کنید که شرکت تولید پوتین های اسکی ، برای ارسال پانصد هزار آگهی تبلیغاتی محصول جدید خود بودجه ریزی نموده است. فرض کنید از روش دسته بندی استفاده شده و یک و نیم میلیون نفر اسکی باز تعیین شده اند. پس به راحتی می توان به صورت تصادفی ، تبلیغات را برای پانصد هزار نفر منتخب از آن افراد ارسال نمود ؛ در حالی که اگر مدل تخمین ، امتیاز تمایل به اسکی را برای کلیه افراد تعیین نماید شایسته است که تبلیغات را برای پانصد هزار نفر از محتمل ترین کاندیداها فرستاد. پر واضح است که احتمال پاسخ گیری از ارسال تبلیغات بر اساس مدل تخمین بسیار بیشتر از ارسال تصادفی تبلیغات میباشد. برخی دیگر از مثال های تخمین در ادامه آمده است ؛ تخمین تعداد فرزندان در یک خانواده ، تخمین درآمد کل یک خانواده ، تخمین دوره عمر یک مشتری ، تخمین احتمال پاسخ فردی خاص به یک پیشنهاد بیمه ی عمر مدل های رگرسیون و شبکه های عصبی از جمله تکنیک های مناسب داده کاوی برای تخمین می باشند.
- پیش بینی
پیش بینی مانند دسته بندی یا تخمین است با این تفاوت که اطلاعات ، مطابق برخی از رفتارهای پیش بینی شده ی آینده یا ارقام تخمین زده ی آینده دسته بندی می شوند. در عملِ پیش بینی ، تنها روش برای بررسی صحت دسته بندی ، انتظار و دیدن آینده است.
هر یک از تکنیک های استفاده شده در دسته بندی و تخمین را می توان برای استفاده در پیش بینی تطبیق داد. جایی که متغیری که باید پیش بینی شود از قبل معلوم است و داده های پیشین برای آن وجود دارد ؛ از داده های پیشین برای تهیه ی یک مدل که بیانگر رفتار مشاهده شده ی کنونی است استفاده میشود ؛ وقتی این مدل برای ورودی های کنونی به کار رفت ؛ نتیجه ی کار ، پیش بینی رفتار آینده خواهد بود. مثال هایی از پیش بینی از این قرارند :
* پیش بینی اینکه کدام مشتریان در طول ۶ ماه آینده ، بازار محصول ما را ترک خواهند کرد.
* پیش بینی اینکه کدام مشترکین تلفن ، متقاضی خدمات ویژه مانند مکالمه ی سه جانبه یا پیغام گیر خواهند شد.
بیشتر تکینک های داده کاوی در صورت وجود داده های مناسب ، برای استفاده در پیش بینی مناسبند. انتخاب تکنیک به ماهیت داده های ورودی و نوع متغیری که باید پیش بینی شود بستگی دارد.
- گروه بندی شباهت یا قوانین وابستگی
عمل گروه بندی شباهت برای تعیین ویژگی های همزمانی هستند که در وقوع یک پدیده رخ میدهند. به عبارت دیگر عمل گروه بندی شباهت احتمال وقوع و یا عدم وقوع همزمان ویژگی ها را تعیین مینماید. به بیان ساده تر عمل گروه بندی شباهت تعیین میکند که چه چیزهایی با هم جورند ؛ مثال معمول این موضوع تعیین کالاهایی است که با هم در یک چرخ دستی خرید در سوپر مارکت قرار می گیرند ؛ چیزی که آن را تحلیل سبد بازار می نامیم. فروشگاه های زنجیره ای خرده فروشی می توانند از گروه بندی شباهت برای تعیین چیدمان کالاها در قفسه های فروشگاه ، در یک کاتالوگ و یا صفحه ی وب فروش اینترنتی استفاده کنند ، تا اقلامی که اغلب با هم خریده می شوند در کنار هم قرار گیرند. از گروه بندی شباهت می توان برای تعیین شرایط فروش های متقابل و همزمان و همچنین برای طراحی بسته بندی های جذاب و یا دسته بندی محصولات و خدمات استفاده کرد.
گروه بندی شباهت یک روش ساده برای ایجاد قوانین از داده هاست. اگر دو قلم کالا مثلاً شیر خشک و پوشک نوزاد در یک قفسه و کنار هم چیده شوند ، می توان دو قانون وابستگی ایجاد کرد :
افرادی که شیر خشک نوزاد می خرند ، با احتمال P1 پوشک نوزاد را هم می خرند.
افرادی که پوشک نوزاد می خرند ، با احتمال P2 شیر خشک نوزاد را هم می خرند.
- خوشه بندی
خوشه بندی به عمل تقسیم جمعیت ناهمگن به تعدادی از زیر مجموعه ها یا خوشه های همگن گفته میشود. وجه تمایز خوشه بندی از دسته بندی این است که خوشه بندی به دسته های از پیش تعیین شده تکیه ندارد. در دسته بندی بر اساس یک مدل هر کدام از داده ها به دسته ای از پیش تعیین شده اختصاص می یابد ؛ این دسته ها یا از ابتدا در طبیعت وجود داشته اند (مثل جنسیت ، رنگ پوست و مثال هایی از این قبیل) یا از طریق یافته های پژوهش های پیشین تعیین گردیده اند. اما در خوشه بندی هیچ دسته ی از پیش تعیین شده ای وجود ندارد و داده ها صرفا براساس تشابه گروه بندی می شوند و عناوین هر گروه نیز توسط کاربر تعیین می گردد. به طور مثال خوشه های علائم بیماری ها ممکن است بیماری های مختلفی را نشان دهند و خوشه های ویژگی های مشتریان ممکن است حاکی از بخش های مختلف بازار باشد.
خوشه بندی معمولاً به عنوان پیش درآمدی برای به کارگیری سایر تحلیل های داده کاوی یا مدل سازی به کار می رود. به عنوان مثال ، خوشه بندی ممکن است اولین گام در تلاش برای تقسیم بندی بازار باشد ؛ برای ایجاد یک قانون که در همه ی موارد کاربرد داشته باشد و به این سؤال پاسخ دهد که مشتریان به چه نوع تبلیغاتی به بهترین نحو پاسخ می دهند ، اول باید مشتریان را به خوشه هایی متشکل از افرادی با عادات مشابه خرید تقسیم نمود و سپس پرسید که چه نوع تبلیغاتی برای هر خوشه به بهترین نحو عمل میکند.
- نمایه سازی
گاهی اوقات هدف داده کاوی ، تنها توصیف آن چیزی است که در یک پایگاه دادهای پیچیده درجریان است. نتایج نمایه سازی درک ما را از مردم ، محصولات یا فرایندهایی که داده ها را در مرحله ی اول تولید کرده اند افزایش میدهد. توصیف خوب رفتار ، اغلب توضیح خوبی هم به همراه دارد ؛ یک توصیف خوب حداقل نشان می دهد چه زمانی می توان انتظار یک توضیح مناسب را داشت. شکاف جنسیتی مشهور در سیاست آمریکا ، مثالی از این دست است که چگونه این توصیف ساده که «تعداد زنان حامی حزب دموکرات بیش از مردان است» میتواند توجه بیشتر و مطالعات تکمیلی را برای روزنامه نگاران ، جامعه شناسان ، اقتصاددانان و دانشمندان علوم سیاسی ایجاد کند. درخت های تصمیم ابزار مفیدی برای نمایه سازی میباشد ؛ قوانین وابستگی و خوشه بندی را نیز می توان برای نمایه سازی ها استفاده نمود.
فنون داده کاوی
- روش های آماری که عبارتند از استنباط بیزی ، رگرسیون لجستیک ، تحلیل ANOVA و مدل های لگ خطی
- تحلیل خوشه ای که عبارتند از الگوریتم های قابل تقسیم ، الگوریتم های تراکمی ، خوشه بندی افرازی و خوشه بندی افزایشی
- درختان تصمیم و قواعد تصمیم که عبارتند از مجموعه روش های یادگیری استقرایی که عمدتا در هوش مصنوعی ایجاد و توسعه یافته اند. فنونی مثل روش CLS ، الگوریتم ID3 ، الگوریتم C4.5 و الگوریتم های هرس کردن متناظر.
- قواعد پیوند مجموعه ای از متدولوژی های نسبتا جدید را معرفی میکند که شامل الگوریتم هایی مثل تحلیل سبد خرید ، الگوریتم پیشین و الگوهای پیمایش مسیر هستند
- شبکه های عصبی مصنوعی که در آن تاکید بر پرسپترون چند لایه با یادگیری پس انتشار و شبکه های Kohonen است.
- الگوریتم های ژنتیکی که به عنوان یک متدولوژی برای حل مسائل سخت بهینه سازی بسیار مفیدند.
- سیستم های استنباط فازی که بر اساس نظریه ی مجموعه های فازی و منطق فازی قرار دارند. مدل بندی فازی و تصمیم گیری فازی گام هایی هستند که غالبا در فرایند داده کاوی قرار می گیرند.
- روش های تجسم Nبعدی که با وجود این که در صورت استفاده از این فنون و ابزارها می توان اطلاعات مفیدی کشف کرد ، از آن در ادبیات استاندارد داده کاوی سخنی به میان نمی آید. فنونی مثل تجسم هندسی ، نشانه ای و فنون سلسله مراتبی
نرم افزارهای داده کاوی
یک پـروژه ی داده کـاوی جهت انجام تحـلیل ها به یک نرم افزار مناسـب نیاز دارد. امروزه نرم افزارهای مختـلفی در این زمیـنه وجود دارد. مانند :
AI Trilogy , Alice , Answer Tree , BrainMaker , CART , SPSS Clementine , Darwin , DataEngine , Datamite , DBMiner , Decider , DecisionTime , SAS Enterprise Miner , GainSmarts , Intelligent Miner , JDBCMiner , MarketMiner , MARS , Insightful , STATISTICA Data Miner , WebMiner ASP , WEKA , XLMiner
بیشتر سیستم های نرم افزاری فقط جهت انجام روش های خاصی مناسب هستند و قابلیت انجام روش های دیگر را ندارند. یکی از نرم افزارهای مناسب بنا بر تحقیقات انجام شده SAS Enterprise Miner میباشد.
کاربردهای داده کاوی
امروزه عملیات دادهکاوی به صورت گسترده توسط تمامی شرکت هایی که مشتریان در کانون توجه آنها قرار دارند ، استفاده میشود ، از جمله : فروشگاهها ، شرکت های مالی ، ارتباطاتی ، بازاریابی و غیره. استفاده از دادهکاوی به این شرکت ها کمک میکند تا ارتباط عوامل داخلی از جمله : قیمت ، محل قرارگیری محصولات و مهارت کارمندان را با عوامل خارجی مثل وضعیت اقتصادی ، رقابت در بازار و محل جغرافیایی مشتریان کشف نمایند. همچنین دادهکاوی پیشبینی وضع آینده ی بازار ، گرایش مشتریان و شناخت سلیقههای عمومی آنها را برای شرکت ها ممکن میسازد. به عنوان مثال : بازار هدف ، پیدا کردن الگوی خرید مشتری ، برنامهریزی برای معرفی محصول جدید ، Customer profiling ، دستهبندی مشتریان براساس نوع خرید ، آنالیز نیازهای مشتریان ، تشخیص محصولات مناسب برای دستههای مختلف مشتریان ، تشخیص فاکتورهایی برای جذب مشتریان جدید ، تعیین الگوهای خرید مشتریان ، تجزیه و تحلیل سبد خرید بازار ، پیشگویی میزان خرید مشتریان از طریق پست (فروش الکترونیکی) ، پیشبینی الگوهای کلاهبرداری از طریق کارت های اعتباری و شناسایی جرایم مالی ، تشخیص مشتریان ثابت و دستهبندی و خوشهبندی مشتریان با توجه به رفتار مشابه آنها در زمینه ی بانکداری و بازپرداخت وام ، تعیین میزان استفاده از کارت های اعتباری بر اساس گروه های اجتماعی ، تحلیل اعتبار مشتریان ، شناسایی فاکتورهای اصلی در ریسک بازپرداخت وام ، تحلیل پاسخگویی مشتریان به ارائه ی خدمات جدید بانکی ، پیشگویی میزان خرید بیمهنامههای جدید توسط مشتریان ، تحلیل ریسک و برآورد حق بیمه مشتریان بر اساس میزان ریسک هر مشتری ، پیشبینی میزان خسارت بر اساس گروه های مشتریان ، مدیریت ارتباط با بیمهگذاران و تدوین استراتژی بر اساس مشتریان هدف ، تعیین عوامل وفاداری و یا رویگردانی مشتریان ، شناخت نیازها و الگوهای خرید سرویس های بیمهای توسط مشتریان ، شناخت تخلفات بیمهای ، تعیین نوع رفتار با بیماران و تعیین روش درمان بیماری ها ، پیشگویی میزان موفقیت عمل جراحی و تعیین میزان موفقیت روش های درمانی در برخورد با بیماری های سخت ، بررسی میزان تاثیر دارو بر بیماری و اثرات جانبی آن ، تشخیص و پیشبینی انواع بیماری ها مانند تشخیص و یا پیشبینی انواع سرطان ، تجزیه و تحلیل دادههای موجود در سیستم های اطلاعات سلامت ، تحلیل عکس های پزشکی.
همچنین بعضی از کاربردهای داده کاوی را می توان در کاربردهای معمول تجاری (مثل تحلیل و مدیریت بازار ، تحلیل سبد بازار ، پیش بینی قیمت نفت ، بازاریابی هدف ، فهم رفتار مشتری و تحلیل و مدیریت ریسک) ، مدیریت و کشف فریب (کشف فریب تلفنی ، کشف فریب های بیمه ای اتومبیل ، کشف حقه های کارت اعتباری ، کشف تراکنش های مشکوک مالی و پول شویی) ، متن کاوی (خلاصه سازی ، یافتن متون مشابه و کلمات کلیدی ، پالایش نامه های الکترونیکی ، گروه های خبری و …) ، پزشکی (کشف ارتباط علامت و بیماری ، تحلیل آرایه های DNA ، تصاویر پزشکی) ، وب کاوی (پیشنهاد صفحات مرتبط ، بهبود ماشین های جستجوگر یا شخصی سازی حرکت در وب سایت) و یافتن روندهای فرهنگی سیاسی در وب ، تحلیل شبکه های اجتماعی وب۲ (وبلاگ ها ، ویکی ها) ، آنالیز ترافیک وب ، تشخیص نفوذی به شبکه ، بیوانفورماتیک ، سیستم پیشنهاد دهنده برای آموزش مجازی و کاربردهای بسیار دیگری در شاخه های مختلف مهندسی دانست.
محدودیتهای داده کاوی
در حالی که محصولات داده کاوی ابزارهای قدرتمندی میباشند ، اما برای کسب موفقیت ، داده کاوی نیازمند تحلیلگران حرفهای و متخصصان ماهری میباشد که بتوانند ترکیب خروجی به وجود آمده را تحلیل و تفسیر نمایند. در نتیجه محدودیت های داده کاوی مربوط به داده ی اولیه یا افراد است تا اینکه مربوط به تکنولوژی باشد.
اگرچه داده کاوی به الگوهای مشخص و روابط آنها کمک میکند ، اما برای کاربر اهمیت و ارزش این الگوها را بیان نمیکند.تصمیماتی از این قبیل بر عهده ی خود کاربر است.
تشخیص رابطه ی بین رفتارها و یا متغیرها یکی دیگر از محدودیت های دادهکاوی میباشد که لزوما روابط اتفاقی را تشخیص نمیدهد. برای مثال برنامههای کاربردی ممکن است الگوهای رفتاری را مشخص کند ، مثل تمایل به خرید بلیط هواپیما درست قبل از حرکت که این موضوع به مشخصات درآمد ، سطح تحصیلی و استفاده از اینترنت بستگی دارد. در حقیقت رفتارهای شخصی شامل شغل (نیاز به سفر در زمانی محدود) وضع خانوادگی (نیاز به مراقبت پزشکی برای مریض) یا تفریح (سود بردن از تخفیف دقایق پایانی برای دیدن مکانهای جدید) ممکن است بر روی متغیرهای اضافه تاثیر بگذارد.
مشکلات داده کاوی
- وجود عدم قطعیت در اطلاعات
به طور کلی عدم قطعیت در سیستم های پایگاه داده به دو دسته تقسیم می شوند :
اطلاعات ناکامل (مقادیر نامشخص) : منظور خصیصه هایی است که مقداری برای آنها ثبت نشده است.
اطلاعات ناسازگار : اطلاعاتی که در اثر اندازهگیری نادرست یا به وجود آمدن نویز در داده ها ایجاد شده باشد و مقادیر ثبت شده با مقادیر واقعی برابر نباشند. (راه حل این مشکلات قبلا عنوان شده است.)
- حجم بالای داده ها
تعداد رکوردهای برخی از پایگاه داده ها به چند صد میلیارد می رسد. برای رفع مشکلاتی که این سیستم ها در برخورد با دادههای حجیم دارند ، معمولا روش های زیر استفاده میگردند :
طراحی الگوریتم های سریع : کاهش پیچیدگی ها ، بهینه سازی ، موازی سازی و …
کاهش حجم داده ها : نمونه گیری ، گسسته سازی ، کاهش ابعاد و …
به کارگیری یک مدل رابطه ای : استفاده از قابلیت های ذخیره و بازیابی اطلاعات در پایگاه های داده
برخی از مشکلات داده کاوی از اینجا ناشی میشود که نمونه های بسیار زیادی با انواع مختلف صفات وجود دارند. علاوه بر این ، این نمونه ها در بسیاری اوقات دارای بعد بالایی هستند ؛ به این معنی که دارای تعداد فوق العاده زیاد از صفات اندازه پذیر میباشند. این بعد اضافی مجموعه ی داده های حجیم باعث به وجود آمدن مشکلی میشود که در اصطلاحِ داده کاوی به نام «آفت بُعدیت» مشهور است. این آفت بُعدی به دلیل هندسه ی فضاهای با بعد بالا ایجاد میشود و این نوع فضاهای داده ها مخصوص مسائل داده کاوی است. ویژگی های فضاهای با بعد بالا اغلب بر خلاف درک شهودی ظاهر میشوند ، زیرا تجربه از دنیای واقعی در یک فضای با بعد پایین از قبیل فضای با ابعاد دو یا سه است.
- روش های تجسم Nبعدی که با وجود این که در صورت استفاده از این فنون و ابزارها می توان اطلاعات مفیدی کشف کرد ، از آن در ادبیات استاندارد داده کاوی سخنی به میان نمی آید. فنونی مثل تجسم هندسی ، نشانه ای و فنون سلسله مراتبی
- روش های تجسم Nبعدی که با وجود این که در صورت استفاده از این فنون و ابزارها می توان اطلاعات مفیدی کشف کرد ، از آن در ادبیات استاندارد داده کاوی سخنی به میان نمی آید. فنونی مثل تجسم هندسی ، نشانه ای و فنون سلسله مراتبی
نمونههای اجرا شده دادهکاوی
- صنعت
شرکت فولادسازی پوهانگ کره برای صرفهجویی در مصرف انرژی در کورههای بلند خود از الگوریتم های دادهکاوی استفاده و در حدود ۱۵% از مصرف انرژی خود را کاهش داد ، که باعث ۳/۱ میلیون دلار صرفهجویی در هزینههای شرکت شد و از طرف دیگر باعث کاهش قیمت محصولات آن شرکت و افزایش تعداد مشتریان و سود بیشتر آن شرکت نیز شد.
- هتل داری
یکی از هتل های مشهور در لاسوگاس آمریکا ، برای بالا بردن رضایت مسافران از الگوریتم های دادهکاوی استفاده کرد ، به این صورت که با استفاده از اطلاعات جمعآوری شده از مسافران به وسیله ی پرسشنامه و آنالیز آن دادهها توانست عواملی که باعث میشد مسافران دوباره به این هتل باز گردند را پیدا کرده و با طبقهبندی مسافران ، مسافران وفادار به هتل را پیدا کنند.
- مدیریت ریسک
در یکی از بانک های بزرگ کانادا با استفاده از الگوریتم های دادهکاوی ، مدلی را برای دادهها ارائه داده و به وسیله ی نتایج آنالیز آن ، مساله مهم تقلب در حساب ها و چگونگی و میزان برگشت وام های داده شده توسط بانک را حل نمودند و تصمیمی صحیح را برای مشتریان جدید بانک گرفتند.
داده کاوی در ایران
در کشور ما نیز با رشد روزافزون داده ها در کارخانجات ، شرکتها ، فروشگاه های زنجیرهای و مراکز مختلف دولتی و خصوصی نیاز به استفاده از دانش نهفته در آنها یعنی انجام داده کاوی روی داده ها ضروری به نظر میرسد. داده های مرکز آمار ایران ، داروخانه ها ، بیمارستانها ، داده های مرکز پلیس ، مراکز قضایی ، کارت سوخت ، سازمان هواشناسی کشور ، بانک ها ، بیمه و … از جمله داده های انبوه و بسیار ارزشمندی هستند که شایستگی داده کاوی و تحلیل قوانین پنهان را دارند. داده کاوی می تواند با کشف الگوهای پنهان در اصلاح روند تصمیم گیری مدیران بسیار موثر باشد اما کشور ما به دلیل عدم وجود فرهنگ به اشتراک گذاری اطلاعات از دستاوردهای این فناوری محروم بوده است.
با تشکر از این مقاله عالی
موفق باشید
نحوه ذخیره کردن هر مرحله ای که انجام میدیدم به چه صورت است؟
متوجه سوالتون نمیشم لطفا واضح مطرح کنید
سلام.
ممکنه برای معیار مطلوبیت و تابع سودمندی، راهنماییم کنید که این تابع رو پیدا کنم؟ برای معیار ارزیابی خارجی تزم بهش نیاز دارم
سلام لطفاً معادل انگلیسی آن را ارسال کنید تا در خصوص آن صحبت کنیم فکر کنم منظور شما ریکال و افمژر است درسته؟