دیتاماینینگ یار

مروری کلی بر داده کاوی

مقدمه

دنیای مدرن در واقع دنیایی داده ‏گرا است. ما با داده‏ های عددی و غیرعددی در بخش های صنعتی ، بازرگانی ، مدیریتی ، مالی و علمی احاطه شده‏ ایم. این داده‏ ها باید تحلیل و پردازش شوند تا تبدیل به اطلاعاتی شوند که آگاهی بخش ، آموزش دهنده و پاسخگو باشند یا به شکل دیگری به درک و تصمیم‏ گیری ما کمک کنند.

در سال‏های اخیر رشد انفجارآمیزی از روش ها برای اکتشاف دانش جدید از داده ‏های خام به وقوع پیوسته است. در پاسخ به این امر ، رشته‏ ی جدیدی از کاوش داده ‏ها موسوم به داده‏ کاوی به طور ویژه گسترش یافته است تا اطلاعات با ارزشی از مجموعه داده ‏های عظیم استخراج نمایند.

امروزه فناوری داده‏ کاوی به صورت موضوعی داغ برای تصمیم ‏گیران در آمده است ، زیرا این فن ، اطلاعات نهفته ی با ارزش تجاری و علمی را از داده ‏های حجیم ذخیره شده استخراج می‏کند. با این وجود ، ماهیت داده ‏کاوی فناوری جدیدی محسوب نمی‏شود. استخراج اطلاعات و دانش از داده ‏های ذخیره شده یک مفهوم کاملا دیرینه در مطالعات علمی و پزشکی می‏باشد. آنچه که جدید است همگرایی و اشتراک چندین رشته و فناوری‏ های متناظر آن‏ها است که فرصت منحصر به فردی برای داده‏ کاوی به دنیای علم ، تجارت و اقتصاد ایجاد کرده است. اما داده‏ کاوی یا کشف دانش و معرفت از پایگاه داده ‏هابا این تعریف یک شاخه ‏ی نسبتا جدید علمی است که از انجام تحقیقات در رشته های آمار ، یادگیری ماشین ، علوم رایانه (به ویژه پایگاه داده ‏ها) شکل گرفته است. در حالی که مرزهای این رشته‏ ها در داده‏ کاوی مبهم است ، ولی می‏توان گفت که مهمترین این رشته ها آمار می‏باشد به طوری که بدون آمار داده ‏کاوی مفهومی نخواهد داشت. با وجود اینکه داده‏ کاوی یک رشته‏ ی نسبتا جدید علمی می‏باشد و کاربردهای متنوع و گسترده ای در رشته هایی مانند بازرگانی ، پزشکی ، مهندسی ، علوم رایانه ، صنعت ، کنترل کیفیت ، ارتباطات و کشاورزی پیدا کرده است. امروزه مرز و محدودیتی برای دانش داده‏ کاوی متصور نیست و مرز آن را از اعماق اقیانوس ها تا بی کران فضا می‏دانند. به عبارت دیگر کاربرد دانش داده ‏کاوی در تمامی حوزه های برخوردار از داده بوده و تنها محدودیت دانش داده‏ کاوی نبود داده است.

تاریخچه

از سال ۱۹۵۰ رایانه ها در تحلیل و ذخیره سازی داده‏ ها به کار گرفته شدند. پس از حدود ۲۰ سال حجم داده‏ ها دو برابر شد و پس از آن تقریبا هر دو سال یک بار همزمان با پیشرفت فناوری اطلاعات ، حجم داده ‏ها هم به دو برابر افزایش یافت. این پیشرفت آن قدر زیاد بود که تعداد رکوردهای برخی از پایگاه داده‏ ها به چند صد میلیارد رسید. پدیده ی شبکه ی جهانی وب ، استفاده‏ ی گسترده از بارکد برای تولیدات تجاری ، به خدمت گرفتن کامپیوتر در کسب و کار ، خدمات الکترونیکی دولتی و پیشرفت در وسایل جمع آوری داده ، انفجاری را در مجموعه های اطلاعاتی سازمان ‏ها و موسسات ایجاد کرده است. حجم زیاد اطلاعات ، مدیران این مجموعه ها را در تحلیل و یافتن اطلاعات مفید دچار چالش کرده است.

پیشرفت شگفت‏ انگیز فناوری رایانه‏ ای و مجهز شدن بشر به این ابزار سبب پیشرفت فوق‏ العاده در کسب و ذخیره ‏سازی داده ‏های عددی و همچنین به وجود آمدن پایگاه داده‏ های بزرگ در زمینه ‏های مختلف شده است. داده ‏های تبادلات تجاری ، کشاورزی ، ترافیک ، اینترنت ، داده‏ های نجومی ، جزئیات مکالمات تلفنی ، داده‏ های پزشکی و درمانگاهی مثال‏ هایی از چنین پایگاه داده‏ هایی می‏باشند. در واقع تکنیک‏ های تولید و جمع‏ آوری پایگاه داده‏ ها بسیار سریع‏ تر از توانایی ما در درک و استفاده از آن‏ها رشد کرده است. از اواخر دهه‏ ی ۸۰ میلادی بشر به فکر دستیابی به اطلاعات نهفته در این داده ‏های حجیم افتاد و تلاش ‏ها برای انجام این کار را شروع کرد که با سیستم ‏های سنتی استفاده از پایگاه داده ‏ها میسر نبود. شدت رقابت ها در عرصه‏ های علمی ، اجتماعی ، اقتصادی ، سیاسی و نظامی نیز اهمیت عامل سرعت یا زمان دسترسی به اطلاعات را دو چندان کرد. بنابراین نیاز به طراحی سیستم ‏هایی که قادر به اکتشاف سریع اطلاعات مورد علاقه ی کاربران با تاکید بر حداقل مداخله ی انسانی باشند از یک طرف و روی آوردن به روش های تحلیل متناسب با حجم داده ‏های زیاد از سوی دیگر احساس شد.

در سال ۱۹۸۹ و ۱۹۹۱ کارگاه های کشف دانش و معرفت از پایگاه داده‏ ها توسط پیاتتسکی و همکارانش برگزار شد. در واقع داده‏کاوی فرایندی است که در آغاز دهه ی ۹۰ پا به عرصه ‏ی ظهور گذاشته و با نگرشی نو ، به  مساله ‏ی استخراج اطلاعات از پایگاه داده‏ ها پرداخت. در واقع پژوهش جدی روی موضوع داده‏ کاوی از اوایل دهه ی ۹۰ شروع شد. پژوهش‏ ها و مطالعه‏ های زیادی در این زمینه صورت گرفته ؛ همچنین سمینارها ، دوره ‏های آموزشی و کنفرانس ‏هایی نیز برگزار شد و پایه‏ های نظری داده‏ کاوی در تعدادی از مقاله‏ های پژوهشی آورده شد. در فواصل سال‏ های ۱۹۹۱ تا ۱۹۹۴ کارگاه ‏های کشف دانش و معرفت از پایگاه داده‏ ها توسط فیاد و پیاتتسکی و دیگران برگزار شد. از سال ۱۹۹۵ داده‏ کاوی به صورت جدی وارد مباحث آمار شد.

واژه ی «کشف دانش» به طور رسمی اولین بار توسط فیاد در اولین کنفرانس بین‏ المللی داده‏ کاوی و کشف دانش که در سال ۱۹۹۵ در مونترال برگزار شده بود ، معرفی شد که به بیان ارتباط تکنیک های آنالیز در چندین مرحله با هدف استخراج دانش‏ های ناشناخته‏ ی قبلی از داده ‏های در دسترس می پرداخت. داده ‏هایی که ارتباط منظم و پراهمیت آنها قبلا به نظر نمی‏ رسید.

گروهی از محققین سال ۱۹۹۵ با استفاده از داده‏ کاوی ، انباره ‏های داده ‏ی بانک ‏های آمریکا را بررسی کرده و بیان کردند که چگونه این سیستم ها برای بانک‏ های آمریکا قدرت رقابت بیشتری ایجاد می‏کنند. در این سال انجمن داده‏ کاوی همزمان با اولین کنفرانس بین ‏المللی «کشف دانش و داده‏ کاوی» شروع به کار و یک سازمان علمی به نام ACM- SIGKDD را تاسیس کرد. در سال ۱۹۹۶ اولین شماره ی مجله ی «کشف دانش از پایگاه داده ‏ها» منتشر شد. در همان سال دیدگاهی از داده‏ کاوی به عنوان «پرس و جو کننده از پایگاه ‏های استنتاجی» پیشنهاد شد و فیاد و پیاتتسکی پیشرفت‏ های کشف دانش و داده ‏کاوی را اعلام کردند. همچنین دیدگاه اقتصادسنجی روی داده‏ کاوی و عملکرد داده‏ کاوی به عنوان یک مساله‏ ی بهینه ، ارائه و کنفرانس‏ های ناحیه ای و بین ‏المللی در مورد داده‏ کاوی برگزار شد که از جمله می توان به کنفرانس آسیا و اقیانوسیه درباره ی کشف دانش و داده‏ کاوی اشاره کرد. سال ۲۰۰۰ بحث های مقایسه ای بین آمار و داده ‏کاوی و نیز استفاده از وب در کاوش داده‏ ها و کاربردهای آن ارائه شد و در نهایت در سال ۲۰۰۲ «داده ‏کاوی ساختارهای پیوند برای مدل رفتار مصرف کننده» عرضه شد. در حال حاضر ، داده‏ کاوی مهمترین فناوری جهت بهره برداری موثر از داده‏ های حجیم است و اهمیت آن رو به افزایش است.

سیر تحول داده‏ کاوی

ایجاد سیستم های جمع آوری و مدیریت داده ‏ها توسط CDC و IBM

ذخیره ی داده ‏ها روی دیسک ها و کامپیوترها

بازیابی ایستا (محاسبه کل سود یک فروشگاه در ۵ سال گذشته)

ایجاد زبان پرس و جو برای تهیه ی گزارشات از پایگاه داده

شاخص‏ گذاری و سازماندهی داده ‏ها با  DBMS های DB2 و Sybase و Oracle

بازیابی پویا در سطح رکورد (میزان فروش یک کالا در یک شعبه به صورت روزانه)

ایجاد پایگاه داده‏ های چند بعدی Data Warehouse و OLAP

بازیابی پویا در چند سطح (با امکان Drill Down )

ابزارهای پیشرفته مانند SAS و SGI و SPSS Clementine

کشف الگوهای جدید در پایگاه داده‏ ها

بازیابی پویا با نگاه پیشرو به آینده (فروش یک کالا در ماه آینده در یک شعبه خاص و دلایل آن)

داده ، اطلاعات و دانش

داده ‏ها نمایشی از واقعیت ها ، معلومات ، مفاهیم ، رویدادها یا پدیده ها برای برقراری ارتباط ، تفسیر یا پردازش ، توسط انسان یا ماشین می باشند. از طرف دیگر واژه ی اطلاعات به دانشی که از طریق خواندن ، مشاهده و آموزش به دست می آید اطلاق می‏شود و در حقیقت می توان گفت اطلاعات داده‏ هایی هستند که پس از جمع آوری پردازش شده اند و شکل مفهومی آن را دانش می نامند. بین داده ‏ها و اطلاعات یک شکاف وجود دارد که اندازه ی این شکاف با حجم داده‏ ها ارتباط مستقیم دارد. هرچه داده ‏ها حجیم تر باشند ، این شکاف بیشتر خواهد بود و هرچه حجم داده‏ ها کمتر و روش ها و ابزارهای پردازش داده‏ ها کاراتر باشد ، فاصله ی بین داده‏ ها و اطلاعات کمتر است. امروزه افزایش سریع حجم پایگاه داده‏ ها به شکلی است که توانایی انسان برای درک این داده ‏ها بدون ابزارهای پرقدرت میسر نمی‏باشد. در این وضعیت ، تصمیم‏ گیری ها به جای تکیه بر اطلاعات بر درک مدیران و کاربران تکیه دارند ، چرا که تصمیم گیرندگان ابزار قوی برای استخراج اطلاعات با ارزش را در دست ندارند.

جایگاه داده ‏کاوی در سازمان داده‏ کاوی و دیگر رشته ها

داده‏ کاوی یک رشته ی نسبتا جدید علمی می‏باشد که از انجام تحقیقات حداقل در رشته های آمار ، یادگیری ماشین ، علوم رایانه (خصوصا مدیریت پایگاه داده) شکل گرفته است. مهمترین این رشته ها ، آمار کلاسیک می‏باشد. بدون آمار داده‏ کاوی وجود نخواهد داشت ، به طوری که آمار ، اساس اغلب تکنولوژی هایی می‏باشد که داده ‏کاوی بر روی آن‏ها بنا می‏شود. آمار کلاسیک مفاهیمی مانند تحلیل رگرسیون ، توزیع استاندارد ، انحراف استاندارد ، واریانس ، تحلیل خوشه ای و فاصله های اطمینان را که همه ی این موارد برای مطالعه ی داده و ارتباط بین داده‏ ها می‏باشد را در بر می گیرد. مطمئنا تحلیل آماری کلاسیک نقش اساسی در تکنیک های داده ‏کاوی ایفا می‏کند. دومین رشته ی مرتبط با داده‏ کاوی ، یادگیری ماشین می‏باشد ، که به مفهوم دقیق تر اجتماع آمار و هوش مصنوعی است. در حالی که هوش مصنوعی نتوانست موفقیت تجاری کسب کند ، یادگیری ماشین در بسیاری از موارد جایگزین آن گردید. از یادگیری ماشین به عنوان تحول هوش مصنوعی یاد شده است چون ترکیبی از روش های ابتکاری هوش مصنوعی به همراه تحلیل آماری پیشرفته می‏باشد. یادگیری ماشین اجازه می دهد تا برنامه‏ های رایانه ‏ای در مورد داده‏ ای که آن‏ها را مطالعه می‏کنند ، مانند برنامه ‏هایی که تصمیمات متفاوتی بر مبنای کیفیت داده ‏ی مطالعه شده می‏گیرند ، یادگیری داشته باشند و برای مفاهیم پایه ای آن از آمار استفاده کنند و از الگوریتم ها و روش ‏های ابتکاری هوش مصنوعی برای رسیدن به هدف بهره گیرند.

آمار و داده ‏کاوی

در داده ‏کاوی تلاش می‏شود بین آمار و علوم رایانه ای رابطه ای برقرار گردد. برقراری این ارتباط به دلیل وجود یک سلسله از فرضیات ضمنی و غیر واضح ، دشوار بودن تبدیل مفاهیم نظری به الگوریتم های رایانه ای در مباحث آماری و به دلیل وجود الگوریتم های فراوان در متون رایانه ای ، دشوار است. لذا داشتن درکی درست از مدل سازی و الگوریتم های محاسباتی برای کارهای داده‏ کاوی ضروری است.

اگرچه آمار و داده ‏کاوی هر دو با روش های تحلیل و مدل بندی داده ‏ها مرتبط می باشند و اشتراکات زیادی بین این دو رشته وجود دارد اما می توان تفاوت های آمار و داده‏ کاوی را در جدول زیر نشان داد :

  آمار داده‏ کاوی
حجم داده ها کوچک و متوسط بزرگ
نوع داده ها داده های دست اول داده های دست دوم
مطالعه های کنترل موردی داده های تبادلات تجاری
طرح آزمایش ها داده های ترافیک اینترنت
بررسی نظرخواهی داده های مکالمات تلفن
مطالعه های مشاهده ای داده های پزشکی
پردازش داده ها روش های دستی روش های کاملا خودکار
پردازش داده ها توسط انسان به کمک رایانه پردازش داده ها توسط الگوریتم های رایانه ای به کمک انسان
وظایف معمول برازش مدل جستجو و شناخت الگوها
آزمون مدل رده بندی
فواصل اطمینان و پیش بینی دسته ‏بندی
اهداف تحقیق توسعه ی روش های آماری بهتر توسعه ی الگوریتم های بهتر و سریع تر
مطالعه ی خواص آماری و ریاضی روش ها مطالعه عملکردهای تجربی الگوریتم های داده‏ کاوی

نام های دیگر داده‏ کاوی

علاوه بر داده‏ کاوی اصطلاحات دیگری از جمله «استخراج دانش» ، «اکتشاف اطلاعات» ، «تحصیل اطلاعات» ، «دیرینه‏ شناسی یا تبارشناسی داده‏ ها» معادل داده ‏کاوی به کار برده می شوند. به علاوه گریگوری پیاتتسکی شاپیرو برای اولین بار در ۱۹۹۱ اصطلاح «کشف دانش از پایگاه داده‏ ها» را به منظور تصریح بر این امر که دانش محصول نهایی این فرایند است ، به کار برد.

تعاریف داده‏ کاوی

Data mining is the exploration and analysis of large quantities of data in order to discover valid , novel , potentially useful , and ultimately understandable patterns in data

Valid : The patterns hold in general.

Novel : We did not know the pattern beforehand.

Useful : We can devise actions from the patterns.

Understandable : We can interpret and comprehend the patterns

* داده‏ کاوی تحلیل و کشف مقادیر بزرگی از داده است به منظور کشف الگوهای معتبر ، جدید ، به طور بالقوه مفید و نهایتا قابل فهم از داده ‏ها می ‏باشد. (Fayyad)

Data mining , or knowledge discovery in databases , refers to the “discovery of interesting , implicit , and previously unknown knowledge from large databases.”

* داده‏ کاوی یا کشف دانش از پایگاه داده‏ ها اشاره به کشف دانش جدید [از قبل آن را نمی دانیم] ، مطلق و جالب توجه از پایگاه داده‏ های بزرگ دارد. (Frawley)

* داده‏ کاوی یعنی فرایند کشف یا استنتاج الگوهای بالقوه سودمند ، اطلاعات معتبر و بدیع ، دانش پنهان و قابل فهم موجود در داده‏ ها و یا پایگاه داده ‏ها (Judson)

* داده‏ کاوی به فرایند استخراج اطلاعات نهفته ، قابل فهم ، قابل پیگیری از پایگاه داده‏ های بزرگ و استفاده از آن در تصمیم ‏گیری های تجاری مهم ، اطلاق می‏شود. (Zekulin)

* داده‏ کاوی مجموعه ای از روش ها در فرایند کشف دانش می‏باشد که برای تشخیص الگوها و روابط نامعلوم در داده ‏ها مورد استفاده قرار می گیرد. (Ferruzza)

* فرایند کشف الگوهای مفید از داده ‏ها را داده‏ کاوی می گویند. (Elder)

* فرایند انتخاب ، کاوش و مدل بندی داده‏ های حجیم ، جهت کشف روابط نهفته با هدف به دست آوردن نتایج واضح و مفید ، برای مالک پایگاه داده ‏ها را داده‏ کاوی گویند.

* داده‏ کاوی یعنی جستجو در یک پایگاه داده ‏ها برای یافتن الگوهایی میان  داده‏ ها.

* داده‏ کاوی فرایند تحلیل داده از چشم اندازها یا زوایای گوناگون و تلخیص و تبدیل آن به دانش یا اطلاعاتی سودمند است.

داده کاوی

دو دیدگاه در مورد داده‏ کاوی

با توجه به این تعاریف دو تعبیر مختلف از داده‏ کاوی وجود دارد. برخی مولفین مانند چتفیلد (۱۹۹۵) ، داده‏ کاوی را مترادف عبارت کشف دانش و معرفت از پایگاه داده ‏ها می دانند. بقیه از جمله فیاد (۱۹۹۶) به داده ‏کاوی به عنوان یک مرحله ضروری از فرایند بزرگتر کشف دانش و معرفت از پایگاه داده‏ ها که به اختصار KDD می‏گویند ، اشاره دارند.

در دیدگاه اول داده‏ کاوی به عنوان مجموعه ای از فرایندها که از تعریف اهداف تا ارزیابی نتایج را در بر می‏گیرد ، معرفی می‏شود. مراحل مختلف داده‏ کاوی در این دیدگاه عبارتند از :

اما در دیدگاه دوم ، KDD شامل مراحل زیر است :

آماده سازی و پیش پردازش داده ‏ها

آماده سازی داده‏ ها گاهی در متون داده‏ کاوی به عنوان موضوع کم اهمیت و به عنوان یک گام در فرایند داده‏ کاوی ندیده گرفته می‏شود. در کاربردهای داده‏ کاوی در دنیای واقعی ، وضعیت برعکس می‏شود. برای آماده سازی داده‏ ها تلاشی بیشتر از کاربست روش های داده‏ کاوی صرف می‏شود. دو وظیفه ی اصلی برای آماده سازی داده‏ ها وجود دارد :

داده ‏کاوی به نوعی تحلیل داده ‏های دست دوم است ، با این مفهوم که داده کاوها مستقیما در فرایند جمع‏ آوری داده‏ ها دخالت نداشته ‏اند. گاهی این واقعیت می تواند کیفیت بد داده‏های خام را توجیه کند. کیفیت داده ‏ها در استخراج نتایج مطلوب و اطلاعات حقیقی بسیار موثر است. پایگاه داده‏ های حجیم شامل داده‏ های مزاحم ، گمشده و ناپایدار هستند. از این رو برای ارتقای کیفیت داده‏ ها لازم است در ابتدای کار به صورت زیر پردازش شوند :

داده‏ هایی هستند که به هر دلیلی در هنگام تحلیل داده ‏ها در اختیار تحلیل‏گر قرار ندارند. وجود چنین داده‏ هایی می تواند تحلیل داده‏ها را بسیار دشوار سازد. در صورت وجود مقادیر گمشده در داده‏ ها باید به گونه ‏ای مناسب در مورد آن‏ها تصمیم‏ گیری شود. به عنوان مثال ممکن است رکورد مربوطه حذف یا به جای آن یک مقدار ثابت ، میانگین مقادیر خصیصه‏ ی مورد نظر ، میانگین نمونه‏ های مشابه یا محتمل ‏ترین مقدار جایگزین گردد. این جایگذاری ممکن است با استفاده از رگرسیون یا سایر روش ‏های مدل سازی انجام شود.

انحرافی تصادفی یا غیر تصادفی در یک متغیر اندازه‏ گیری شده هستند که به عنوان مثال می‏توانند نتیجه‏ ی خطای اندازه‏ گیری یا یک اثر پنهان باشند. باید علت وجود یک داده‏ ی مزاحم به خوبی بررسی و در مورد آن تصمیم‏ گیری شود. خوشه‏ بندی و برازش یک تابع رگرسیونی به داده‏ ها از جمله راه های هموارسازی داده‏ ها هستند. البته بسیاری از روش ‏های هموارسازی داده ‏ها ، روش‏ هایی برای تخلیص داده‏ ها محسوب می‏شوند.

 این گونه داده‏ ها شامل تغییراتی بی‏ قاعده هستند که تحلیل آن‏ها را دچار مشکل می‏سازد. برخی از انواع آن‏ها را می‏توان با تبدیل مناسب اصلاح کرد یا برای تحلیل آن‏ها روش‏ های خاصی را به کار برد.

ساختار یک سیستم داده‏ کاوی

پس از پیش پردازش داده‏ ها ، نتایج در پایگاه داده یا انبار داده ی جدیدی ذخیره می شوند. شکل زیر ساختار یک سیستم داده‏ کاوی معمول را نشان می‏دهد که ورودی آن مخازن بزرگ داده ‏ها و خروجی آن اطلاعات مورد نیاز کاربر است و پایان کار کشف دانش و معرفت از پایگاه داده ‏ها تلقی می‏شود.

در حالت کلی یک سیستم داده ‏کاوی می تواند شامل مولفه های زیر باشد :

معیارهای جذابیت الگو

گرچه مشخص ساختن داده ‏های کاری و نوع دانشی که باید استخراج شود ، می تواند تعداد الگوهای تولید شده را کاهش دهد اما یک فرایند داده‏ کاوی ممکن است تعداد بسیار زیادی از الگوها را تولید کند که تنها تعداد کمی از آن‏ها مد نظر هستند. بنابراین کاربر نیاز به معیارهایی برای تشخیص الگوهای جذاب دارد.

به طور کلی هر معیار با یک آستانه در ارتباط است که به وسیله‏ ی کاربر مشخص می‏شود و آن دسته از الگوهایی که این آستانه را کسب نکنند ، جذاب تشخیص داده نمی‏شوند و به عنوان الگو به کاربر ارائه نمی‏شوند. برخی معیارهای مورد نظر برای جذابیت الگو عبارتند از :

ارزیابی و به تصویر کشیدن الگوهای کشف شده

برای آن که داده‏ کاوی موثر باشد ، سیستم داده‏ کاوی باید قادر به ارائه و نمایش الگوهای کشف شده در اشکال مختلف مانند قواعد ، جداول ، نمودارهای مختلف ، درخت های تصمیم و سایر نمایش های تصویری باشد. امکان به تصویر کشیدن الگوهای کشف شده می تواند به کاربران با پس زمینه های مختلف برای شناسایی الگوهای مورد علاقه و هدایت سیستم به اکتشاف بیشتر کمک کند. استفاده از سلسله مراتب مفاهیم نیز بسیار مفید است و امکان نمایش داده ‏ها به صورت مفاهیم سطح بالاتر ممکن است برای کاربران بیش از قواعد ارائه شده به صورت مفاهیم سطح پایین قابل درک باشد.

انواع داده ‏کاوی

داده‏ کاوی در دو نوع هدایت شده و غیرهدایت شده ظاهر می‏شود. داده‏ کاوی هدایت شده ، دارای متغیر هدفی خاص و از پیش تعیین شده است که به دنبال الگویی خاص می گردد ؛ در حالی که هدف داده‏ کاوی غیر هدایت شده ، یافتن الگوها یا تشابهات بین گروه هایی از اطلاعات ، بدون داشتن متغیر هدفی خاص و یا مجموعه ای از دسته ها و الگوهای از پیش تعیین شده می‏باشد.

 
داده کاوی

وظایف داده‏ کاوی

داده‏ کاوی با همه ی عظمت و بزرگی خود که امروزه در تمامی موضوعات جهان ورود پیدا کرده است شامل شش عمل و وظیفه مهم است که می توان بسیاری از مسائل محیط اطراف را در قالب یکی از این شش عمل و وظیفه ی زیر گنجاند :

۱) دسته‏ بندی ۲) تخمین ۳) پیش بینی ۴) گروه بندی شباهت ۵) خوشه‏ بندی ۶) توصیف و نمایه سازی

سه مورد اول همگی داده‏ کاوی هدایت شده هستند که هدف آن‏ها یافتن ارزش یک متغیر هدف خاص است. گروه بندی شباهت و خوشه ‏بندی جزو داده‏ کاوی غیر هدایت شده هستند که در آن هدف ، یافتن ساختار پنهان درون داده‏ ها بدون توجه به یک متغیر هدف خاص است. نمایه سازی عملی توصیفی است که می تواند هم هدایت شده و هم غیر هدایت شده باشد.

به نظر می رسد دسته‏ بندی که یکی از معمول ترین کارکردهای داده‏ کاوی است ، یکی از واجبات بشر باشد. تمامی خلقت خداوند بر پایه دسته ‏بندی ایجاد گردیده است. ما برای شناخت و برقراری رابطه درباره ی دنیا ، به طور مداوم دسته ‏بندی ، طبقه بندی و درجه بندی  می‏کنیم. ما موجودات زنده را به شاخه ها و گونه ها ، مواد را به عناصر و حیوانات و انسان ‏ها را به نژادها تقسیم می‏کنیم.

دسته ‏بندی شامل بررسی ویژگی های یک شئ جدید و تخصیص آن به یکی از مجموعه‏ های از قبل تعیین شده می‏باشد. عمل دسته ‏بندی با تعریف درستی از دسته ها و مجموعه ای از ویژگی‏ ها که حاوی موارد از پیش دسته ‏بندی شده هستند مشخص می‏گردد ؛ این عمل شامل ساختن مدلی است که بتوان از آن برای دسته ‏بندی کردن داده ‏های دسته‏ بندی نشده ، استفاده نمود. اشیائی که باید دسته‏ بندی شوند ، معمولاً به وسیله ی اطلاعاتی در جدول پایگاه داده ‏ها یا یک فایل ارائه می شوند. عمل دسته‏ بندی شامل افزودن ستون جدیدی با کد دسته‏ بندی خاصی است. مثال هایی از دسته ‏بندی در زیر ارائه شده است :

* دسته ‏بندی متقاضیان وام و اعتبار به عنوان کم خطر ، متوسط و پرخطر

* انتخاب محتویات یک صفحه ی وب برای قرار دادن در شبکه ی اینترنت

* تعیین شماره تلفن های متصل به دستگاه های نمابر

* تشخیص مدعیان غیر واقعی دریافت خسارت از بیمه

در همه ‏ی این مثال ‏ها تعداد محدود و از پیش تعیین شده‏ ای از دسته ‏ها وجود دارد و انتظار داریم بتوانیم هر اطلاعاتی را به یک یا دو مورد از آن‏ها تخصیص دهیم. تکنیک‏ های درخت تصمیم و نزدیک‏ترین همسایه از جمله تکنیک‏ های دسته ‏بندی می‎باشند. شبکه ‏های عصبی و تحلیل پیوند نیز در شرایط خاصی عمل دسته ‏بندی را انجام می دهند.

تخمین ، با نتایج مجزایی که با ارقام پیوسته نشان داده شده اند ، سروکار دارد. در تخمین ، داده ‏های ورودی در قالب متغیرهای ورودی مختلف به سیستم داده می‏شود و متغیرهای خروجی آن رقمی چون درآمد یا تراز کارت اعتباری می‏باشد. در عمل ، تخمین اغلب برای انجام دسته‏ بندی استفاده می‏شود. یک شرکت کارت های اعتباری که مایل است یک فضای تبلیغاتی را در پاکت های صورت حساب به یک تولید کننده ی پوتین اسکی بفروشد ، باید مدل دسته ‏بندی تهیه کند که همه ی دارندگان کارت ها را در یکی از دو دسته ی اسکی باز یا غیر اسکی باز قرار دهد. روش دیگر ایجاد مدل تخمین این است که به هر دارنده ‏ی کارت ، یک امتیاز تمایل به اسکی تخصیص می دهد ؛ این ارقام می‏تواند صفر و یک باشد که نشانگر احتمال تخمین زده شده برای اسکی باز بودن یا نبودن دارنده‏ی کارت است. عمل دسته‏ بندی ، اکنون به ایجاد امتیازی آستانه ‏ایمنجر می‏گردد. هر کسی که امتیازی بیشتر یا مساوی با امتیاز آستانه داشته باشد به عنوان اسکی باز قلمداد می‏شود و هر کسی که امتیازی کمتر از امتیاز مورد نظر داشته باشد اسکی باز محسوب نمی گردد.

روش تخمین فواید زیادی دارد که مهم ترین آن‏ها این است که می توان اطلاعات را مطابق تخمین به دست آمده مرتب نمود. برای پی بردن به اهمیت آن فرض کنید که شرکت تولید پوتین های اسکی ، برای ارسال پانصد هزار آگهی تبلیغاتی محصول جدید خود بودجه ریزی نموده است. فرض کنید از روش دسته ‏بندی استفاده شده و یک و نیم میلیون نفر اسکی باز تعیین شده‏ اند. پس به راحتی می توان به صورت تصادفی ، تبلیغات را برای پانصد هزار نفر منتخب از آن افراد ارسال نمود ؛ در حالی که اگر مدل تخمین ، امتیاز تمایل به اسکی را برای کلیه افراد تعیین نماید شایسته است که تبلیغات را برای پانصد هزار نفر از محتمل ‏ترین کاندیداها فرستاد. پر واضح است که احتمال پاسخ گیری از ارسال تبلیغات بر اساس مدل تخمین بسیار بیشتر از ارسال تصادفی تبلیغات می‏باشد. برخی دیگر از مثال های تخمین در ادامه آمده است ؛ تخمین تعداد فرزندان در یک خانواده ، تخمین درآمد کل یک خانواده ، تخمین دوره عمر یک مشتری ، تخمین احتمال پاسخ فردی خاص به یک پیشنهاد بیمه ی عمر مدل های رگرسیون و شبکه های عصبی از جمله تکنیک های مناسب داده‏ کاوی برای تخمین می باشند.

پیش بینی مانند دسته ‏بندی یا تخمین است با این تفاوت که اطلاعات ، مطابق برخی از رفتارهای پیش بینی شده‏ ی آینده یا ارقام تخمین زده ی آینده دسته ‏بندی می شوند. در عملِ پیش بینی ، تنها روش برای بررسی صحت دسته ‏بندی ، انتظار و دیدن آینده است.

هر یک از تکنیک های استفاده شده در دسته‏ بندی و تخمین را می توان برای استفاده در پیش بینی تطبیق داد. جایی که متغیری که باید پیش بینی شود از قبل معلوم است و داده ‏های پیشین برای آن وجود دارد ؛ از داده ‏های پیشین برای تهیه ی یک مدل که بیانگر رفتار مشاهده شده ی کنونی است استفاده می‏شود ؛ وقتی این مدل برای ورودی های کنونی به کار رفت ؛ نتیجه ی کار ، پیش بینی رفتار آینده خواهد بود. مثال هایی از پیش بینی از این قرارند :

* پیش بینی اینکه کدام مشتریان در طول ۶ ماه آینده ، بازار محصول ما را ترک خواهند کرد.

* پیش بینی اینکه کدام مشترکین تلفن ، متقاضی خدمات ویژه مانند مکالمه ی سه جانبه یا پیغام گیر خواهند شد.

بیشتر تکینک های داده ‏کاوی در صورت وجود داده ‏های مناسب ، برای استفاده در پیش بینی مناسبند. انتخاب تکنیک به ماهیت داده‏ های ورودی و نوع متغیری که باید پیش بینی شود بستگی دارد.

عمل گروه ‏بندی شباهت برای تعیین ویژگی‏ های همزمانی هستند که در وقوع یک پدیده رخ می‏دهند. به عبارت دیگر عمل گروه بندی شباهت احتمال وقوع و یا عدم وقوع همزمان ویژگی‏ ها را تعیین می‏نماید. به بیان ساده تر عمل گروه بندی شباهت تعیین می‏کند که چه چیزهایی با هم جورند ؛ مثال معمول این موضوع تعیین کالاهایی است که با هم در یک چرخ دستی خرید در سوپر مارکت قرار می گیرند ؛ چیزی که آن را تحلیل سبد بازار می‏ نامیم. فروشگاه های زنجیره ای خرده فروشی می توانند از گروه بندی شباهت برای تعیین چیدمان کالاها در قفسه های فروشگاه ، در یک کاتالوگ و یا صفحه ی وب فروش اینترنتی استفاده کنند ، تا اقلامی که اغلب با هم خریده می شوند در کنار هم قرار گیرند. از گروه بندی شباهت می توان برای تعیین شرایط فروش های متقابل و همزمان و همچنین برای طراحی بسته بندی های جذاب و یا دسته ‏بندی محصولات و خدمات استفاده کرد.

گروه بندی شباهت یک روش ساده برای ایجاد قوانین از داده ‏هاست. اگر دو قلم کالا مثلاً شیر خشک و پوشک نوزاد در یک قفسه و کنار هم چیده شوند ، می توان دو قانون وابستگی ایجاد کرد :

افرادی که شیر خشک نوزاد می خرند ، با احتمال P1 پوشک نوزاد را هم می خرند.

افرادی که پوشک نوزاد می خرند ، با احتمال P2 شیر خشک نوزاد را هم می خرند.

خوشه ‏بندی به عمل تقسیم جمعیت ناهمگن به تعدادی از زیر مجموعه ها یا خوشه های همگن گفته می‏شود. وجه تمایز خوشه‏ بندی از دسته ‏بندی این است که خوشه‏ بندی به دسته های از پیش تعیین شده تکیه ندارد. در دسته ‏بندی بر اساس یک مدل هر کدام از داده ‏ها به دسته ای از پیش تعیین شده اختصاص می یابد ؛ این دسته ها یا از ابتدا در طبیعت وجود داشته اند (مثل جنسیت ، رنگ پوست و مثال هایی از این قبیل) یا از طریق یافته های پژوهش های پیشین تعیین گردیده اند. اما در خوشه‏ بندی هیچ دسته ی از پیش تعیین شده ای وجود ندارد و داده ‏ها صرفا براساس تشابه گروه بندی می شوند و عناوین هر گروه نیز توسط کاربر تعیین می گردد. به طور مثال خوشه های علائم بیماری ها ممکن است بیماری های مختلفی را نشان دهند و خوشه ‏های ویژگی های مشتریان ممکن است حاکی از بخش های مختلف بازار باشد.

خوشه ‏بندی معمولاً به عنوان پیش درآمدی برای به کارگیری سایر تحلیل های داده‏ کاوی یا مدل سازی به کار می رود. به عنوان مثال ، خوشه‏ بندی ممکن است اولین گام در تلاش برای تقسیم بندی بازار باشد ؛ برای ایجاد یک قانون که در همه ی موارد کاربرد داشته باشد و به این سؤال پاسخ دهد که مشتریان به چه نوع تبلیغاتی به بهترین نحو پاسخ می دهند ، اول باید مشتریان را به خوشه هایی متشکل از افرادی با عادات مشابه خرید تقسیم نمود و سپس پرسید که چه نوع تبلیغاتی برای هر خوشه به بهترین نحو عمل می‏کند.

گاهی اوقات هدف داده‏ کاوی ، تنها توصیف آن چیزی است که در یک پایگاه داده‏ای پیچیده درجریان است. نتایج نمایه ‏سازی درک ما را از مردم ، محصولات یا فرایندهایی که داده‏ ها را در مرحله‏ ی اول تولید کرده ‏اند افزایش می‏دهد. توصیف خوب رفتار ، اغلب توضیح خوبی هم به همراه دارد ؛ یک توصیف خوب حداقل نشان می دهد چه زمانی می توان انتظار یک توضیح مناسب را داشت. شکاف جنسیتی مشهور در سیاست آمریکا ، مثالی از این دست است که چگونه این توصیف ساده که «تعداد زنان حامی حزب دموکرات بیش از مردان است» می‏تواند توجه بیشتر و مطالعات تکمیلی را برای روزنامه ‏نگاران ، جامعه ‏شناسان ، اقتصاددانان و دانشمندان علوم سیاسی ایجاد کند. درخت های تصمیم ابزار مفیدی برای نمایه سازی می‏باشد ؛ قوانین وابستگی و خوشه‏ بندی را نیز می توان برای نمایه سازی ها استفاده نمود.

فنون داده‏ کاوی

نرم افزارهای داده‏ کاوی

یک پـروژه‏ ی داده‏ کـاوی جهت انجام تحـلیل‏ ها به یک نرم ‏افزار مناسـب نیاز دارد. امروزه نرم ‏افزارهای مختـلفی در این زمیـنه وجود دارد. مانند :

AI Trilogy , Alice , Answer Tree , BrainMaker , CART , SPSS Clementine , Darwin , DataEngine , Datamite , DBMiner , Decider , DecisionTime , SAS Enterprise Miner , GainSmarts , Intelligent Miner , JDBCMiner , MarketMiner , MARS , Insightful , STATISTICA Data Miner , WebMiner ASP , WEKA , XLMiner

بیشتر سیستم های نرم افزاری فقط جهت انجام روش های خاصی مناسب هستند و قابلیت انجام روش های دیگر را ندارند. یکی از نرم افزارهای مناسب بنا بر تحقیقات انجام شده SAS Enterprise Miner می‏باشد.

کاربردهای داده ‏کاوی

امروزه عملیات داده‌کاوی به صورت گسترده توسط تمامی شرکت هایی که مشتریان در کانون توجه آن‏ها قرار دارند ، استفاده می‌شود ، از جمله : فروشگاه‌ها ، شرکت های مالی ، ارتباطاتی ، بازاریابی و غیره. استفاده از داده‌کاوی به این شرکت ها کمک می‌کند تا ارتباط عوامل داخلی از جمله : قیمت ، محل قرارگیری محصولات و مهارت کارمندان را با عوامل خارجی مثل وضعیت اقتصادی ، رقابت در بازار و محل جغرافیایی مشتریان کشف نمایند. همچنین داده‌کاوی پیش‌بینی وضع آینده ی بازار ، گرایش مشتریان و شناخت سلیقه‌های عمومی آنها را برای شرکت ها ممکن می‌سازد. به عنوان مثال : بازار هدف ، پیدا کردن الگوی خرید مشتری ، برنامه‌ریزی برای معرفی محصول جدید ، Customer profiling ، دسته‌بندی مشتریان براساس نوع خرید ، آنالیز نیازهای مشتریان ، تشخیص محصولات مناسب برای دسته‌های مختلف مشتریان ، تشخیص فاکتورهایی برای جذب مشتریان جدید ، تعیین الگوهای خرید مشتریان ، تجزیه و تحلیل سبد خرید بازار ، پیشگویی میزان خرید مشتریان از طریق پست (فروش الکترونیکی) ، پیش‌بینی الگوهای کلاهبرداری از طریق کارت‏ های اعتباری و شناسایی جرایم مالی ، تشخیص مشتریان ثابت و دسته‌بندی و خوشه‌بندی مشتریان با توجه به رفتار مشابه آن‏ها در زمینه ی بانکداری و بازپرداخت وام ، تعیین میزان استفاده از کارت های اعتباری بر اساس گروه های اجتماعی ، تحلیل اعتبار مشتریان ، شناسایی فاکتورهای اصلی در ریسک بازپرداخت وام ، تحلیل پاسخگویی مشتریان به ارائه ی خدمات جدید بانکی ، پیشگویی میزان خرید بیمه‌نامه‌های جدید توسط مشتریان ، تحلیل ریسک و برآورد حق بیمه مشتریان بر اساس میزان ریسک هر مشتری ، پیش‌بینی میزان خسارت بر اساس گروه ‏های مشتریان ، مدیریت ارتباط با بیمه‌گذاران و تدوین استراتژی بر اساس مشتریان هدف ، تعیین عوامل وفاداری و یا روی‌گردانی مشتریان ، شناخت نیازها و الگوهای خرید سرویس های بیمه‌ای توسط مشتریان ، شناخت تخلفات بیمه‌ای ، تعیین نوع رفتار با بیماران و تعیین روش درمان بیماری ها ، پیشگویی میزان موفقیت عمل جراحی و تعیین میزان موفقیت روش های درمانی در برخورد با بیماری های سخت ، بررسی میزان تاثیر دارو بر بیماری و اثرات جانبی آن ، تشخیص و پیش‌بینی انواع بیماری ها مانند تشخیص و یا پیش‌بینی انواع سرطان ، تجزیه و تحلیل داده‌های موجود در سیستم های اطلاعات سلامت ، تحلیل عکس های پزشکی.

همچنین بعضی از کاربردهای داده‏ کاوی را می توان در کاربردهای معمول تجاری (مثل تحلیل و مدیریت بازار ، تحلیل سبد بازار ، پیش بینی قیمت نفت ، بازاریابی هدف ، فهم رفتار مشتری و تحلیل و مدیریت ریسک) ، مدیریت و کشف فریب (کشف فریب تلفنی ، کشف فریب های بیمه ای اتومبیل ، کشف حقه های کارت اعتباری ، کشف تراکنش های مشکوک مالی و پول شویی) ، متن‏ کاوی (خلاصه سازی ، یافتن متون مشابه و کلمات کلیدی ، پالایش نامه های الکترونیکی ، گروه های خبری و …) ، پزشکی (کشف ارتباط علامت و بیماری ، تحلیل آرایه های DNA ، تصاویر پزشکی) ، وب کاوی (پیشنهاد صفحات مرتبط ، بهبود ماشین های جستجوگر یا شخصی سازی حرکت در وب سایت) و یافتن روندهای فرهنگی سیاسی در وب ، تحلیل شبکه‏ های اجتماعی وب۲ (وبلاگ‏ ها ، ویکی ها) ، آنالیز ترافیک وب ، تشخیص نفوذی به شبکه ، بیوانفورماتیک ، سیستم پیشنهاد دهنده برای آموزش مجازی و کاربردهای بسیار دیگری در شاخه های مختلف مهندسی دانست.

محدودیت‌های داده‏ کاوی

در حالی که محصولات داده‏ کاوی ابزارهای قدرتمندی می‌باشند ، اما برای کسب موفقیت ، داده‏ کاوی نیازمند تحلیلگران حرفه‌ای و متخصصان ماهری می‌باشد که بتوانند ترکیب خروجی به وجود آمده را تحلیل و تفسیر نمایند. در نتیجه محدودیت ‏های داده‏ کاوی مربوط به داده ی اولیه یا افراد است تا اینکه مربوط به تکنولوژی باشد.

اگرچه داده‏ کاوی به الگوهای مشخص و روابط آنها کمک می‌کند ، اما برای کاربر اهمیت و ارزش این الگوها را بیان نمی‌کند.تصمیماتی از این قبیل بر عهده‏ ی خود کاربر است.

تشخیص رابطه ی بین رفتارها و یا متغیرها یکی دیگر از محدودیت های داده‏کاوی می‌باشد که لزوما روابط اتفاقی را تشخیص نمی‌دهد. برای مثال برنامه‌های کاربردی ممکن است الگوهای رفتاری را مشخص کند ، مثل تمایل به خرید بلیط هواپیما درست قبل از حرکت که این موضوع به مشخصات درآمد ، سطح تحصیلی و استفاده از اینترنت بستگی دارد. در حقیقت رفتارهای شخصی شامل شغل (نیاز به سفر در زمانی محدود) وضع خانوادگی (نیاز به مراقبت پزشکی برای مریض) یا تفریح (سود بردن از تخفیف دقایق پایانی برای دیدن مکان‌های جدید) ممکن است بر روی متغیرهای اضافه تاثیر بگذارد.

مشکلات داده ‏کاوی

 به طور کلی عدم قطعیت در سیستم‏ های پایگاه داده به دو دسته تقسیم می شوند :

اطلاعات ناکامل (مقادیر نامشخص)  : منظور خصیصه هایی است که مقداری برای آن‏ها ثبت نشده است.

اطلاعات ناسازگار : اطلاعاتی که در اثر اندازه‏گیری نادرست یا به وجود آمدن نویز در داده‏ ها ایجاد شده باشد و مقادیر ثبت شده با مقادیر واقعی برابر نباشند. (راه حل این مشکلات قبلا عنوان شده است.)

تعداد رکوردهای برخی از پایگاه داده‏ ها به چند صد میلیارد می رسد. برای رفع مشکلاتی که این سیستم ها در برخورد با داده‏های حجیم دارند ، معمولا روش های زیر استفاده می‏گردند :

طراحی الگوریتم های سریع : کاهش پیچیدگی ها ، بهینه سازی ، موازی سازی و …

کاهش حجم داده ‏ها : نمونه گیری ، گسسته سازی ، کاهش ابعاد و …

به کارگیری یک مدل رابطه ای : استفاده از قابلیت های ذخیره و بازیابی اطلاعات در پایگاه‏ های داده

برخی از مشکلات داده ‏کاوی از اینجا ناشی می‏شود که نمونه های بسیار زیادی با انواع مختلف صفات وجود دارند. علاوه بر این ، این نمونه ها در بسیاری اوقات دارای بعد بالایی هستند ؛ به این معنی که دارای تعداد فوق ‏العاده زیاد از صفات اندازه پذیر می‏باشند. این بعد اضافی مجموعه ی داده ‏های حجیم باعث به وجود آمدن مشکلی می‏شود که در اصطلاحِ داده‏ کاوی به نام «آفت بُعدیت» مشهور است. این آفت بُعدی به دلیل هندسه ی فضاهای با بعد بالا ایجاد می‏شود و این نوع فضاهای داده‏ ها مخصوص مسائل داده ‏کاوی است. ویژگی ‏های فضاهای با بعد بالا اغلب بر خلاف درک شهودی ظاهر می‏شوند ، زیرا تجربه از دنیای واقعی در یک فضای با بعد پایین از قبیل فضای با ابعاد دو یا سه است.

نمونه‌های اجرا شده داده‌کاوی

شرکت فولادسازی پوهانگ کره برای صرفه‌جویی در مصرف انرژی در کوره‌های بلند خود از الگوریتم ‏های داده‌کاوی استفاده و در حدود ۱۵% از مصرف انرژی خود را کاهش داد ، که باعث ۳/۱ میلیون دلار صرفه‌جویی در هزینه‌های شرکت شد و از طرف دیگر باعث کاهش قیمت محصولات آن شرکت و افزایش تعداد مشتریان و سود بیشتر آن شرکت نیز شد.

یکی از هتل های مشهور در لاس‌وگاس آمریکا ، برای بالا بردن رضایت مسافران از الگوریتم ‏های داده‌کاوی استفاده کرد ، به این صورت که با استفاده از اطلاعات جمع‌آوری شده از مسافران به وسیله‏ ی پرسشنامه و آنالیز آن داده‌ها توانست عواملی که باعث می‌شد مسافران دوباره به این هتل باز گردند را پیدا کرده و با طبقه‌بندی مسافران ، مسافران وفادار به هتل را پیدا کنند.

در یکی از بانک‏ های بزرگ کانادا با استفاده از الگوریتم ‏های داده‌کاوی ، مدلی را برای داده‌ها ارائه داده و به وسیله ی نتایج آنالیز آن ،  مساله مهم تقلب در حساب‏ ها و چگونگی و میزان برگشت وام‏ های داده شده توسط بانک را حل نمودند و تصمیمی صحیح را برای مشتریان جدید بانک گرفتند.

داده‏ کاوی در ایران

در کشور ما نیز با رشد روزافزون داده‏ ها در کارخانجات ، شرکت‏ها ، فروشگاه‏ های زنجیره‏ای و مراکز مختلف دولتی و خصوصی نیاز به استفاده از دانش نهفته در آن‏ها یعنی انجام داده ‏کاوی روی داده ‏ها ضروری به نظر می‏رسد. داده ‏های مرکز آمار ایران ، داروخانه ها ، بیمارستان‏ها ، داده ‏های مرکز پلیس ، مراکز قضایی ، کارت سوخت ، سازمان هواشناسی کشور ، بانک ها ، بیمه و … از جمله داده ‏های انبوه و بسیار ارزشمندی هستند که شایستگی داده‏ کاوی و تحلیل قوانین پنهان را دارند. داده‏ کاوی می تواند با کشف الگوهای پنهان در اصلاح روند تصمیم‏ گیری مدیران بسیار موثر باشد اما کشور ما به دلیل عدم وجود فرهنگ به اشتراک گذاری اطلاعات از دستاوردهای این فناوری محروم بوده است.

ارتباط و مشاوره با شما ۰۹۳۶۷۹۳۸۰۱۸ در واتس اپ

دیدگاه‌ها (5)

*
*


پاسخ من را به ایمیلم ارسال کن

    کارآفرین مهمان 6 مهر 1395 پاسخ

    با تشکر از این مقاله عالی
    موفق باشید

    ازاده مهمان 16 خرداد 1398 پاسخ

    نحوه ذخیره کردن هر مرحله ای که انجام میدیدم به چه صورت است؟

      مهدي مقيمي مدیر کل 18 خرداد 1398 پاسخ

      متوجه سوالتون نمیشم لطفا واضح مطرح کنید

    zahra مهمان 16 آبان 1398 پاسخ

    سلام.
    ممکنه برای معیار مطلوبیت و تابع سودمندی، راهنماییم کنید که این تابع رو پیدا کنم؟ برای معیار ارزیابی خارجی تزم بهش نیاز دارم

      مهدي مقيمي مدیر کل 17 آذر 1398 پاسخ

      سلام لطفاً معادل انگلیسی آن را ارسال کنید تا در خصوص آن صحبت کنیم فکر کنم منظور شما ریکال و افمژر است درسته؟

error: با عرض پوزش؛ لطفا از مطالعه مطالب لذت ببرید.