داده کاوی چیست؟
داده کاوی ترجمه عبارت Data Mining و به معنی کاویدن معادن داده است. داده کاوی یعنی استخراج اطلاعات گرانبها از حجم عظیم معادن داده. میتوانید داده کاوی (Data Mining) را نوعی روش حل مساله در نظر بگیرید که با تحلیل حجم زیادی از دادهها، الگوهای تکرار شونده را از آنها استخراج میکند. سپس با پیدا کردن ارتباط بین این الگوها، برای چالشها راه حل ارائه میدهد. در واقع Data Mining با به دست آوردن نتایج مفید و ارزشمند از اطلاعات بی استفاده و بدون کاربرد، آنها را به اطلاعات قابل استفاده تبدیل میکند.
داده کاوی مختص و منحصر به سازمان و یا محصولی بهخصوص نیست. این فناوری روز دنیا به تدریج در حال پیشرفتهتر شدن و نفوذ به تمام صنایع، مشاغل و سازمانهاست. امروز سازمانهای بزرگی در دنیا از ویژگیهای منحصربهفرد فناوری داده کاوی در حوزههای متفاوت و گسترده همچون هوا فضا، تولید، بازاریابی، مواد شیمیایی و … برای افزایش و بهبود راندمان کاری و کیفیت عملکرد تجاری خود استفاده میکنند.بنابر این استفاده از فرآیندهای داده کاوی هرگز در یک زمان به پایان نمیرسد و چون همواره در حال رشد است میتوان از آن برای پیشرفت در ابعاد متفاوت استفاده کرد.
با پیشرفت سریع «فناوری اطلاعات» (Information Technology)، بشر شاهد یک رشد انفجاری در تولید «داده» (Data) و ظرفیتهای گردآوری و ذخیرهسازی آن در دامنههای گوناگون بوده است. در جهان کسبوکار، «پایگاهدادههای» (Databases) بسیار بزرگی برای تراکنشهای تجاری وجود دارند که توسط خردهفروشان و یا در «تجارت الکترونیک» (E-commerce) ساخته شدهاند. از سوی دیگر، همه روزه حجم عظیمی از دادههای علمی در زمینههای گوناگون تولید میشوند.در پاسخ به سوال داده کاوی چیست و چه کاربردی دارد، میتوانیم بگوییم، داده کاوی به معنی کشف دانش درون دادهها است. کشف دانش درون دادهها، آن هم در عصر اطلاعات از مهمترین و اثرگذارترین مفاهیمی است که هر روز اهمیت بیشتری پیدا میکند.
داده کاوی در چه زمینههایی کاربرد دارد؟
شرکتها و سازمانهایی که از داده کاوی برای تحلیل رقبا و بازار استفاده میکنند، به راحتی میتوانند ترندهای روز را پیش بینی کنند. بنابراین در برنامههای آینده خود، همسو با نیازهای عموم مردم پیش میروند و قبل از سایر رقبا توجه مشتریان را به خود جلب میکنند.امروزه این موضوع در زمینههای مختلف آموزشی، سیاسی، اقتصادی و… کاربرد دارد. در ادامه به برخی کاربردهای مختلف داده کاوی اشاره میکنیم.
- سلامت عمومی: فعالیت در جهت گسترش فرهنگ بهداشت عمومی با کمترین هزینه در مناطق مختلف جهان
- آموزش: فعالیت در جهت بهبود کیفیت سیستم آموزشی و هدایت صحیح دانش آموزان
- ساخت و عمران: فعالیت در جهت تسهیل راه سازی و کاربرد الگوهای بهینه سازی شهری با توجه به افزایش جمعیت.
- مدیریت ارتباط با مشتریان (CRM): فعالیت در جهت بهبود روابط سازمان با مشتریان و در نهایت افزایش بهرهوری.
- تحقیقات بازار خرید: این مورد به دنبال شناسایی کالاهای مرتبط با سبد خرید مشتری است تا امکان خرید آنها را افزایش دهد.
مراحل داده کاوی چیست؟
در این قسمت میخواهیم به طور مختصر با قدمهای کلی در یک فرایند Data Mining آشنا شویم. این مراحل به طور خلاصه عبارت است از:
- استخراج، انتقال و ذخیره دادهها در پایگاه دادههای چند بعدی
- ایجاد دسترسی برای دادههای لایه کسب و کار به وسیله نرم افزارهای داده کاوی
- نمایش نتایج حاصل از تحلیل دادهها به شکل گراف یا نمودار
دلایل گوناگونی پیرامون چرایی مبدل شدن دادهکاوی به چنین حوزه مهمی از مطالعات وجود دارد. برخی از این موارد در ادامه بیان شدهاند.
- ۱. رشد انفجاری دادهها در گستره وسیعی از زمینهها در صنعت و دانشگاه که توسط موارد زیر پشتیبانی میشود:
- دستگاههای ذخیرهسازی نسبت به گذشته ارزانتر و با ظرفیت نامحدود، مانند فضاهای ذخیرهسازی ابری
- ارتباطات سریعتر با سرعت اتصال بیشتر
- سیستمهای مدیریت پایگاه داده و پشتیبانی نرمافزاری بهتر
- ۲. قدرت پردازش کامپیوتری به سرعت در حال افزایش
با چنین حجم بالا و متنوعی از دادههای موجود، روشهای دادهکاوی به استخراج اطلاعات از دادهها کمک میکنند. «ژیاوی هان» (Jiawei Han)، دانشمند داده و نویسنده کتاب «دادهکاوی، مفاهیم و روشها» (Data Mining: Concepts and Techniques) در این رابطه میگوید:در نتیجه، دادههای گردآوری شده در مخازن داده به گورهای داده مبدل شدهاند، …، شکاف در حال افزایش میان داده و اطلاعات، توسعه سیستماتیک ابزارهای دادهکاوی را میطلبد که میتوانند گورهای داده را به شمشهایی از طلا مبدل کنند.»
روشهای دادهکاوی دارای انواع گوناگونی هستند و از رگرسیون گرفته تا روشهای تشخیص الگوی پیچیده و دارای هزینه محاسباتی بالا که ریشه در علوم کامپیوتر دارند را شامل میشوند. هدف اصلی روشهای یادگیری (دادهکاوی) انجام پیشبینی است، ولی این تنها هدف دادهکاوی نیست.
تکنیکها و روشهای داده کاوی چیست؟
با استفاده از تکنیکهای داده کاوی، سرعت انجام محاسبات و فضای مورد نیاز در حافظه (RAM) بهبود قابل ملاحظهای پیدا میکند. به طور کلی تکنیکهای انواع داده کاوی را میتوان در یکی از ۳ دستهای که در ادامه میآید و یا ترکیبی از آنها قرار داد.
- طبقه بندی (Classification)
در این نوع یادگیری، بر اساس ویژگیهای تعریف شده به دادهها برچسب زده میشود و آنها در کلاسهای مختلف قرار میدهند. این الگوریتم قادر است مدل برچسب گذاری را یاد بگیرد و با استفاده از سیستم یادگیری هوشمند، به نمونههای جدید برچسب بزند و آنها را تفکیک کند. این تفکیک نوعی یادگیری به حساب میآید و الگوریتم بعد از این یادگیری، میتواند مدل خود را بر روی دادههای جدید اعمال کند.
- خوشه بندی (Clustering)
در این مورد، الگوریتم دادهها را بر اساس ذات آنها گروهبندی میکند. مثلا مشتریان یک فروشگاه اینترنتی را بر اساس شباهتهایی که دارند (سن، جنس، میزان تحصیلات و…)، به خوشههای مختلف تقسیم میکند.
- یادگیری تقویتی (Reinforcement Learning)
در این یادگیری، الگوریتم، به وسیله تبادل اطلاعات و عملیات با محیط اطراف، به طور پیوسته به کشف اطلاعات و یادگیری اقدام میکند. به عنوان مثال الگوریتمی را در نظر بگیرید که به وسیله تعامل با محیط و شبیهسازی آن به صورت هوشمند، به طراحی انواع مختلف فرمهای سبد خرید میپردازد تا بهترین طراحی را برای مشتریان ایجاد کرده و در نهایت میزان فروش و سود را افزایش دهد.
چرا داده کاوی سودآور است؟!
داده کاوی به دو دلیل سودآور است:
- منجر به تصمیمات واقع بینانه می شود.
- سبب تکرار تصمیمات سودآور رخ داده در گذشته می گردد.
با داده کاوی شما مجبور می شوید تصمیمات احساسی را فراموش کنید و بر اساس واقعیت ها تصمیم بگیرید. بنابراین ضرر های ناشی از نا آگاهی مدیران حذف می شود.
داده کاوی همچنین فضای سال های گذشته ی شرکت شما را بازبینی می کند و در نهایت نشان می دهد کدام تصمیمات منجر به سود شده است در حالی که شما از آن ها بی خبر هستید. شرکت ها و سازمان ها هر لحظه در حال اتخاذ تصمیمات جدیدی هستند که منجر به سود یا زیان آن مجموعه می شود. بسیاری از تصمیمات بر اساس واقعیات موجود گرفته نمی شود و عواملی چون «فراموشی»، «تخلفات و تقلبات»، «اشکالات خط تولید»، «منافع شخصی» و «سیاست های اعمال نفوذ شده از جاهای دیگر» منجر به اتخاذ تصمیمات غیر شفاف و در نتیجه زیانبار می شوند.
گامهای فرآیند داده کاوی چیست؟
تا اینجا دانستیم داده کاوی چیست و چه مراحل و تکنیکهایی دارد. اکنون خوب است بدانید داده کاوی با عنوان کشف دانش از داده (Knowledge Discovery From Data) نیز شناخته میشود که به معنی فرایند استخراج دانش و اطلاعات از دادههای موجود در پایگاه داده است.
داده کاوی شامل چندین گام است. این فرایند از دادههای خام آغاز میشود و تا شکل گرفتن دانش جدید ادامه پیدا میکند. در ادامه این گامها را در قالب آموزش داده کاوی بررسی خواهیم کرد.
- پاکسازی داده (Data Cleaning)
- یکپارچهسازی داده (Data Integration)
- انتخاب داده (Data Selection)
- «تبدیل داده» (Data Transformation)
- کاوش داده (Data Mining)
- ارزیابی الگو (Pattern Evaluation)
- ارائه دانش (Knowledge Representation)
پاک سازی داده (Data Cleaning)
پاک سازی یا تمیز کردن دادهها به فرآیندی جهت تشخیص، حذف و اصلاح دادههای نادرست از مجموعه جداول، رکوردها، یا بانکهای اطلاعاتی همچنین شناسایی قسمتهای ناقص و نادرست دادهها و سپس اصلاح و جایگزینی آنها اشاره دارد. هدف از پاک سازی دادهها استخراج اطلاعات دقیق و درست است، چرا که اطلاعات نادرست میتواند منجر به نتیجهگیری غلط شود و کسب و کار شما را با مشکل روبهرو کند.
در این فاز «نویز» (نوفه) از مجموعه حذف و تدابیری برای «دادههای ناموجود» (Missing Values) اندیشیده میشود.
یکپارچه سازی داده (Data Integration)
یکپارچه سازی اطلاعات یک بینش نسبتا جدید در رابطه با مشتریان، محصولات، کانالهای بازاریابی و… ایجاد کرده و بستر مناسب برای نگرش جامع و کامل به عناصر اصلی کسب و کار را در یک سازمان فراهم میکند. بدون یکپارچه سازی دادهها نمیتوانید در بازار رقابتی امروز حرف زیادی برای گفتن داشته باشید.در اغلب مسائل دادهکاوی، دادهها از منابع داده گوناگون باید به یکباره مورد تحلیل قرار بگیرند. مثال خوبی از این مورد پایگاه دادههای شعب مختلف یک فروشگاه زنجیرهای در شهرها و کشورهای گوناگون جهان است. برای تحلیل این دادهها باید آنها را به صورت یکپارچه در یک «انبار داده» (Data Warehouse) گردآوری کرد، این کار در فاز یکپارچهسازی انجام میشود.
انتخاب داده (Data Selection)
در بخش انتخاب، باید دادههای مرتبط با تحلیل دادهها انتخاب شده و از مجموعه دادهها برای انجام تحلیلها بازیابی شوند. یک انتخاب اصولی و درست میتواند منجر به بهبود یادگیری استقرایی از جهات گوناگون از جمله سرعت یادگیری و ظرفیت تعمیم شود.در فاز انتخاب داده، باید دادههای مرتبط با تحلیل انتخاب، و از مجموعه داده برای انجام تحلیلها بازیابی شوند. در مطلب «انتخاب ویژگی (Feature Selection) در دادههای ابعاد بالا — خودآموز ساده» به این مساله همراه با جزئیات پرداخته شده است.
تبدیل داده (Data Transformation)
گاهی اوقات برای اینکه دقت تجزیه و تحلیل را بالا ببریم باید در دادههای خامی که برای تحلیل در دسترس ما قرار دارند، تغییراتی ایجاد کنیم، یکی از این تغییرات، فرایند تبدیل دادهها است. تبدیل دادهها روشهایی بر پایه ریاضی است که برای متغیرهایی به کار میرود که از شاخصهای آماری نرمال بودن، خطی بودن، پراکندگی یکسان و… پیروی نمیکنند.تبدیل داده نوعی روش تثبیت داده نیز به شمار میرود. در این فاز، دادههای انتخاب شده به فرم دیگری تبدیل میشود. این کار به سادگی، درستی و دقت بیشتر داده کاوی کمک میکند.
تبدیل داده یک روش تثبیت داده نیز هست. در این فاز، دادههای انتخاب شده به فرم دیگری تبدیل میشوند. این کار به سادهتر شدن، بهبود صحت و دقت فرآیند کاوش کمک میکند. برخی از روشهای محبوب و متداول استانداردسازی دادهها در مطلب «روشهای استانداردسازی دادهها» بیان شدهاند.
داده کاوی (Data Mining)
در این فاز از روشهای هوشمندانه برای استخراج الگوهای مهم و جالب توجه از میان دادهها استفاده میشود.
در این بخش از روشهای هوشمندانه برای استخراج الگوهای مهم و اثرگذار از میان دادهها استفاده میشود. از جمله این روشها میتوان به موارد زیر اشاره کرد:
- رویکرد هوش ازدحامی با استفاده از کلونی زنبور عسل مصنوعی برای حل مسائل بهینه سازی
- الگوریتم اپریوری (Apriori) به همراه کد پیاده سازی در پایتون
- الگوریتم اپریوری (Apriori) و کاوش الگوهای مکرر در داده کاوی
ارزیابی الگو (Pattern Evaluation)
در این بخش، الگوهای به دست آمده در بخش قبل از جنبههای گوناگون مانند دقت، صحت، قابلیت تعمیم و… مورد بررسی و ارزیابی قرار میگیرد.
ارائه دانش (Knowledge Representation)
داده کاوی در نهایت به ارائه دانش ختم میشود. دانش به دست آمده در این بخش به شیوهای مشخص و قابل فهم به کاربر ارائه میشود. البته برای اثرگذاری بیشتر، روشهای بصری ساز نیز مورد استفاده قرار میگیرد که با وجود این روشها، کاربران در درک و تفسیر نتایج داده کاوی موفقتر خواهند بود. ارائه دانش فاز نهایی فرآیند دادهکاوی است. در این فاز، دانش کشف شده به شیوه قابل درک به کاربر ارائه میشود. در این گام حیاتی و بسیار مهم، روشهای بصریسازی مورد استفاده قرار میگیرند.
در این بخش برخی مسائل کلی که فرایند دادهکاوی با آن مواجه میشود را بررسی میکنیم.
مسائل مربوط به روش شناسی
این چالش به روشهای داده کاوی و محدودیتهای موجود در آن مربوط است. این مشکلات با راهحلهایی مانند ارائه روشهای دارای کمترین میزان پیچیدگی، راهکارهای قابل تعمیم به مسائل مختلف، قابلیت کار با حجم انبوهی از دادهها و… قابل رفع است. این چالش به روشهای موجود برای دادهکاوی و محدودیتهای آنها مانند تطبیقپذیری مربوط است. در واقع، ارائه روشهایی که دارای پیچیدگی کم و قابلیت تعمیم به مسائل گوناگون باشند و در عین حال بتوانند با حجم انبوهی از دادهها کار کنند از جمله مسائل مربوط به بحث روششناسی در دادهکاوی است.
مسائل مربوط به کارایی
روشهای هوش مصنوعی و آماری زیادی وجود دارند که در دادهکاوی مورد استفاده قرار میگیرند. اغلب این روشها برای مجموعه دادههای خیلی بزرگ طراحی نشدهاند و این چالشی است که دادهکاوی این روزها با آن دست و پنجه نرم میکند. زیرا امروزه حجم دادهها از ترابایت، پتابایت و اگزابایت نیز عبور کرده است. میتوان گفت این امر موجب افزایش مسائل مرتبط با مقیاسپذیری و کارایی روشهای دادهکاوی میشود و نیاز به روشهایی را ایجاد میکند که بتوانند به طور قابل توجهی دادههای بزرگ را پردازش کنند.امروزه حجم دادهها و اطلاعات بسیار بیشتر از گذشته است، این موضوع باعث افزایش مسائل مرتبط با مقیاسپذیری و کارایی روشهای داده کاوی شده است. بنابراین نیاز به روشهایی وجود دارد که بتوانند دادههای بزرگ را پردازش کنند. خوب است بدانید در چنین شرایطی، ممکن است به جای کل مجموعه داده از نمونه برداری استفاده شود.
موضوع دیگر مربوط به بهروزرسانی تدریجی و برنامه نویسی موازی است. از موازی سازی برای حل مسائل مربوط به حجم و اندازه استفاده میشود. به این صورت که اگر مجموعه دادهها به زیرمجموعههایی تقسیم شود، نتایج در آینده قابل ادغام خواهد بود.به روز رسانی مداوم برای ادغام نتایج از طریق کاوش موازی (Parallel Mining) صورت میگیرد و اهمیت زیادی دارد. به این ترتیب دادههای جدید بدون نیاز به تحلیل مجدد مجموعه دادهها در دسترس قرار میگیرند.
مسائل مربوط به منابع داده
در این بخش نیز مسائل زیادی وجود دارد. برخی از این مسائل مربوط به تنوع دادهها و برخی دیگر مربوط به انباشته شدن دادهها است. امروزه با وجود حجم زیاد داده و اطلاعات، باز هم انسانها در پی جمعآوری اطلاعات مختلف هستند. همچنین گسترش سیستمهای مدیریت پایگاه داده از عواملی است که به رشد گردآوری دادهها کمک قابل توجهی کرده است. از سوی دیگر انواع گوناگونی از دادهها در گستره متنوعی از منابع ذخیره میشوند. بنابراین دسترسی پیدا کردن و بررسی انواع دادههای پیچیده و متنوع نیاز به تمرکز بیشتری دارد.
مسائل زیادی در رابطه با منابع داده لازم/مورد استفاده برای دادهکاوی وجود دارد. برخی از این مسائل مانند تنوع دادهها کاربردی و بخشی دیگر مسائل فلسفیتری مانند مشکل انباشته شدن دادهها هستند. واضح است که در حال حاضر حجم زیادی از دادهها، بیش از آنکه قابل مدیریت باشند، وجود دارند. از سوی دیگر، بشر همچنان در حال گردآوری دادهها حتی با نرخ بالاتری است. گسترش سیستمهای مدیریت پایگاه داده یکی از عواملی بوده که به رشد گردآوری دادهها کمک شایان توجهی کرده است.دادهها و منابع گوناگون داده ممکن است نیاز به الگوریتمها و متدولوژیهای متمایزی داشته باشند. در حال حاضر، تمرکز بر پایگاه دادههای رابطهای و انبارهای داده است. ابزارهای دادهکاوی نیز طیف گستردهای را برای انواع دادهها شامل میشوند.
داده کاوی چگونه کار می کند؟
داده کاوی یک روش حل مسئله مبتنی بر داده های موجود است. تیم داده کاوی دایکه بر اساس استاندارد جهانی کریسپ دی ام (CRISP-DM) این فرایند حل مسئله را به اجرا می گذارد.
در ابتدای فرایند، مشکلات شرکت یا سازمان شما پیدا خواهد شد و در پایان با کمک هوش مصنوعی، راهکارهایی برای حل آن مشکلات در اختیار شما قرار خواهد گرفت.
پس از یافتن مشکلات در ابتدای فرایند داده کاوی، اطلاعات ریز ثبت شده در شرکت یا خط تولید شما دریافت می شود.بر اساس این اطلاعات، مکانیزم های مرتبط در کسب و کار شما مدلسازی می شود و سپس با کمک متدهای «یادگیری ماشین» راه حل هایی برای از بین بردن مشکلات شرکت شما در چارچوب گزارشات مستند و نرم افزار رایانه ای در اختیار شما قرار می گیرد.
بر اساس این استاندارد، فرایند حل مسئله با کمک داده کاوی در شش مرحله و در تعامل با کارفرما صورت می گیرد.
- گام اول: درک کسب و کار
کارفرما مشکلی در کسب و کار خود دارد. مشکل خود را با متخصص داده کاوی مطرح می کند. این گام اول است. در حالت دیگر، کارفرما نمی تواند مشکلات کسب و کار خود را تشخیص دهد اما می داند سیستم کسب و کار وی دارای نقصان است. در این حالت طرح مسئله را نیز بر عهده ی متخصص داده کاوی می گذارد.
- گام دوم: بررسی و درک داده ها
متخصص داده کاوی، داده های ثبت شده در کسب و کار کارفرما را از وی درخواست می کند و به بررسی داده ها می پردازد. متخصص داده کاوی با توجه به حجم و کیفیت داده ها مسئله ی طرح شده در مرحله ی قبل را تعدیل می کند تا نتیجه ی پروسه ی داده کاوی واقع بینانه تر بشود.
- گام سوم: آماده سازی داده ها
در مرحله ی سوم عملیات آماده سازی داده ها توسط متخصص داده کاوی صورت می گیرد. آماده سازی داده ها شامل این موارد می شود:
- یکی کردن انبارهای متفاوت داده در کسب و کار کارفرما
- شناسایی و حذف داده های پرت و اشتباه
- تغییر فرمت داده ها متناسب با مسئله ی تعدیل شده در مرحله ی دوم
- گام چهارم: مدل سازی
قدم چهارم مدلسازی داده های آماده سازی شده است. با توجه به متدهای متفاوت، مدل های متفاوتی ساخته می شود و بهترین مدل ها از نظر متخصص داده کاوی انتخاب می شود.
- گام پنجم: تست و ارزیابی مدل
مدل های ساخته شده تست و ارزیابی می شوند و بهترین مدل از نظر مسئله ی طرح شده در مرحله ی یک، انتخاب می شود. سپس در تبادل نظر با کارفرما، موثر بودن مدل انتخاب شده بررسی می شود. در صورتی که مدل انتخاب شده کمکی در حل مسئله نمی کند کل فرایند از مرحله ی یک دوباره انجام می شود.
- گام ششم: توسعه مدل نهایی
در صورتی که ارزیابی ها رضایت بخش باشند راه حل هایی در قالب توسعه ی مدل نهایی ارائه می شوند که مشکلات مطرح شده در مرحله ی یک را برطرف می کنند. مدل نهایی به متخصص داده کاوی نشان می دهد که رفتار مجموعه ی کسب و کار کارفرما در مورد مشکلات مطرح شده در مرحله ی یک چگونه است.این درک از رفتار کسب و کار، در قالب راه حل های عددی و چند فرمول یا راهکار عملی در اختیار کارفرما قرار می گیرد تا مشکلات مطرح شده در مرحله ی یک رفع گردد. همچنین متخصص داده کاوی می تواند در قالب گزارشات مستند مکانیزم رفتاری کسب و کار کارفرما را برای وی تشریح کند.
برای سادگی تعامل کارفرما با مدل نهایی، یک نرم افزار رایانه ای نوشته می شود که کار شبیه سازی رفتار کسب و کار کارفرما را برعهده دارد. بطوریکه کارفرما می تواند با وارد کردن برخی پارامترهای کنونی از کسب و کار خود، رفتار کارخانه و یا سودآوری کسب و کار خود را در آینده پیش بینی کند.
انواع منابع داده
در این بخش، انواع منابع دادهای که همه روزه حجم انبوهی از دادهها را تولید و یا ذخیره میکنند، مورد بررسی قرار گرفتهاند.
- تراکنشهای کسب و کار
در کسبوکارهای کنونی، اغلب تراکنشها تا ابد نگهداری میشوند. بسیاری از این تراکنشها دارای زمان هستند و شامل معاملات درون کسبوکاری مانند خریدها، مبادلات بانکداری، سهام و دیگر موارد هستند.
- دادههای علمی
در سراسر جهان، جوامع گوناگون در حال گردآوری حجم انبوهی از دادههای علمی هستند. این دادههای علمی نیاز به تحلیل دارند. این در حالی است که همواره نیاز به ثبت دادههای جدید بیشتر با سرعت بالاتری وجود دارد. دادهکاوی در زمینههای علمی گوناگون برای کمک به تحلیل دادهها و کشف دانش از آنها کمک شایان توجهی میکند.
- دادههای شخصی و پزشکی
دادهها، از شخصی گرفته تا عمومی و از فردی گرفته تا دولتی را میتوان با اهداف گوناگونی گردآوری کرد و مورد تحلیل قرار داد. این دادهها برای افراد و گروههای مختلف مورد نیاز هستند و هنگامی که گردآوری شدند، کشف اطلاعات از آنها میتواند پرده از مسائل مهمی بردارد. از جمله دادههای شخصی، میتوان به اطلاعات تراکنشهای بانکی فرد و یا اسناد پزشکی ایشان اشاره کرد. دادهکاوی در دادههای پزشکی نقش قابل توجهی در پیشگیری، کشف و حتی درمان بیماریها دارد.
- تصاویر و ویدئوهای نظارتی
با کاهش قیمت دوربینهای عکاسی و فیلمبرداری و وجود دوربین در گوشیهای هوشمند، در هر لحظه حجم زیادی از دادههای چندرسانهای تولید میشود. از سوی دیگر، حجم زیادی از تصاویر و ویدئوها نیز توسط دوربینهای نظارتی گردآوری میشوند. این دادهها برای انواع تحلیلهای داده قابل بهرهبرداری هستند.
- رقابتهای ورزشی
حجم زیادی از دادهها و آمارها پیرامون رقابتهای ورزشی وجود دارد که قابل گردآوری و تحلیل محسوب میشوند. از جمله این موارد میتوان به اطلاعات بازی و بازیکنان اشاره کرد.
- رسانههای دیجیتال
دلایل زیادی منجر به انفجار مخازن دادههای دیجیتال شده است. از جمله این موارد میتوان به اسکنرهای ارزان، دوربینهای ویدئویی دسکتاپ و دوربینهای دیجیتال اشاره کرد. از سوی دیگر، شرکتهای بزرگی مانند NHL و NBA در حال حاضر کار تبدیل مجموعههای خود به دادههای دیجیتال را آغاز کردهاند و انجام چنین کارهایی نیز نیاز به تحلیل حجم انبوه دادهها را برجستهتر میسازد.
- دنیاهای مجازی
سیستمهای «طراحی به کمک کامپیوتر» (Computer Aided Design) متعددی برای معماران وجود دارند. این سیستمها برای تولید حجم انبوهی از دادهها مورد استفاده قرار میگیرند. علاوه بر این، میتوان از دادههای «مهندسی نرمافزار» (Software Engineering) به عنوان منبعی از دادهها – همراه با کدهای فراوان برای امور گوناگون – استفاده کرد.
- جهانهای مجازی
امروزه بسیاری از برنامههای کاربردی از فضاهای مجازی سهبُعدی استفاده میکنند. همچنین، این فضاها و اشیایی که در بر میگیرند باید با زبان خاصی مانند «زبان مدلسازی واقعیت مجازی» (Virtual Reality Modeling Language | VRML) توصیف شوند.
- گزارشها و اسناد متنی
ارتباطات در بسیاری از شرکتها بر مبنای گزارشها و اسناد دارای قالب متنی است. این اسناد برای انجام تحلیلهای آتی قابل نگهداری هستند. از سوی دیگر، حجم انبوهی از دادههای موجود در وب نیز به صورت دادههای متنی ساختار نیافته هستند که هر روز بر حجم آنها افزوده میشود.و معنایی، چالشهای زیادی به همراه دارد.
مزایای داده کاوی چیست؟
اما داده کاوی با صرف نظر از چالشهایی که ایجاد میکند، مزایایی هم دارد، اما فواید و مزیتهای داده کاوی چیست؟ در این بخش به معرفی و بررسی تعدادی از این مزایا میپردازیم.
- بهینه سازی محصولات و خدمات
شناخت محصولات پرفروش، محصولات سودآور، محصولات زیان ده و… از جمله فواید داده کاوی است که شما را به عنوان مدیر کسب و کار برای افزایش کیفیت محصولات ترغیب میکند.
- شناخت مشتریان سود آور
داده کاوی به شما کمک میکند تا مشتریانی که بیشترین سود شما از آنها به دست آمده را شناسایی کرده و برای حفظ آنها تلاش کنید.
- شناخت مشتریان وفادار
با وجود داده کاوی میتوانید بفهمید مشتریان قدیمی شما چه کسانی هستند، چه کالاهایی را دوست دارند، چه برنامهای برای خرید دارند، کدام کالاها باعث وفاداری آنها شده است، و…
- شناسایی و بررسی رفتار مشتری
سعی کنید رفتار مشتریان خود را بشناسید و آن را با ویژگیهای او مطابقت دهید. اگر بتوانید این کار را انجام دهید، در زمینه بخش بندی بازار موفقتر عمل خواهید کرد.
- بررسی چرخه عمر مشتری
با استفاده از داده کاوی میتوانید چرخه عمر مشتری و همچنین میزان سود به دست آمده از مشتری در هر مرحله را بررسی کنید.
- پیشبینی فروش
با استفاده از اطلاعات و الگوهایی که در گذشته مورد استفاده قرار گرفته و به کاربردن الگوهای جدید و ارتباط میان روندها و الگوها، میتوانید میزان فروش خود در آینده را پیشبینی کنید. همچنین روند فصلی فروش را پیدا کرده و برای فروش یک محصول جدید برنامه ریزی کنید.
شناخت داده ها برای داده کاوی:
شناخت درست داده ها با بدست آوردن استخراج اطلاعات شروع خواهد شد. با استفاده از این پایگاههای اطلاعاتی میتوانیم شناخت درستی از داده ها داشته باشیم. در این مرحله چند فرآیند بارگذاری دادهها و هماهنگ سازی داده ها برای بهبود عملکرد ذخیره داده ها باید انجام گیرد.سپس لازم است ویژگیهای سطح اطلاعاتی که بدست آوردیم را مورد تحلیل قرار دهیم و گزارشی صحیح و دقیق از آن گردآوری کنیم.
در مرحله بعد داده ها سوالات، گزارشها و تجسم های داده کاوی را پشت سر میگذارند و مورد کاوش قرار میگیرند و بالاخره این پروسه با مطرح شدن و پاسخ دادن به سوالاتی همچون آیا دادههای جمعآوری شده کامل هستند؟ و یا دادههایی که از بین رفتند در دادههای فعلی وجود دارد؟ به پایان میرسد.
تهیه اطلاعات برای داده کاوی:
- طبقهبندی و آماده کردن داده ها در حالت طبیعی ۹۰% وقت پروژه را به خود اختصاص میدهد و در نهایت به دادههای نهایی دست پیدا میکنیم.
- بعد از اینکه پایگاههای دادهای مورد نظر را طبق فرآیندهای داده کاوی پیدا کردیم آنها را طبقهبندی و مرتب میکنیم و به فرم مورد نظر خود در میآوریم.
- در این مرحله تمرکز بر داده ها دقیقتر میشود، بنابراین به درک بهتری از الگویهای شناخت تجاری میرسیم.
عملکرد داده کاوی چگونه است؟
در مورد کاربرد داده کاوی گفتیم، داده کاوی نوعی روش حل مساله بر اساس دادههای موجود است. در ابتدای این فرایند، مشکلات کسب و کار شما پیدا میشود. پس از یافتن مشکلات، اطلاعات ثبت شده در سازمان یا خط تولید شما دریافت میشود. بر اساس اطلاعات به دست آمده، مکانیزمهای مرتبط با کسب و کار شما مدلسازی میشود. سپس با استفاده از روشهای یادگیری ماشین، راهحلهایی برای از بین بردن مشکلات سازمان در چارچوب گزارش مستند و نرم افزار در اختیار شما قرار میگیرد.
بر اساس مطالب گفته شده، حل مساله به کمک فرآیند داده کاوی در ۶ مرحله صورت میگیرد که در ادامه این ۶ مرحله را بررسی خواهیم کرد.
- ۱٫ درک درست از کسب و کار
در این حالت کارفرما میداند مشکل و نقصی در کارش وجود دارد، اما قادر نیست مشکل را تشخیص دهد. بنابراین مشکل را با متخصص داده کاوی مطرح میکند، این نقطه شروع و گام اول برای حل مساله است.
- ۲٫ بررسی و درک دادهها
در این مرحله متخصص داده کاوی، دادهها و اطلاعات کسب و کار را از کارفرما دریافت کرده و به بررسی آنها میپردازد. او با توجه به حجم و کیفیت دادهها مساله مطرح شده در مرحله قبل را تعدیل میکند تا نتیجه داده کاوی و بررسی واقع بینانهتر ارائه شود
- ۳٫ آماده سازی دادهها
در این مرحله متخصص داده کاوی به آماده سازی دادهها شامل شناسایی و حذف دادههای ناقص و اشتباه، یکپارچه سازی مخازن متفاوت داده در کسب و کار و… میپردازد.
- ۴٫ مدل سازی
در مرحله چهارم، با توجه به راهکارها و روشهای متفاوت، مدلهای متفاوتی ساخته شده و بهترین مدل از نظر متخصص داده کاوی انتخاب میشود.
- ۵٫ آزمایش و ارزیابی مدل
حالا مدلهای شکل گرفته تست و ارزیابی میشوند و یک مدل مطلوب و متناسب با مساله مطرح شده در مرحله اول انتخاب میشود. بعد از این لازم است طی جلسهای با کارفرما، موثر بودن مدل انتخاب شده بررسی شود.اگر مدل انتخاب شده مناسب نباشد و به برطرف کردن مشکلات کمکی نکند، فرایند دوباره از اول تکرار میشود.
- ۶٫ توسعه مدل نهایی
در صورتی که آزمایشات و ارزیابیها مطلوب و رضایت بخش باشد، تعدادی راهکار و راهحل در قالب توسعه مدل نهایی ارائه میشود. مدل نهایی مشخص میکند که رفتار مجموعه در مقابل مشکلات مطرح شده باید چگونه باشد.
گسترش داده کاوی :
- نتیجه و برآیند فرآیندهای داده کاوی باید به صورتی باشد که ذینفعان بتوانند آن را مورد استفاده قرار دهند.
- میتوانیم مرحله استقرار را ساده سازی کنیم و به یک گزارش خاتمه پیدا کند و یا آن را همچون یک فرایند کامل داده کاوی پیچیده نماییم تا بار دیگر در تجارت تکرار شود.
- در مرحله استقرار برای پشتیبانیهای بعدی و اجرایی کردن اهداف بعدی از برنامههای استقرار، نظارت و نگهداری استفاده میشود.
- درضمن میتوان با استفاده از تجربیات پروژه و تحلیل و بررسی آن یاد گرفت که در آینده سازمان به چه تکنیکهای دیگری احتیاج دارد و یک گزارش نهایی بدست آورد.
نرم افزارهای داده کاوی
- Rapidminer
- Oracle Data Mining
- SPSS Modeler
- Orange
- KNIME
- PYTHON
- R
- WEKA
و در انتها…
همان طور که بیان کردیم، داده کاوی به شما کمک میکند تا رفتار کسب و کار خود در گذشته را کاملا بشناسید و بر این اساس آینده کاری خود را به خوبی پیشبینی کنید. همچنین با شفاف کردن فضای حاکم بر کسب و کار، به شما کمک میکند واقع بینانه و درست تصمیم بگیرید.
دیدگاهها (0)