دیتاماینینگ یار

تکنیک های داده کاوی (Data Mining Techniques)

در تحقیقات بازاریابی که در چند سال اخیر بیشتر مورد توجه قرار گرفته است، داده کاوی نقش مهمی‌ دارد. یک سری مطالعات در فروشگاه‌های آمریکا صورت گرفته و نتیجه به این شکل بود که مردم در این کشور وقتی برای خرید شیر وارد یک مغازه ‌می‌شوند، ناخودآگاه اقدام به خرید نان هم ‌می‌کنند. این روال سبب شد تا مشتریان به خرید محصولات دیگر نیز تشویق شوند، بنابراین فاصله‌ای بین قرار گیری نان و شیر در فروشگاه گذاشته شد تا کالاهای کم مصرف در این میان در دسترس قرار بگیرد و در جلوی دید مشتریان باشد. این روال سبب شد تا میزان فروش این کالاها بیشتر شود. علم داده کاوی دقیقاً نمونه‌ای از همین مثال است!در حال حاضر سازمانها به داده های بیشتری نسبت به گذشته دسترسی دارند.

با این وجود ، درک حجم عظیمی از داده های ساختاریافته و غیر ساختاریافته برای اجرای بهبودهای کل سازمان می تواند به دلیل تعداد زیاد اطلاعات بسیار چالش برانگیز باشد. اگر به درستی حل نشود ، این چالش می تواند مزایای همه داده ها را به حداقل برساند.

داده کاوی فرایندی است که طی آن سازمان ها الگوهای موجود در داده ها را برای بینش مربوط به نیازهای تجاری خود تشخیص می دهند.هم برای هوش تجاری و هم برای دانش داده ضروری است.

بسیاری از تکنیک های داده کاوی وجود دارد که سازمان ها می توانند داده های خام را به بینش عملی تبدیل کنند.

اینها شامل همه چیز از هوش مصنوعی پیشرفته گرفته تا اصول تهیه داده ها است که هر دو برای به حداکثر رساندن ارزش سرمایه گذاری داده ها کلیدی هستند.

هر تکنیکی که برای داده کاوی استفاده ‌می‌شود سبب ‌می‌شود تا سرعت انجام محاسبات بیشتر شود و از سوی دیگر فضای مورد نیاز برای حافظه نیز بهبود داشته باشد.

بخش‌بندی مهم داده کاوی

فرایند داده کاوی بخش‌های مختلفی دارد این علم به طور خلاصه سه بخش مهم را در بر ‌می‌گیرد.

۱۷ تکنیک داده کاوی (Data Mining Techniques)

تمیز کردن و آماده سازی داده ها بخشی حیاتی از فرآیند داده کاوی است.

داده های خام باید پاک و قالب بندی شوند تا در روش های مختلف تحلیلی مفید باشند.

تمیز کردن و آماده سازی داده ها شامل عناصر مختلفی از مدل سازی داده ها ، تغییر شکل ، انتقال داده ها ، ELT ، یکپارچه سازی داده ها و تجمیع آنها است.

این یک مرحله ضروری برای درک ویژگی های اساسی داده ها برای تعیین بهترین کاربرد آن است.

ارزش تجاری تمیز کردن و آماده سازی داده ها بدیهی است.

بدون اولین قدم ، داده ها برای یک سازمان بی معنی هستند یا به دلیل کیفیت آن قابل اعتماد نیستند.

شرکت ها باید بتوانند به داده های خود ، نتایج تجزیه و تحلیل آن و عملکرد ایجاد شده از آن نتایج اعتماد کنند.

این مرحله برای بدست آوردن بینش از داده ضروری میباشد.

الگوهای ردیابی یک روش اساسی داده کاوی است.

این شامل شناسایی و نظارت بر روند یا الگوهای موجود در داده ها برای نتیجه گیری هوشمندانه در مورد نتایج کسب و کار است.

به محض اینکه سازمانی روند داده های فروش را شناسایی کرد ، برای مثال ، مبنایی برای اقدام برای استفاده از این بینش وجود دارد.

اگر مشخص شود که یک محصول خاص بیش از سایرین برای یک جمعیت خاص فروش میرسد .یک سازمان می تواند از این دانش برای ایجاد محصولات یا خدمات مشابه استفاده کند.

تکنیک های طبقه بندی داده کاوی شامل تجزیه و تحلیل ویژگی های مختلف مرتبط با انواع مختلف داده ها است.هنگامی که سازمان ها خصوصیات اصلی این نوع داده ها را شناسایی کنند ، سازمان ها می توانند داده های مرتبط را دسته بندی یا طبقه بندی کنند.انجام این کار برای شناسایی بسیار مهم است .

طبقه بندی که به آن classification گفته ‌می‌شود، یکی از روش‌های مهم داده کاوی محسوب ‌می‌شود. این الگوریتم از روش برچسب زنی داده‌ها استفاده ‌می‌کند. به طوری که هر داده بر اساس ویژگی که برای آن تعریف شده است برچسب گذاری ‌می‌شود و همینطور در کلاس‌های مختلفی قرار ‌می‌گیرد. این الگوریتم‌ها خودآموز هستند یعنی روش‌های جدید برچسب گذاری را یاد ‌می‌گیرند و طبق همین ویژگی می‌توانند یک سری نمونه‌های جدید را برچسب بزنند. این تکنیک از داده کاوی مبتنی بر یادگیری است که یک سری مدل‌های خوب بر روی داده‌های جدید را اعمال ‌می‌کند و پس از آن گروه‌بندی مشتریان به درستی صورت ‌می‌گیرد.

انجمن تکنیک داده کاوی مربوط به آمار است.

این نشان می دهد که داده های خاص (یا رویدادهای یافت شده در داده ها) با داده های دیگر یا رویدادهای داده محور مرتبط هستند.

این شبیه مفهوم همزمانی در یادگیری ماشین است ، که در آن احتمال وقوع یک رویداد داده محور با حضور رویداد دیگر نشان داده می شود.

قانون انجمنی، یک روش قانون محور برای یافتن روابط بین متغیرها در یک مجموعه داده مشخص است. این روش‌ها به طور مکرر برای تجزیه و تحلیل سبد بازار مورد استفاده قرار می‌گیرند. همچنین به سازمان‌ها این امکان را می‌دهند تا روابط بین محصولات مختلف را بهتر درک کنند. درک عادت‌های مصرفی مشتریان، مشاغل را قادر می‌سازد تا استراتژی‌های فروش متقابل و موتورهای پیشنهاد دهنده بهتری را پیاده‌سازی کنند

تشخیص Outlier هر گونه ناهنجاری در مجموعه داده ها را تعیین می کند.

هنگامی که سازمان ها انحرافاتی را در داده های خود پیدا می کنند . درک دلیل بروز این ناهنجاری ها و آمادگی برای هرگونه وقوع در آینده برای دستیابی به بهترین اهداف تجاری آسان تر می شود.

خوشه بندی یک روش تجزیه و تحلیل است که متکی به رویکردهای بصری برای درک داده ها است.

مکانیسم های خوشه بندی از گرافیک استفاده می کنند تا نشان دهند که توزیع داده ها در ارتباط با انواع مختلف سنجه ها است.

در تکنیک های خوشه بندی نیز از رنگهای مختلف برای نشان دادن توزیع داده ها استفاده می شود.

رویکردهای نمودار برای استفاده از تجزیه و تحلیل خوشه ای ایده آل هستند.

به ویژه با نمودارها و خوشه بندی ، کاربران می توانند بصورت بصری نحوه توزیع داده ها را برای شناسایی روندهای مرتبط با اهداف تجاری خود مشاهده کنند.

خوشه ‌بندی یا کلاستر از دیگر تکنیک‌هایی است که در علم داده کاوی اهمیت زیادی دارد. این روش به صورتی است که ذات داده اهمیت زیادی در آن دارد و گروه‌بندی بر اساس ذات داده‌ها صورت ‌می‌گیرد. هر داده‌ای که در یک گروه قرار ‌می‌گیرد با ذات اصلی همه اعضای گروه همخوانی دارد. این تکنیک فروشگاه‌های مختلف اجرا ‌می‌شود، مثلاً یک گروه شامل مشتریانی هستند که علاقه به خرید با قیمت کم اما دفعات زیاد دارند و گروهی دیگر نیز افرادی هستند که کم خرید ‌می‌کنند اما بهترین‌ها را انتخاب ‌می‌کنند.

تکنیک های رگرسیون برای شناسایی ماهیت رابطه بین متغیرها در یک مجموعه داده مفید هستند.

این روابط می تواند در برخی موارد علت داشته باشد ، یا فقط در موارد دیگر به سادگی با هم ارتباط داشته باشد

. وظیفه رگرسیون مشابه با دسته بندی است. تفاوت اساسی در خصوصیت پیشبینی است که یک عدد پیوسته است. تکنیک رگرسیون سالها در حوزه آمار مطالعه شده است. رگرسیون خطی و منطقی از روشهای بسیار رایج رگرسیون هستند. سایر تکنیکهای رگرسیون شامل درختهای رگرسیون و شبکه های عصبی است. وظیفه رگرسیون می تواند بسیاری از مسائل کسب و کار را حل کند. برای مثال آنها می توانستند در پیشبینی نرخهای خریداری و آزادسازی کوپن بر اساس ارزش وجه ،روش توزیع و حجم توزیع یا پیشبینی سرعت باد براساس دما فشار هوا و رطوبت بکار روند.

رگرسیون یک تکنیک ساده است که به روشنی نحوه ارتباط متغیرها را نشان می دهد.

از تکنیک های رگرسیون در جنبه های پیش بینی و مدل سازی داده ها استفاده می شود.

پیش بینی جنبه بسیار قدرتمندی در داده کاوی است که یکی از چهار شاخه تجزیه و تحلیل را نشان می دهد.

تجزیه و تحلیل پیش بینی از الگویی که در داده های فعلی یا تاریخی یافت می شود ، برای گسترش آنها در آینده استفاده می کند.

پیشگویی یک وظیفه داده کاوی مهم دیگری است. ارزش سهام MSFT فردا چگونه خواهد بود؟ مقدار فروش پپسی در ماه آینده چگونه خواهد بودد؟ پیشگویی می تواند به این سوالات پاسخ دهد. در عمل پیشبینی تنها روش برای بررسی صحت مدل دیدن آینده و مقایسه نتیجه مدل و پدیده واقع شده میباشد. هر یک از تکنیکهای استفاده شده در دسته بندی و تخمین را می توان برای استفاده در پیش بینی تطبیق داد. از داده های پیشین برای تهیه یک مدل که بیانگر رفتار مشاهده کنونی است استفاده میشود. وقتی این مدل برای ورودی های کنونی بکار رفت نتیجه کار پیشبینی رفتار آینده خواهد بود.

بنابراین ، به سازمانها بینش می دهد که در روند داده های بعدی ، چه روندهایی اتفاق خواهد افتاد.

چندین روش مختلف برای استفاده از تجزیه و تحلیل پیش بینی وجود دارد.

تجزیه و تحلیل پیش بینی لزوماً به این تکنیک ها بستگی ندارد همچنین با الگوریتم های ساده تر هم  می توان آن را تسهیل کرد.

این روش داده کاوی بر کشف یک سری از رویدادها است که به ترتیب اتفاق می افتد.این به ویژه برای داده های معاملاتی داده کاوی مفید است.به عنوان مثال ، این روش می تواند مشخص کند که چه کالاهایی از لباس های مشتری پس از خرید اولیه مثلاً یک جفت کفش ، بیشتر خریداری می شود.

تحلیل توالی برای یافتن الگوها در رشته های گسسته بکار میرود. یک توالی از مقادیر(یا نواحی( گسسته ترکیب شده است. برای مثال یک توالی DNA یک رشته مرکب از چهار ناحیه مختلف A G C و T است. یک توالی کلیک وب شامل رشته هایی از URLهاست. خریدهای کامپیوتری را هم می توان بصورت داده های توالی مدل کرد.

برای مثال یک مشتری ابتدا یک کامپیوتر سپس اسپیکرها و در نهایت یک دوربین وبی میخرد. تفاوت داده های توالی و رشته های زمانی در این است که رشته های زمانی شامل اعداد پیوسته و توالی شامل مقادیر گسسته است.  دادههای توالی و وابستگی در اینکه هر یک شامل یک مجموعه آیتم یا ناحیه هستند شبیه می باشند.  تفاوت آنها در این است که مدلهای توالی انتقال های نواحی را تحلیل می کنند و مدل وابستگی فرض می کند که هر فقره در یک کارت خرید برابر یا مستقل باشد.

با مدل توالی خرید یک کامپیوتر قبل از اسپیکرها با خرید اسپیکرها قبل از کامپیوتر متفاوت است. درحالی که با یک الگوریتم وابستگی این دو توالی خرید مجموعه اقلام یکسانی را می سازند.

درک الگوهای متوالی می تواند به سازمانها کمک کند تا موارد بیشتری را به مشتریان برای رونق فروش توصیه کنند.

درختان تصمیم نوع خاصی از مدل پیش بینی است که به سازمان ها اجازه می دهد داده ها را به طور موثر استخراج کنند.

از نظر فنی ، درخت تصمیم بخشی از یادگیری ماشین است ، اما به دلیل ماهیت بسیار سر راست آن ، بیشتر به عنوان یک روش یادگیری ماشین جعبه سفید شناخته می شود.

یک درخت تصمیم به کاربران امکان می دهد تا به روشنی درک کنند که ورودی داده ها بر خروجی ها چه تاثیری دارند.

این روش داده‌کاوی از روش‌های طبقه‌بندی یا رگرسیون برای طبقه بندی یا پیش‌بینی نتایج بالقوه بر اساس مجموعه‌ای از تصمیمات استفاده می‌کند. همانطور که از نامش پیداست‌، از نمایش درختی برای نشان دادن نتایج احتمالی این تصمیمات استفاده می‌شود.

هنگامی که مدل های مختلف درخت تصمیم گیری ترکیب می شوند ، مدل های تجزیه و تحلیل پیش بینی کننده ای ایجاد می کنند که به عنوان یک درخت تصادفی شناخته می شود.

مدل های پیچیده درخت تصادفی تکنیک های یادگیری ماشین جعبه سیاه در نظر گرفته می شوند ، زیرا درک نتایج حاصل از آنها بر اساس ورودی های آنها همیشه آسان نیست.

در بیشتر موارد ، با این حال ، این شکل اساسی از مدل سازی گروه دقیق تر از استفاده از درختان تصمیم به تنهایی است.

تکنیک های آماری هسته اصلی بسیاری از تجزیه و تحلیل های مربوط به فرآیند داده کاوی است.

مدل های مختلف تجزیه و تحلیل بر اساس مفاهیم آماری است که مقادیر عددی را برای اهداف خاص کسب و کار تولید می کند.

به عنوان مثال ، شبکه های عصبی از آمار پیچیده ای بر اساس وزن و اندازه گیری های مختلف برای تعیین اینکه یک عکس سگ است یا گربه در سیستم های تشخیص تصویر استفاده می کنند.

مدل های آماری یکی از دو شاخه اصلی هوش مصنوعی را نشان می دهد.

مدل برخی از تکنیک های آماری ایستا هستند ، در حالی که برخی دیگر شامل یادگیری ماشین با گذشت زمان بهتر می شوند.

تجسم داده ها یکی دیگر از عناصر مهم داده کاوی است.آنها به کاربران براساس اطلاعات حسی که افراد می توانند ببینند بینش می دهند.

تجسم داده های امروز پویا است ، برای پخش جریانی داده ها در زمان واقعی مفید است با رنگ های مختلف مشخص می شود که روندها و الگوهای مختلف داده ها را نشان می دهد.

گاهی اوقات هدف داده کاوی تنها توصیف آن چیزی است که در یک پایگاه داده پیچیده درجریان است. نتایج نمایه سازی درک ما را از مردم محصولات یا فرآیندهایی که داده ها را در مرحله اول تولید کرده اند افزایش میدهد. توصیف خوب رفتار اغلب توضیح خوبی هم به همراه دارد. شکاف جنسیتی مشهور در سیاست آمریکا مثالی از این دست است که چگونه این توصیف ساده که تعداد زنان حامی حزب دمکرات بیش از مردان است می تواند توده بیشتر و مطالعات تکمیلی را برای روزنامه نگاران وجامعه شناسان اقتصاد دانان و دانشمندان علوم سیاسی ایجاد کند

. سه وظیفه نخست مثال هایی از داده کاوی جهت دار است. در داده کاوی جهت دار همیشه یک متغیر هدف ورود دارد  برخی مواقع دسته بندی میشود تخمین زده میشود یا پیش بینی میشود. روال ساختن یک دسته بند با یک مجموعه پیش تعریف شده کلاس ها و مثالهایی از رکوردهایی شروع میشود که در حال حاضر بخوبی کلاس بندی شده اند.

بطور مشابه روال ساختن یک تخمین گر با داده های سابقه ای شروع میشود که مقدار متغیر مقصد برای آنها در حال حاضر مشخص است. وظیفه مدل سازی یافتن قوانینی است که مقادیر شناخته شده متغیر هدف را توضیح دهد.  در داده کاوی غیر جهت دار هیچ متغیر هدفی وجود ندارد.

گروه بندی وابستگی و خوشه بندی، داده کاوی بدون جهت هستند. وظیفه داده کاوی یافتن الگوهای موازی است که به هیچ متغیری مقید نیستند. یک شکل رایج داده کاوی غیرجهتدار خوشه بندی است که گروه هایی از رکوردهای مشابه را می یابد بدون هیچ دستورالعملی درباره اینکه به چه متغیری باید بیشستر توجه شود. داده کاوی غیر جهت دار با طبیعتش توصیف شده است.

داشبورد راهی قدرتمند برای استفاده از تجسم داده ها برای کشف بینش داده کاوی است.

سازمان ها می توانند به جای استفاده ساده از خروجی های عددی مدل های آماری ، داشبوردها را بر اساس معیارهای مختلف قرار دهند و از تجسمات برای برجسته سازی بصری الگوها در داده ها استفاده کنند.

شبکه عصبی نوع خاصی از مدل یادگیری ماشین است که اغلب با هوش مصنوعی و یادگیری عمیق استفاده می شود.شبکه های عصبی یکی از دقیق ترین مدل های یادگیری ماشین هستند .

که امروزه مورد استفاده قرار می گیرند و این لایه های مختلفی دارند که شبیه روش کار سلول های عصبی در مغز انسان هستند.

شبکه‌های عصبی که در درجه اول از الگوریتم‌های یادگیری عمیق استفاده می‌کنند، با تقلید از ارتباط متقابل مغز انسان از طریق گره‌های عصبی، داده‌های آموزشی را پردازش می‌کنند.

هر گره از ورودی‌ها، وزن‌ها، آستانه و یک خروجی تشکیل شده است. اگر مقدار خروجی بیش از یک آستانه مشخص باشد، گره را فعال می‌کند و داده‌ها را به لایه بعدی شبکه منتقل می‌کند. شبکه‌های عصبی این عملکرد نقشه برداری را از طریق یادگیری نظارت شده، تنظیم می‌کنند. این مورد بر اساس عملکرد تابع ضرر تنظیم می‌شود. وقتی تابع هزینه در صفر یا نزدیک به آن است، می‌توانیم از دقت مدل، برای ارائه پاسخ صحیح اطمینان داشته باشیم.

اگرچه یک شبکه عصبی می تواند ابزاری قدرتمند در داده کاوی باشد .اما سازمانها هنگام استفاده از آن باید احتیاط کنند.

برخی از این مدلهای شبکه عصبی فوق العاده پیچیده هستند ، که درک چگونگی تعیین یک شبکه عصبی برای خروجی را دشوار می کند.

انبار کردن داده ها بخش مهمی از فرآیند داده کاوی است.

به طور سنتی ، ذخیره سازی داده ها شامل ذخیره سازی داده های ساخت یافته در سیستم های مدیریت پایگاه داده رابطه ای است .

بنابراین می تواند از نظر هوش تجاری ، گزارشگری و قابلیت های اساسی داشبورد تجزیه و تحلیل شود.

امروزه انبارهای داده ابر و انبارهای داده در فروشگاه های داده نیمه ساخت یافته و بدون ساختار مانند Hadoop وجود دارد.

در حالی که از انبارهای داده به طور سنتی برای داده های تاریخی استفاده می شد ، بسیاری از رویکردهای مدرن می توانند تجزیه و تحلیل عمیق و در زمان واقعی داده ها را ارائه دهند.

پردازش حافظه بلند مدت به توانایی تجزیه و تحلیل داده ها برای مدت زمان طولانی اشاره دارد.

داده های تاریخی ذخیره شده در انبارهای داده برای این منظور مفید است.

هنگامی که سازمانی می تواند تجزیه و تحلیل را در مدت زمان طولانی انجام دهد ، قادر است الگوهایی را شناسایی کند که در غیر این صورت تشخیص آنها خیلی سخت است.

به عنوان مثال ، با تجزیه و تحلیل فرسایش در طی یک دوره چند ساله ، یک سازمان ممکن است سرنخ های ظریفی را پیدا کند که می تواند منجر به کاهش هزینه های مالی شود.

 

یادگیری ماشین و هوش مصنوعی (AI) نمایانگر پیشرفته ترین پیشرفت ها در داده کاوی است.

اشکال پیشرفته یادگیری ماشین مانند یادگیری عمیق هنگام کار با داده ها در مقیاس ، پیش بینی های بسیار دقیقی را ارائه می دهند.

در نتیجه ، آنها برای پردازش داده ها در استقرار هوش مصنوعی مانند دید رایانه ، تشخیص گفتار ، یا تجزیه و تحلیل متن پیچیده با استفاده از پردازش زبان طبیعی مفید هستند.

این تکنیک های داده کاوی برای تعیین مقدار از داده های نیمه ساختار یافته و بدون ساختار مناسب هستند.

این تکنیک الگوریتمی غیرپارامتری است که نقاط داده را بر اساس مجاورت و ارتباط آن‌ها با سایر داده‌های موجود طبقه بندی می‌کند. این الگوریتم فرض می‌کند که نقاط مشابه داده را می‌توان در نزدیکی یکدیگر یافت. در نتیجه، سعی در محاسبه فاصله بین نقاط دادها از طریق فاصله اقلیدسی دارد. سپس دسته‌ای را برای متداول ترین گروه یا میانگین اختصاص می‌دهد.

بهینه سازی با ابزارهای داده کاوی

با استفاده از طیف گسترده ای از تکنیک ها در هنگام داده کاوی ، داشتن ابزار مناسب برای بهینه سازی تجزیه و تحلیل خود ضروری است.

به طور معمول ، این تکنیک ها برای اجرای صحیح به چندین ابزار مختلف یا ابزاری با قابلیت های جامع نیاز دارند.

اگرچه سازمان ها می توانند از ابزارهای علم داده مانند R ، Python یا Knime برای تجزیه و تحلیل یادگیری ماشین استفاده کنند .

اطمینان از انطباق مناسب داده ها با یک ابزار حاکمیت داده مهم است.

علاوه بر این ، سازمان ها برای انجام تجزیه و تحلیل و همچنین داشبورد و تجسم داده ها برای تهیه اطلاعات است .

و لازم برای کاربران تجار برای درک تجزیه و تحلیل ، باید با مخازنی مانند ذخیره داده های ابری کار کنند.

ابزارهایی با همه این ویژگی ها در دسترس هستند ، اما یافتن یک یا چند مورد متناسب با نیازهای تجاری شما مهم است.

ارتباط و مشاوره با شما ۰۹۳۶۷۹۳۸۰۱۸ در واتس اپ

دیدگاه‌ها (0)

*
*


پاسخ من را به ایمیلم ارسال کن

error: با عرض پوزش؛ لطفا از مطالعه مطالب لذت ببرید.