توضیحات: در این پروژه که با نرم افزار داده کاوی رپید ماینر مدل سازی شده است بروی داده های مربوط به دوازده هزار توییت وبسایت توییتر عملیات داده کاوی بسیار حرفه ای  با استفاده از نرم افزار داده کاوی رپیدماینر انجام شده است.

جمع آوری داده ­ها: داده­ها به صورت روزانه با نرم افزار نوداکسل حدود دو ماه جمع ­آوری شده است.

دیتاست به کمک نرم افزار نوداکسل در طول دو ماه اطلاعات را جمع آوری کرده و روی هشتگ های خاصی ایمپورت شده است. دیتاست مورد نظر ما حاوی یکسری ستون ها به ترتیب زیر می باشند.

انتخاب کلمات کلیدی و هشتگ­های مرتبط با بیماری آلرژی. شامل هشتگ و کلمات کلیدی allergy، allergies، eczema، asthma ، foodallergies ، foodallergy، allergyseason و غیره هستند.

پیش ­پردازش داده ­ها: پیش پردازش داده­ها شامل برچسب گذاری اجزای کلام، حذف علامت­ها و کلمات بازدارنده و stemming برای بازگرداندن کلمات به ریشه آن­ها است. (i ،I’m، my،me  ، که ویژگی­های مهمی در نشان دادن تجربه آلرژی است نگه داشته می­شوند). تویت­هایی که تعداد زیادی هشتگ و منشن کاربر دارند و زبان غیر از انگلیسی هستند حذف می­شوند.

تویت های ابتدا با برچسب های asthma, eczema, seasonallergy, foodallergy برچسب گذاری میشوند. در مرحله بعد تویت ها با کلمات کلیدی I have allergy، my allergy، my eczema و . . . برای برچسب گذاری استفاده شوند. این داده­ها با برچسب yes یعنی تویت مورد نظر راجع به فردی است که در مورد آلرژی خودش صحبت می­کند. و داده­هایی که در مورد اگهی یا دانستنی­های آلرژی است با برچسب no برچسب گذاری می­شوند. Bag of word: برای این طبقه بندی رویکرد یادگیری نظارتی برای اینکه تشخیص دهد آیا آلرژی در مورد تجربه شخصی افراد است یا خیر استفاده می­شود. از طبقه بندی متنbag of word در جایی که n-gram به عنوان ویژگی در متن استفاده شده به کار می­بریم. برای ایجاد ویژگی­ها از rapidminer یا weka استفاده می­کنیم. unigram ،bigram وtrigram را برای ایجاد feature vector استفاده می­کنیم (حداقل دوبار در داده­های اموزشی وجود داشته باشند). برای استخراج ویژگی­ها سپس از tf-idf برای استخراج کلمات پرتکرار آلرژی­ها با برچسب­های مثبت و منفی استفاده می­شود و ۵۰۰ ویژگی پرتکرار استفاده شده در n-gram نگه داشته می­شود.

با استفاده از تعدادی از داده­ها با برچسب انواع الرژی و برچسب yes و no که در مرحله قبل به صورت دستی برچسب گذاری شد، در این مرحله برچسب ها به yes , و no تخصیص داده می­شود. برای اینکه مشخص شود دقت طبقه بندی چقدر است. برای تخصیص برچسب ها، ازالگوریتم­های MNB + SVM (بعلاوه RF) برای افزایش دقت طبقه بندی کار قبلی که از MNB استفاده کرده است، به کار می­بریم اگر بهبود خاصی حاص نشد از تکنیک های پیشرفته رپیدماینر استفاده می کنیم.

تجزیه و تحلیل محتوا با استفاده از یک دیکشنری( LIWC+ کلمات موجود در مقاله های قبلی و کلمات مورد نیاز) برای نمایش میزان اضطراب، ناراحتی، عصبانیت در متن مربوط به الرژی (آلرژِی غذایی، اگزما، آسم، آلرژی فصلی) با برچسب
در نظر گرفتن emotion با دو کلاس unhappy active و unhappy inactive و بدست اوردن کلمات مورد نظر رو با کمک دیکشنری liwc. برای هر کلاس یک سری کلمات در نظر بگیریم. برای هرکدوم از کلاس ها هم کلماتی که مد نظرمه مثل کلمات استرس و اضطراب و عصبانیت و . .‌. رو برای کلاس happy active بکار ببرم. و کلمات افسردگی و ناراحتی و . . . رو هم برای کلاس unhappy unactive بکار ببرم. در نهایت مقدار هر کلاس برای هر نوع از الرژی به صورت اینکه چند درصد کل تویت ها است نمایش داده می شود که به نظر میرسد با توجه به داده ها این مقادیر برای اگزما بیشترین مقدار بوده و برای بقیه الرژی ها ناچیز است.

مقایسه دقت مدل طبقه بندی با استفاده از SVM+MNB یا SVM+MNB+RF (هرکدام که دقت بالاتری داشته باشد) برای تویت­هایی که در مورد آلرژی خودشان صحبت می­کنند (آلرژی غذایی خودشان، اگزمای خودشان، آسم خودشان) یا در مورد اخبار یا تبلیغات و غیره در مورد آلرژِی است با مدل قبلی راجع به همین افراد در مقایسه با الگوریتم­های طبقه بندی کننده­ مقاله قبلی یعنی با SVM، MNB، RF و سپس استفاده از تکنیک های پیشرفته به جهت بهبود نتایج

از مباحث تئوری بگذریم به صورت عملی مراحل کلی زیر در این پروژه انجام شده است.

به صورت خلاصه ابتدا داده ها به صورت کامل در نرم افزار SQL و بعد در نرم افزار رپیدماینر پیش پردازش می شوند و این پیش پردازش به صورت کامل توضیح داده می شود. تصویر زیر بخشی از این عملیات را نمایش می دهد.

مراحل پیش پردازش در نرم افزار SQL به قرار زیر می باشد :‌

  • حذف توییت های غیر انگلیسی
  • حذف کلمات غیر انگلیسی و علایم
  • حذف علامت های تایید(Accent)
  • حذف هشتگ ها
  • حذف حروف اضافه یا کاراکترهای دارای نویز
  • حذف توییت های بی ارزش
  • حذف توییت های تکراری
  • تبدیل کلمات به حروف کوچک
  • تغییر شکل کلمات با ارزش

پس از پیش پردازش در SQL نوبت به پیش پردازش در رپیدماینر می رسد. مراحل زیر به صورت کامل شرح و بسط و توضیح داده می شود :‌

خواندن اطلاعات از SQL و ورود به RapidMiner

تبدیل متون توییت ها به صفت ها

پردازش کامل متون

توکنیزه کردن اطلاعات

حذف ایست واژه ها یا Stop Words

ریشه یابی کلمات (Stem)

حذف توکن های بی ارزش

استخراج N-gram

استخراج تعداد توکن ها

حال نوبت به مدلسازی می رسد:‌

در بخش مدلسازی بر روی کراس ولیدیشن کار می کنیم.

همچنین از انواع و اقسام روش های مهم و مختلف جهت بهبود عملکرد مدل و افزایش صحت کار استفاده می کنیم. از الگوریتم ژنتیک به جهت بهبود عملکرد مدل استفاده می کنیم.

برخی از این روش ها شامل MNB , RF , SVM ‌و ترکیب آنها با بروت فورس  و حالات بک وارد و فوروارد و ژنتیک و روش های انسمبلینگ مانند رای گیری می باشد. داکیومنت کاملا مصور و حرفه ای می باشد و در سه بخش اصلی تقسیم بندی شده است.

بطور کلی ما در این پروژه قصد داریم به پیش بینی افرادی که حساسیت های خاصی در استفاده از مواد غذایی دارند بپردازیم.

این پروژه تز کارشناسی ارشد می باشد که با موفقیت دفاع شده است

 

محتوی فایل: فایل دیتاست پیش پردازش نشده و پیش پردازش شده بعلاوه سه عدد داکمیومنت کامل از تمامی مراحل کار Doc_01_SQL Preprocessing و Doc_02_prePreProcess_in_Rapid و Doc_03_Classification and Voting و همچنین ده عدد مدل رپیدماینر از تمام مدل های انجام شده

 

 

دیدگاه‌ها (0)

نقد و بررسی‌ها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین کسی باشید که دیدگاهی می نویسد “پروژه پردازش متون و پیش بینی توییت های کاربران دارای حساسیت به مواد غذایی به کمک تکنیک های پیشرفته داده کاوی”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *


پاسخ من را به ایمیلم ارسال کن