محتوای محصول:

پروژه کامل رپید ماینر در زمینه طبقه بندی متون فارسی به همراه دیتاست اشانتیون (۱۰ هزار خبر از روزنامه همشهری) – در واقع این پروژه یک سیستم توصیه گر برای طبقه بندی متون فارسی هست. دیتاست حاوی دو ستون می باشد. ستون اول شامل متن خبر و ستون دوم لیبلی که به این خبر زده شده را شامل می شود.
به همراه این پروژه داکیومنت فارسی و کامل ارائه شده است. به جهت آشنایی با رپیدماینر از پست های دیگر سایت دیدن نید. به منظور پیش بینی متون فارسی از روش بیزین استفاده می شود.
در فاز پیش پردازش این کارها انجام شده است : 
الف: تبدیل هریک از متون به برداری از کلمات که به کمک کنترل قدرتمند Process Documents From Data در رپیدماینر انجام می شود.ب: پیدا کردن پایان جملات. در رپیدماینر به منظور بدست آوردن انتهای جملات می توان از دستورات Regex موجود در کنترل Tokenize استفاده کرد.د: تفکیک جملات از یکدیگر که به کمک کنترل Tokenize  انجام می شود.ه: از بین بردن کلمات بیفایده به صورت دستی (حروف ربط، اضافه، نشانه، علایم نقطه گذاری، ضمایر، افعال ربطی، شبه جمله ها و با توجه به دو گروه کلمات ، افعال و … . این کار به کمک Filter Stop Words انجام می شود.و: انجام عملیات کاهش و ریشه یابی اسامی .به منظور عملیات کاهش از ابزار Stem استفاده شده است که به ریشه یابی کلمات می پردازد. همچنین به جهت فیلتر کلمات از ابزار Filter Token با اندازه کاراکتر های مابین ۴ الی ۲۵ استفاده شده است.پس از آن دیتاست کاملا پالایش شده آماده فید دادن به بخش آموزش می باشد. پیش از ادامه بحث در خصوص قسمت های اصلی فرایند پیش پردازش صحبت به میان خواهیم آورد.سپس اطلاعات توکنیزه شده و در مرحله بعدکاهش ابعاد رخ می دهد. سپس مدل طبقه بندی ایجاد شده و نتایج به خروجی منتقل می شود. 

دیدگاه‌ها (0)

نقد و بررسی‌ها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین کسی باشید که دیدگاهی می نویسد “طبقه بندی متون فارسی با استفاده از الگوریتم بیزین”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *


پاسخ من را به ایمیلم ارسال کن