دیتاماینینگ یار

در مورد نظرکاوی بیشتر بدانیم

وقتی صحبت از نظر کاوی پیش می‌آید ابتدا ذهن همه به دنبال دسته‌بندی حسی (تحلیل احساسات) می‌رود. اما دسته‌بندی حسی یا تشخیص حس نویسنده از متن یکی از فیلدهای پرطرفدار و کاربردی نظرکاوی است.

تولید مجموعه لغات حسی

ساخت مجموعه لغات حاوی حس یکی از روشهای مورد توجه محققان برای تشخیص حس جملات است. بطور کلی روش‌های تحلیل احساسات را می‌توان به سه گروه تقسیم‌ بندی نمود :

دقت روش‌های مبتنی بر واژه‌نامه حسی کاملاً وابسته به مجموعه لغات حاوی حس و وزن‌های از پیش تعیین شده است. این روش‌ها بدون نیاز به پیکره برچسب‌خورده و برای حوزه‌های عمومی قابل استفاده هستند. در رویکرد دوم (برای دسته‌بندی حسی متون) نیز می‌توان از واژگان حسی به عنوان یکی از ویژگی‌های مهم متن نظرات استفاده کرد.
بطور کلی از سه رویکرد ذیل برای تولید واژه‌نامه‌های حسی استفاده می‌شوند:

روش‌های مبتنی بر پیکره از پیکره‌های متنی نسبتاً بزرگ و از قوانین زبان‌شناسی استفاده می‌کنند. معمولاً از ابن رویکرد برای ایجاد واژه‌نامه حسی برای یک دامنه (موضوع) خاص استفاده می‌شود. البته با درنظر گرفتن پیکره‌های متنی بزرگ می‌توان از این رویکرد برای تولید واژه‌نامه‌های حسی عمومی (مستقل از دامنه) نیز استفاده کرد.روش‌های مبتنی بر لغت‌نامه اغلب از شبکه واژگان ( WordNet ) برای تعیین روابط معنایی و محاسبه بار حسی کلمات استفاده می‌کنند. یکی از معروفترین منابع ایجاد شده مبتنی بر اساس این رویکرد، شبکه واژگان حسی انگلیسی به نام سنتی وردنت ( SentiWordNet) است. شبکه واژگان حسی انگلیسی یکی از بهترین منابع موجود برای شناسایی کلمات حسی است که بر اساس تعیین میزان بار حسی هر گروه کلمات هم‌معنی در شبکه واژگان انگلیسی دانشگاه پرینستون (Princeton WordNet یا PWN ا ) ایجاد شده است.

شبکه واژگان حسی انگلیسی برای هر گروه کلمات، میزان بار حسی منفی، مثبت و همچنین مقدار غیرحسی بودن (با توجه به مقدار حس مثبت و منفی) را با عددی در بازه [۰, +۱] مشخص می‌کند. در رویکرد ساخت لغت‌نامه حسی با استفاده از روش‌های یادگیر باناظر، نیاز به داده‌های آموزشی دارای برچسب حسی اولیه می‌باشد. بدلیل مشکلات برچسب‌گذاری حسی کلمات (تهیه پیکره آموزشی) اغلب از این رویکرد برای استخراج واژگان حسی در دامنه محدود خاص نظرات استفاده می‌شود. در عمل، معمولاً این رویکرد با روش‌های مبتنی بر پایگاه دانش و یا پیکره نظرات ترکیب می‌شود.

تحلیل احساسات (تشخیص میزان رضایتمندی نویسنده از روی متن)

بیشتر پژوهش‌های اولیه در زمینه نظرکاوی ، سعی در دسته‌بندی حسی نظرات یا تعیین حس کلی یک متن، در قالب دو دسته حس مثبت و منفی، داشتند. در ادامه، پژوهشگران سعی در تعیین درجه (میزان) رضایت‌مندی یا نارضایتی (به جای دسته‌بندی دو حالته) در متن نمودند. در تحلیل حس متون سعی می‌شود تا قبل از شروع کار، نوع متن (از نظر حسی) یا بخش‌های آن از نظر عینی

(objecti ) یا ذهنی ( subjective) مشخص شود. منظور از ذهنی بودن متن، متنی است که وابسته به طرز تفکر فردی بوده و دارای نظر و حس آن فرد می‌باشد. منظور از عینی بودن متن نیز همان حقایق یا متنی است که حاوی نظر نویسنده نمی‌باشد.

پس ابتدا لازم است تا تحلیل ذهنیت روی متن انجام شود زیرا ممکن است متن مورد بررسی فقط شامل حقایق باشد (مانند اخبار)، بدون اینکه حس یا نظر نویسنده را بیان کرده باشد. برای تحلیل ذهنیت از روش‌های دسته‌بندی بدون ناظر ( unsupervised) باناظر ( supervised ) شباهت جملات یا استفاده از لیست اولیه از کلمات حاوی حس و شبکه واژگان وردنت یا ( WordNet ) روش متنی بر گراف برای مرز‌بندی بخش‌های ذهنی و عینی در یک متن استفاده شده است.

مشکل دیگر این دسته پژوهش‌ها، فرض یکسان بودن نظر نویسنده در تمام متن هست. به عبارت دیگر یک متن می‌تواند دارای نظرات مختلف یا بیش از یک حس باشد. برای مثال در متن “این فیلم فروش بسیار خوبی داشت و از بازیگران مطرحی استفاده نموده است. بازیگر اول آن فوق العاده طبیعی و عالی نقش خود را ایفا نمود. داستان این فیلم نیز برای من بسیار جالب توجه بود. البته به نظر من این فیلم در رسیدن به هدف خود شکست خورد.” همانطور که مشاهده می‌شود، نویسنده این عبارت نظرات متفاوتی را در یک متن بیان نموده است و با وجود بیان عبارات حسی مثبت فراوان، نظر کلی او منفی بوده است.

مشکل دیگری که در پژوهش‌های اولیه وجود داشت این است که فرض بر این است که همه متن یا متون جمع‌آوری شده به یک موضوع اشاره دارند. در حالیکه ممکن است بخش‌های مختلف متن یا متون مختلف جمع‌آوری شده، به موضوعات متفاوتی پرداخته باشند. پس لازم هست قبل از تحلیل حس، موضوع بخش‌های مختلف شناسایی و جدا از هم بررسی شوند.

در نتیجه، محققان نظرکاوی کار تحلیل حس را در سطح جمله (Sentence level sentiment ) analysis)) یا بخش‌های معنایی ( Semantic frame ) اشاره‌کننده به یک موضوع، ادامه دادند. بدین ترتیب برای هر جمله علاوه تحلیل ذهنیت، تحلیل حس نیز در سطح جمله انجام می‌گرفت. البته در این روش نیز فرض شده بود که هر جمله تنها حاوی یک حس است که این فرض در بعضی از نمونه‌ها صادق نیست. علاوه بر این، در بسیاری از موارد تحلیل حس در سطح جمله، موجودیت‌ها (موضوعات) و ویژگی‌های آنها در متن، بخوبی شناسایی و تفکیک نمی‌شدند.

بدلیل مشکلات موجود در تحلیل حس در سطح متن (سند) و در سطح جمله، رویکرد نظرکاوی مبتنی بر ویژگی یا جنبه  ( Feature/Aspect based opinion mining)   مطرح شد. در این رویکرد ابتدا موجودیت‌ها (موضوعات) و ویژگی‌های بیان شده برای آنها از متن استخراج و سپس به تحلیل حس بیان شده برای هر یک از این ویژگی‌ها می‌پردازند. استخراج موجودیت و ویژگی‌های مورد بحث (هدف نویسنده) و رتبه‌بندی نظر یا حس بیان شده در مورد هر ویژگی، می‌تواند اطلاعات بسیار کامل و مفیدی را برای تصمیم‌گیری فراهم آورد. برای مثال در جمله “کیفیت تماس گوشی نوکیا خوب است ولی قیمت بالایی دارد”؛ درباره موجودیت (هدف نظرسنجی) گوشی موبایل نوکیا و در مورد ویژگی‌های (یا جنبه‌های) کیفیت تماس و قیمت به ترتیب نظرات مثبت و منفی بیان شده است.

تحلیل نظرات مقایسه‌ای

تحلیل نظرات مقایسه‌ای در بسیاری از کاربردهای تحلیل بازار، نظرسنجی‌ها و بطور کلی هوش رقابتی، از جمله پیداکردن بینش بازار و عملکرد فروش یک شرکت در مقایسه با رقبای آن، مورد استفاده قرار می‌گیرد.

بدین منظور ابتدا لازم است که گونه‌های مختلف جملات مقایسه‌ای شناسایی و سپس اجزای آن مشخص شوند. محققان گونه‌های ذیل را برای یک جمله در متن نظرات در نظر می‌گیرند:

ارتباط و مشاوره با شما ۰۹۳۶۷۹۳۸۰۱۸ در واتس اپ

دیدگاه‌ها (0)

*
*


پاسخ من را به ایمیلم ارسال کن

error: با عرض پوزش؛ لطفا از مطالعه مطالب لذت ببرید.