وقتی صحبت از نظر کاوی پیش میآید ابتدا ذهن همه به دنبال دستهبندی حسی (تحلیل احساسات) میرود. اما دستهبندی حسی یا تشخیص حس نویسنده از متن یکی از فیلدهای پرطرفدار و کاربردی نظرکاوی است.
تولید مجموعه لغات حسی
ساخت مجموعه لغات حاوی حس یکی از روشهای مورد توجه محققان برای تشخیص حس جملات است. بطور کلی روشهای تحلیل احساسات را میتوان به سه گروه تقسیم بندی نمود :
- روشهای مبتنی بر واژهنامه حسی و استفاده از دانش زمینه (یادگیری بدون ناظر یا شبهناظر).
- روشهای یادگیری باناظر.
- روشهای تشخیص حس عبارات با استفاده از محاسبه شباهت و روابط معنایی کلمات.
دقت روشهای مبتنی بر واژهنامه حسی کاملاً وابسته به مجموعه لغات حاوی حس و وزنهای از پیش تعیین شده است. این روشها بدون نیاز به پیکره برچسبخورده و برای حوزههای عمومی قابل استفاده هستند. در رویکرد دوم (برای دستهبندی حسی متون) نیز میتوان از واژگان حسی به عنوان یکی از ویژگیهای مهم متن نظرات استفاده کرد.
بطور کلی از سه رویکرد ذیل برای تولید واژهنامههای حسی استفاده میشوند:
- مبتنی بر پیکره
- مبتنی بر لغت نامه و پایگاه دانش
- مبتنی بر روشهای یادگیر باناظر
روشهای مبتنی بر پیکره از پیکرههای متنی نسبتاً بزرگ و از قوانین زبانشناسی استفاده میکنند. معمولاً از ابن رویکرد برای ایجاد واژهنامه حسی برای یک دامنه (موضوع) خاص استفاده میشود. البته با درنظر گرفتن پیکرههای متنی بزرگ میتوان از این رویکرد برای تولید واژهنامههای حسی عمومی (مستقل از دامنه) نیز استفاده کرد.روشهای مبتنی بر لغتنامه اغلب از شبکه واژگان ( WordNet ) برای تعیین روابط معنایی و محاسبه بار حسی کلمات استفاده میکنند. یکی از معروفترین منابع ایجاد شده مبتنی بر اساس این رویکرد، شبکه واژگان حسی انگلیسی به نام سنتی وردنت ( SentiWordNet) است. شبکه واژگان حسی انگلیسی یکی از بهترین منابع موجود برای شناسایی کلمات حسی است که بر اساس تعیین میزان بار حسی هر گروه کلمات هممعنی در شبکه واژگان انگلیسی دانشگاه پرینستون (Princeton WordNet یا PWN ا ) ایجاد شده است.
شبکه واژگان حسی انگلیسی برای هر گروه کلمات، میزان بار حسی منفی، مثبت و همچنین مقدار غیرحسی بودن (با توجه به مقدار حس مثبت و منفی) را با عددی در بازه [۰, +۱] مشخص میکند. در رویکرد ساخت لغتنامه حسی با استفاده از روشهای یادگیر باناظر، نیاز به دادههای آموزشی دارای برچسب حسی اولیه میباشد. بدلیل مشکلات برچسبگذاری حسی کلمات (تهیه پیکره آموزشی) اغلب از این رویکرد برای استخراج واژگان حسی در دامنه محدود خاص نظرات استفاده میشود. در عمل، معمولاً این رویکرد با روشهای مبتنی بر پایگاه دانش و یا پیکره نظرات ترکیب میشود.
تحلیل احساسات (تشخیص میزان رضایتمندی نویسنده از روی متن)
بیشتر پژوهشهای اولیه در زمینه نظرکاوی ، سعی در دستهبندی حسی نظرات یا تعیین حس کلی یک متن، در قالب دو دسته حس مثبت و منفی، داشتند. در ادامه، پژوهشگران سعی در تعیین درجه (میزان) رضایتمندی یا نارضایتی (به جای دستهبندی دو حالته) در متن نمودند. در تحلیل حس متون سعی میشود تا قبل از شروع کار، نوع متن (از نظر حسی) یا بخشهای آن از نظر عینی
(objecti ) یا ذهنی ( subjective) مشخص شود. منظور از ذهنی بودن متن، متنی است که وابسته به طرز تفکر فردی بوده و دارای نظر و حس آن فرد میباشد. منظور از عینی بودن متن نیز همان حقایق یا متنی است که حاوی نظر نویسنده نمیباشد.
پس ابتدا لازم است تا تحلیل ذهنیت روی متن انجام شود زیرا ممکن است متن مورد بررسی فقط شامل حقایق باشد (مانند اخبار)، بدون اینکه حس یا نظر نویسنده را بیان کرده باشد. برای تحلیل ذهنیت از روشهای دستهبندی بدون ناظر ( unsupervised) باناظر ( supervised ) شباهت جملات یا استفاده از لیست اولیه از کلمات حاوی حس و شبکه واژگان وردنت یا ( WordNet ) روش متنی بر گراف برای مرزبندی بخشهای ذهنی و عینی در یک متن استفاده شده است.
مشکل دیگر این دسته پژوهشها، فرض یکسان بودن نظر نویسنده در تمام متن هست. به عبارت دیگر یک متن میتواند دارای نظرات مختلف یا بیش از یک حس باشد. برای مثال در متن “این فیلم فروش بسیار خوبی داشت و از بازیگران مطرحی استفاده نموده است. بازیگر اول آن فوق العاده طبیعی و عالی نقش خود را ایفا نمود. داستان این فیلم نیز برای من بسیار جالب توجه بود. البته به نظر من این فیلم در رسیدن به هدف خود شکست خورد.” همانطور که مشاهده میشود، نویسنده این عبارت نظرات متفاوتی را در یک متن بیان نموده است و با وجود بیان عبارات حسی مثبت فراوان، نظر کلی او منفی بوده است.
مشکل دیگری که در پژوهشهای اولیه وجود داشت این است که فرض بر این است که همه متن یا متون جمعآوری شده به یک موضوع اشاره دارند. در حالیکه ممکن است بخشهای مختلف متن یا متون مختلف جمعآوری شده، به موضوعات متفاوتی پرداخته باشند. پس لازم هست قبل از تحلیل حس، موضوع بخشهای مختلف شناسایی و جدا از هم بررسی شوند.
در نتیجه، محققان نظرکاوی کار تحلیل حس را در سطح جمله (Sentence level sentiment ) analysis)) یا بخشهای معنایی ( Semantic frame ) اشارهکننده به یک موضوع، ادامه دادند. بدین ترتیب برای هر جمله علاوه تحلیل ذهنیت، تحلیل حس نیز در سطح جمله انجام میگرفت. البته در این روش نیز فرض شده بود که هر جمله تنها حاوی یک حس است که این فرض در بعضی از نمونهها صادق نیست. علاوه بر این، در بسیاری از موارد تحلیل حس در سطح جمله، موجودیتها (موضوعات) و ویژگیهای آنها در متن، بخوبی شناسایی و تفکیک نمیشدند.
بدلیل مشکلات موجود در تحلیل حس در سطح متن (سند) و در سطح جمله، رویکرد نظرکاوی مبتنی بر ویژگی یا جنبه ( Feature/Aspect based opinion mining) مطرح شد. در این رویکرد ابتدا موجودیتها (موضوعات) و ویژگیهای بیان شده برای آنها از متن استخراج و سپس به تحلیل حس بیان شده برای هر یک از این ویژگیها میپردازند. استخراج موجودیت و ویژگیهای مورد بحث (هدف نویسنده) و رتبهبندی نظر یا حس بیان شده در مورد هر ویژگی، میتواند اطلاعات بسیار کامل و مفیدی را برای تصمیمگیری فراهم آورد. برای مثال در جمله “کیفیت تماس گوشی نوکیا خوب است ولی قیمت بالایی دارد”؛ درباره موجودیت (هدف نظرسنجی) گوشی موبایل نوکیا و در مورد ویژگیهای (یا جنبههای) کیفیت تماس و قیمت به ترتیب نظرات مثبت و منفی بیان شده است.
تحلیل نظرات مقایسهای
تحلیل نظرات مقایسهای در بسیاری از کاربردهای تحلیل بازار، نظرسنجیها و بطور کلی هوش رقابتی، از جمله پیداکردن بینش بازار و عملکرد فروش یک شرکت در مقایسه با رقبای آن، مورد استفاده قرار میگیرد.
بدین منظور ابتدا لازم است که گونههای مختلف جملات مقایسهای شناسایی و سپس اجزای آن مشخص شوند. محققان گونههای ذیل را برای یک جمله در متن نظرات در نظر میگیرند:
- جمله غیرمقایسهای: هیچ گونه مقایسه در جمله صورت نگرفته است
- جمله مقایسهای (Comparative Sentence): به نوعی نویسنده چند موجودیت را مورد مقایسه قرار داده است.
- قیاسی (Gradable): برتری یک یا چند موجودیت نسبت به دیگر موجودیتها
- قیاس تفضیل (Superlative): مثل: iPhone X بهترین دوربین رو داره.
دیدگاهها (0)