پیش مقدمه
اینترنت با همه مزایایی که دارد مشکلاتی را برای کاربران خود به وجود آورده است. زمانی که کاربر به منظور تامین خواسته ای به اینترنت متصل میشود با حجم عظیم اطلاعات مرتبط با نیازش مواجه میشود. انتخاب بهترین مورد از میان موارد موجود، مشکلی است که اکثر کاربران آن را تجربه کرده اند. در این میان افزایش قابل توجه وب سایت ها، سازماندهی محتوای وب جهت رفع نیازهای کاربران را به عملی چالش برانگیز برای توسعه دهندگان وب تبدیل ساخته است. یک راه غلبه بر این مشکلات استفاده از برنامه هایی موسوم به سیستم های پیشنهادگر است. این سیستم ها از آرا و عقاید گروهی از کاربران استفاده میکنند تا به تک تک آنها کمک کنند محتوای مورد نظر خود را بطور کارآمدتر پیدا کنند.
سیستم های پیشنهادگر از اواسط دهه ۹۰ میلادی یک حوزه مهم پژوهشی شده است. بطور کلی این سیستم ها بطور مستقیم با جمع کردن و تحلیل آرا دیگر کاربران به کاربران فعلی برای یافتن مضامین، محصولات ویا خدمات (از قبیل کتاب، محصولات دیجیتالی، فیلم، موسیقی، برنامه های تلویزیونی و وب سایتها ) کمک میکنند. از این سیستم ها به عنوان یکی از راه حل های رویارویی با مساله ی سربار اطلاعات در وب یاد میشود. اگر چه دامنه ی استفاده از سیستم های پیشنهادگر بسیار گسترده میباشد ولی کاربرد آن در زمینه تجارت الکترونیک بیشتر به چشم میآید. از یک سو کسب و کارهای فعال در زمینه ی تجارت الکترونیک برای جذب مشتری بیشتر در بازار پر رقابت نیازمند این سیستم ها است و از سوی دیگر مشتری نیازمند یاری رسانی در خیل عظیم و رو به رشد کالا و به همان نسبت اطلاعات مربوط به آنها است تا بتواند از میان تعداد گزینه های پیش رو مناسب ترین آنها را برگزیند.
بیش از یک دهه گذشته، بیشتر محققان روش های جدید سیستم های پیشنهادگر را به منظور حل مشکلات روش های سنتی نظیر فیلترینگ مشارکتی و فیلترینگ محتوا محور مطالعه کرده اند. به خصوص بکاربردن تکنیک های داده کاوی در فراهم کردن اطلاعات شخصی ساز شده برای کاربر با استفاده از تحلیل خواسته های وی، موثر بوده است .
مدل کردن کاربر به عنوان یکی از اصلی ترین مولفه های سیستم شخصی سازی وب، اهمیت فراوانی دارد. هر چه این مدل به صورت بهتری ساخته شود، توصیه هایی که بر مبنای آن انجام میشود دقیق تر و عمیق تر خواهد بود.
مقدمه سیستم های توصیه گر
با توجه به حجم فراوان و روبه رشد اطلاعات بر روی وب و اینترنت، مدیریت وب با ابزارهای سنتی تقریبا غیر ممکن است و ابزارها و روش هایی نو مورد نیاز است. از سوی دیگر فرآیند تصمیمگیری و انتخاب اطلاعات و یا کالاهای مورد نیاز برای بسیاری از کاربران وب دشوار شدهاست. این موضوع، خود انگیزهای شد تا محققین را وادار کند تا راهحلی برای رویارویی با این مشکل اساسی عصر جدید که با عنوان سرریز دادهها شناخته میشود پیدا کنند. برای رویارویی با این مسئله تاکنون دو رویکرد مطرح شدهاست. اولین رویکردی که به کار گرفته شد استفاده از دو مفهوم بازیابی اطلاعات و تصفیهسازی اطلاعات بود. عمده محدودیتی که این دو مفهوم در ارائه پیشنهادها دارند، این است که برخلاف توصیهگرهای انسانی (مثل دوستان، اعضای خانواده و …)، این دو روش قادر به تشخیص و تفکیک اقلام با کیفیت و بی کیفیت، در ارائه پیشنهاد برای یک موضوع یا کالا، نیستند. مشکل مذکور، موجب شد تا رویکرد دومی تحت عنوان سیستم پیشنهادگر پدید آید. این سیستمهای جدید، مشکل سیستمهای موجود در رویکرد اولیه را حل کردهاند.
سیستم های پیشنهادگر با بهره گیری از تکنیک های آماری و تکنیک های کشف دانش جهت پیشنهاد محصولات به کاربران و کاهش مشکلات ناشی از حجم زیاد داده ها به کار گرفته میشوند.
سیستم های پیشنهادگر به عنوان برنامه هایی کاربردی با اهداف اساسی زیر در نظر گرفته می شوند:
- انتخاب کنند که کدامیک (از آیتم ها) باید به کاربر نشان داده شود .
- تصمیم بگیرد در چه زمانی و چگونه توصیه ها به نمایش درآیند.
مهمترین مزیت سیستمهای پیشنهادگر این است که بر اساس فعالیت کاربران و گردآوری رفتار و سلایق آنها عمل میکند. به این ترتیب پیشنهاد آنها بر اساس حدس و گمان نمیباشد و با خصوصیتهای فردی کاربران تنظیم شده است.
با استفاده از سیستمهای پیشنهادگر میتوان به مطالبی دست پیدا کرد که در حالت عادی شاید هرگز یافت نشوند. به این ترتیب به جای اتلاف وقت و انرژی برای جستجوی کور و تصادفی در جستجوگرهای وب، وقت کاربر صرف استفاده مفید از مطالب جدید خواهد شد. همچنین با استفاده از «هوش جمعی» که چکیده رفتار هزاران کاربر است، میتوان از جدیدترین و داغترین اتفاقات در زمینههای مورد علاقه باخبر ماند. این در حالی است که در وب ۱٫۰ پیشنهادها به صورت تصادفی و در غالب تبلیغات کور به کاربر ارائه میشد که طبیعتا با ضریب اطمینان بسیار پایینی از سوی کاربر مواجه میشد.
قابلیت یک وب سایت در جذب کاربران و راهنمایی آنها به سوی اطلاعات مفید و مرتبط با نیازشان یکی از عوامل کلیدی در موفقیت آن سایت است. شخصی سازی صفحات وب به هر عملی که تجربه وب یک کاربر را بنا به سلیقه و نظرات او سفارشی کند گفته می شود. سیستم های پیشنهادگر عمدهترین فناوری بازیابی شخصی سازی شده اطلاعات هستند. هدف یک سیستم شخصی سازی عبارت است از فراهم کردن اطلاعات دلخواه یا مورد نیاز کاربران بدون درخواست صریح آنها.
اصول سیستم های پیشنهادگر
در برای پایه ریزی و ایجاد یک سیستم پیشنهادگر کارا مواردی عنوان شده که باید در فرایند طراحی و پیاده سازی سیستم آنها را در نظر گرفت. این موارد به شرح ذیل می باشند:
نوع داده های موجود در بستر سیستم. بنا به کاربرد سیستم ممکن است انواع مختلفی از منابع اطلاعاتی در سیستم وجود داشته باشد. این اطلاعات می توانند امتیازهای کاربران به آیتمها، اطلاعات شخصی کاربران، محتوای مربوط به آیتم های سیستم، ارتباطات موجود در شبکه های اجتماعی و اطلاعات مربوط به موقعیت کاربر باشند.
- الگوریتم های مورد استفاده. هدف سیستم های پیشنهادگر در واقع رتبه بندی اقلام سیستم به لحاظ نزدیک بودن به علایق کاربران میباشد و اقلامی با رتبه بالاتر را به کاربر پیشنهاد میدهند. برای این منظور الگوریتم های متعددی پیشنهاد شده اند که مهم ترین آنها عبارتند از :
- فیلترینگ مشارکتی
- فیلترینگ محتوا محور
مدل انتخابی برای سیستم. در حال حاظر برای پیاده سازی سیستم های پیشنهادگر دو راهکار استفاده میشود. یکی استفاده مستقیم از داده های موجود سیستم است که به آن روش مبتنی بر حافظه گفته می شود و دیگری که کمی هوشمندتر است استفاده از یک مدل در سیستم است که به راهکار مبتنی بر مدل موسوم است.
- تکنیک مورد استفاده در پیشنهاد دادن. راهکار ها و تکنیک های مختلفی برای پیاده سازی هسته یک سیستم پیشنهادگر وجود دارد. به عنوان مثال الگوریتم های ژنتیک، شبکه های عصبی، شبکه های بیزی، روشهای احتمالی و یا الگوریتم های همسایگی برای پیاده سازی هسته چنین سیستم هایی استفاده می شوند.
- مقیاس پذیری مورد انتظار سیستم. حجیم بودن یا تنک بودن مجموعه داده در کیفیت سیستم تاثیر نداشته باشد.
- کارایی مطلوب سیستم ( از نظر میزان حافظ مصرفی و زمان).
- کیفیت نتایج قابل ارائه. نتایجی که یک سیستم پیشنهادگر ارائه میدهد میتواند با توجه به کاربرد آن متفاوت باشد. به عنوان مثال در برخی از سیستم ها ممکن است هدف ارائه جدیدترین ها باشد در حالی که در برخی دیگر هدف میتواند پوشش دادن به تمامی اقلام باشد. بطور کلی در سیستم های پیشنهادگر هدف فراهم آوردن سه فاکتور تازگی ، دقت و پوشش در نتایج پیشنهادی است.
عملیات داخلی سیستم پیشنهادگر توسط الگوریتم فیلترینگ ترسیم میشود. بدون شک اساسی ترین جزء در سیستم های پیشنهادگر الگوریتم و راهکار فیلترینگ آن میباشد. بطور کلی سیستم های پیشنهادگر را به دو دسته ی اصلی طبقه بندی کرده اند. این دو دسته عبارتند از فیلترینگ مشارکتی و فیلترینگ محتوا محور. فیلترینگ مشارکتی مبتنی بر کاربر است و فیلترینگ محتوا محور، مبتنی بر آیتم است. در ادامه به این دو راهکار مهم که در ذکر شده اند خواهیم پرداخت.
فیلترینگ مشارکتی در سیستم های توصیه گر
یکی از مهم ترین و پراستفاده ترین روش های فیلترینگ در سیستم های پیشنهادگر روش فیلترینگ مشارکتی میباشد. در این روش ابتدا باید اجازه داد تا کاربران در سیستم مشارکت نمایند و به اقلام مختلف موجود در سیستم امتیاز دهند (مثل ویدئو ها، فیلم هاو…). رایج ترین الگوریتم مورد استفاده در روش CF، الگوریتم k نزدیک ترین همسایه میباشد. برای این الگوریتم دو رویکرد وجود دارد. در رویکرد اول که نگاهی کاربر به کاربر به سیستم دارد KNN سه گام زیر را جهت ایجاد توصیه برای کاربر فعال انجام میدهد:
- گام اول – بر اساس یک معیار شباهت (کسینوس، همبستگی پیرسون و…) برای کاربر فعال a، k کاربر همسایه انتخاب میشود. این همسایگان، آنهایی هستند که بیش ترین شباهت را به کاربر a دارند.
- گام دوم – به ازای تمامی آیتم های موجود در سیستم، معیاری کمی جهت پیشبینی آنکه آیا آیتم i مورد پسند کاربر a قرار خواهد گرفت یا خیر محاسبه میشود. محاسبه این معیار کمی با استفاده از راهکار های مختلفی (مثل میانگین امتیازات) از روی امتیاز هایی که همسایگان کاربر a به آیتم i داده اند حاصل میشود.
- گام سوم– بر اساس گام دوم، از بین تمامی آیتم ها N آیتمی که بیشترین مقدار پیشبینی را دارند به کاربر پیشنهاد داده میشوند.
از جمله مزیت های این الگوریتم سادگی و در عین حال دقت نتایج حاصل از آن است. باید توجه داشت که در این راهکار سیستم بر مبنای امتیازات، آیتم ها را رتبه بندی میکند و آیتم هایی با بیشترین امتیاز را به کاربر پیشنهاد میدهد. به همین دلیل در صورتی که سیستم تازه شروع به کار کرده باشد و یا آیتم جدیدی به سیستم اضافه شود، اطلاعات کافی از آیتم ها در دسترس نخواهد بود و در نتیجه نمیتوان به درستی امتیاز دهی و نرخ گذاری را انجام داد. این یکی از مشکلات اساسی و مهم در اینگونه سیستم ها ست که با عنوان شروع سرد شناخته میشود. البته این سیستم ها از مشکل دیگری نیز رنج میبرند که پراکندگی داده ها میباشد. بدین معنی که اطلاعات در سیستم وجود دارد اما پراکنده هستند و نمیتوان به درستی و با قطعیت گفت که چه آیتمی مقبولیت بیشتری دارد.
مشکلات دیگر این رویکرد عبارتند از مقیاس پذیری کم و آسیب پذیری در مقابل پراکندگی داده ها در پایگاه داده. با افزوده شدن کاربر جدید به سیستم معیارهای شباهت و مقادیر پیشبینی ها باید مجددا حساب شوند که با افزایش تعداد کاربران و بزرگ شدن سیستم این مسئله سربار محاسباتی زیادی را به سیستم وارد میآورد و مشکل ساز میشود.
برای حل مشکل مقیاس پذیری در این الگوریتم، نسخه دیگری از آن با رویکردی متفاوت ارائه شده است. این رویکرد نگاه آیتم به آیتم دارد و توانسته است مشکل مقیاس پذیری را تا حد قابل توجهی کاهش دهد. در این نسخه نیز سه گام اصلی دیده میشود که به شرح زیر میباشند :
- گام اول – ابتدا بر اساس معیارهای شباهت برای هر آیتم i تعداد q همسایه را تعیین میکنیم.
- گام دوم – در صورتی که کاربر a به آیتم i تاکنون امتیازی نداده باشد، بر اساس امتیازاتی که این کاربر به آیتم های همسایه i داده است مقدار پیش بینی را محاسبه میکنیم.
- گام سوم – بر اساس مقادیر پیش بینی ها، آیتم هایی که بیشترین مقدار پیشبینی را دارند به کاربر a پیشنهاد میکنیم.
اساس کار در سیستم های پیشنهادگر مبتنی بر CF تعیین میزان شباهت بین کاربران و آیتمها ست تا بتوان همسایگی را بدست آورد. برای این منظور به یک معیار شباهت نیاز است. در روش های سنتی، شباهت بر اساس امتیاز دهی تعیین میشد. بدین گونه که اگر دو کاربر به یک آیتم رای میدادند سیستم نتیجه میگرفت که شباهتی بین این دو کاربر وجود دارد. در معیار تطبیق پذیری ارائه شده که فاکتور زمان را به عنوان پارامتر مهمی برای اندازه گیری تشابه کاربران درنظر میگیرد. این رویکرد، به خصوص مواقعی که علایق کاربران در طول زمان تغییر میکند بسیار کارآمد است. در مورد آیتم ها نیز این مسئله به گونه ای دیگر قابل تعریف است. بدین صورت که در صورتی که به دو آیتم توسط کاربران یکسانی رای داده شود سیستم احتمال میدهد که شباهتی بین این دو آیتم وجود دارد. در کنار این معیارها، موارد دیگری نیز مطرح هستند که از آنها در تعیین شباهت بین کاربران و آیتم ها استفاده میشود. برخی از این معیار ها عبارتند از: کسینوس، همبستگی پیرسون، اختلاف مربع میانگین.
دیدگاهها (0)