دیتاماینینگ یار

مقدمه ای بر سیستم های توصیه کننده

پیش مقدمه

اینترنت با همه مزایایی که دارد مشکلاتی را برای کاربران خود به وجود آورده است. زمانی که کاربر به منظور تامین خواسته ­ای به اینترنت متصل می­شود با حجم عظیم اطلاعات مرتبط با نیازش مواجه می­شود. انتخاب بهترین مورد از میان موارد موجود، مشکلی است که اکثر کاربران آن را تجربه کرده اند. در این میان افزایش قابل توجه وب سایت ها، سازماندهی محتوای وب جهت رفع نیازهای کاربران را به عملی چالش برانگیز برای توسعه دهندگان وب تبدیل ساخته است. یک راه غلبه بر این مشکلات استفاده از برنامه هایی موسوم به سیستم های پیشنهادگر است. این سیستم ها از آرا و عقاید گروهی از کاربران استفاده می­کنند تا به تک تک آنها کمک کنند محتوای مورد نظر خود را بطور کارآمدتر پیدا کنند.

سیستم های پیشنهاد­گر از اواسط دهه ۹۰ میلادی یک حوزه مهم پژوهشی شده است. بطور کلی این سیستم ها بطور مستقیم با جمع کردن و تحلیل آرا دیگر کاربران به کاربران فعلی برای یافتن مضامین، محصولات  ویا خدمات (از قبیل کتاب، محصولات دیجیتالی، فیلم، موسیقی، برنامه های تلویزیونی و وب سایتها ) کمک می­کنند. از این سیستم ها به عنوان یکی از راه حل های رویارویی با مساله ی سربار اطلاعات در وب یاد می­شود. اگر چه دامنه­ ی استفاده از سیستم های پیشنهاد­گر بسیار گسترده می­باشد ولی کاربرد آن در زمینه تجارت الکترونیک بیشتر به چشم می­آید. از یک سو کسب و کارهای فعال در زمینه ی تجارت الکترونیک برای جذب مشتری بیشتر در بازار پر رقابت نیازمند این سیستم ها است و از سوی دیگر مشتری نیازمند یاری رسانی در خیل عظیم و رو به رشد کالا و به همان نسبت اطلاعات مربوط به آنها است تا بتواند از میان تعداد گزینه های پیش رو مناسب ترین آنها را برگزیند.

بیش از یک دهه گذشته، بیشتر محققان روش های جدید سیستم های پیشنهادگر را به منظور حل مشکلات روش های سنتی نظیر فیلترینگ مشارکتی و  فیلترینگ محتوا محور مطالعه کرده اند. به خصوص بکاربردن تکنیک های داده کاوی در فراهم کردن اطلاعات شخصی ساز شده برای کاربر با استفاده از تحلیل خواسته های وی، موثر بوده است .

مدل کردن کاربر به عنوان یکی از اصلی ترین مولفه های سیستم شخصی­ سازی وب، اهمیت فراوانی دارد. هر چه این مدل به صورت بهتری ساخته شود، توصیه هایی که بر مبنای آن انجام می­شود دقیق ­تر و عمیق ­تر خواهد بود.

مقدمه سیستم های توصیه گر

با توجه به حجم فراوان و روبه رشد اطلاعات بر روی وب و اینترنت، مدیریت وب با ابزارهای سنتی  تقریبا غیر ممکن است و ابزارها و روش هایی نو مورد نیاز است. از سوی دیگر  فرآیند تصمیم‌گیری و انتخاب اطلاعات و یا کالاهای مورد نیاز برای بسیاری از کاربران وب دشوار شده‌است. این موضوع، خود انگیزه‌ای شد تا محققین را وادار کند تا راه‌حلی برای رویارویی با این مشکل اساسی عصر جدید که با عنوان سرریز داده‌ها شناخته می‌شود پیدا کنند. برای رویارویی با این مسئله تاکنون دو رویکرد مطرح شده‌است. اولین رویکردی که به کار گرفته شد استفاده از دو مفهوم بازیابی اطلاعات و تصفیه‌سازی اطلاعات بود. عمده محدودیتی که این دو مفهوم در ارائه پیشنهادها دارند، این است که برخلاف توصیه‌گرهای انسانی (مثل دوستان، اعضای خانواده و …)، این دو روش قادر به تشخیص و تفکیک اقلام با کیفیت و بی کیفیت، در ارائه پیشنهاد برای یک موضوع یا کالا، نیستند. مشکل مذکور، موجب شد تا رویکرد دومی تحت عنوان سیستم پیشنهادگر پدید آید. این سیستم‌های جدید، مشکل سیستم‌های موجود در رویکرد اولیه را حل کرده‌اند.

سیستم های پیشنهادگر با بهره گیری از تکنیک های آماری و تکنیک های کشف دانش جهت پیشنهاد محصولات به کاربران و کاهش مشکلات ناشی از حجم زیاد داده ها به کار گرفته می­شوند.

سیستم های پیشنهادگر به عنوان برنامه هایی کاربردی با اهداف اساسی زیر در نظر گرفته می شوند:

مهمترین مزیت سیستم‌های پیشنهادگر این است که بر اساس فعالیت کاربران و گردآوری رفتار و سلایق آن‌ها عمل می‌کند. به این ترتیب پیشنهاد آنها بر اساس حدس و گمان نمی‌باشد و با خصوصیت‌های فردی کاربران تنظیم شده است.

با استفاده از سیستم‌های پیشنهادگر می‌توان به مطالبی دست پیدا کرد که در حالت عادی شاید هرگز یافت نشوند. به این ترتیب به جای اتلاف وقت و انرژی برای جستجوی کور و تصادفی در جستجوگرهای وب، وقت کاربر صرف استفاده مفید از مطالب جدید خواهد شد. همچنین با استفاده از «هوش جمعی» که چکیده رفتار هزاران کاربر است، می‌توان از جدیدترین و داغ‌ترین اتفاقات در زمینه‌های مورد علاقه‌ با­خبر ماند. این در حالی است که در وب‌ ۱٫۰ پیشنهادها به صورت تصادفی و در غالب تبلیغات کور به کاربر ارائه می‌شد که طبیعتا با ضریب اطمینان بسیار پایینی از سوی کاربر مواجه می‌شد.

قابلیت یک وب سایت در جذب کاربران و راهنمایی آنها به سوی اطلاعات مفید و مرتبط با نیاز­شان یکی از عوامل کلیدی در موفقیت آن سایت است. شخصی سازی صفحات وب به هر عملی که تجربه وب یک کاربر را بنا به سلیقه و نظرات او سفارشی کند گفته می شود. سیستم های پیشنهادگر عمده­ترین فناوری بازیابی شخصی سازی شده اطلاعات هستند. هدف یک سیستم شخصی سازی عبارت است از فراهم کردن اطلاعات دلخواه یا مورد نیاز کاربران بدون درخواست صریح آنها.

اصول سیستم های پیشنهادگر

در برای پایه ریزی و ایجاد یک سیستم پیشنهاد­گر کارا مواردی عنوان شده که باید در فرایند طراحی و پیاده سازی سیستم آنها را در نظر گرفت. این موارد به شرح ذیل می باشند:

نوع داده های موجود در بستر سیستم. بنا به کاربرد سیستم ممکن است انواع مختلفی از منابع اطلاعاتی در سیستم وجود داشته باشد. این اطلاعات می توانند امتیازهای کاربران به آیتم­ها، اطلاعات شخصی کاربران، محتوای مربوط به آیتم ­های سیستم، ارتباطات موجود در شبکه های اجتماعی و اطلاعات مربوط به موقعیت کاربر باشند.

  • الگوریتم های مورد استفاده. هدف سیستم های پیشنهادگر در واقع رتبه ­بندی اقلام سیستم به لحاظ نزدیک بودن به علایق کاربران می­باشد و اقلامی با رتبه بالاتر را به کاربر پیشنهاد می­دهند. برای این منظور الگوریتم های متعددی پیشنهاد شده اند که مهم ترین آنها عبارتند از :
  1. فیلترینگ مشارکتی
  2. فیلترینگ محتوا محور

مدل انتخابی برای سیستم. در حال حاظر برای پیاده سازی سیستم های پیشنهادگر دو راهکار استفاده می­شود. یکی استفاده مستقیم از داده های موجود سیستم است که به آن روش مبتنی بر حافظه گفته می شود و دیگری که کمی هوشمند­تر است استفاده از یک مدل در سیستم است که به راهکار مبتنی بر مدل موسوم است.

  • تکنیک مورد استفاده در پیشنهاد دادن. راهکار ها و تکنیک های مختلفی برای پیاده سازی هسته یک سیستم پیشنهاد­گر وجود دارد. به عنوان مثال الگوریتم های ژنتیک، شبکه های عصبی، شبکه های بیزی، روشهای احتمالی و یا الگوریتم های همسایگی برای پیاده سازی هسته چنین سیستم هایی استفاده می شوند.
  • مقیاس پذیری مورد انتظار سیستم. حجیم بودن یا تنک بودن مجموعه داده در کیفیت سیستم تاثیر نداشته باشد.
  • کارایی مطلوب سیستم ( از نظر میزان حافظ مصرفی و زمان).
  • کیفیت نتایج قابل ارائه. نتایجی که یک سیستم پیشنهاد­گر ارائه می­دهد می­تواند با توجه به کاربرد آن متفاوت باشد. به عنوان مثال در برخی از سیستم ها ممکن است هدف ارائه جدید­ترین ها باشد در حالی که در برخی دیگر هدف می­تواند پوشش دادن به تمامی اقلام باشد. بطور کلی در سیستم های پیشنهاد­گر هدف فراهم آوردن سه فاکتور تازگی ، دقت و پوشش در نتایج پیشنهادی است.

عملیات داخلی سیستم پیشنهادگر توسط الگوریتم فیلترینگ ترسیم می­شود. بدون شک اساسی ترین جزء در سیستم های پیشنهادگر الگوریتم و راهکار فیلترینگ آن می­باشد. بطور کلی سیستم های پیشنهادگر را به دو دسته ی اصلی طبقه بندی کرده اند. این دو دسته عبارتند از فیلترینگ مشارکتی و فیلترینگ محتوا محور. فیلترینگ مشارکتی مبتنی بر کاربر است و فیلترینگ محتوا محور، مبتنی بر آیتم است. در ادامه به این دو راهکار مهم که در ذکر شده اند خواهیم پرداخت.

فیلترینگ مشارکتی در سیستم های توصیه گر

یکی از مهم ترین و پراستفاده ­ترین روش های فیلترینگ در سیستم های پیشنهادگر روش فیلترینگ مشارکتی می­باشد. در این روش ابتدا باید اجازه داد تا کاربران در سیستم مشارکت نمایند و به اقلام مختلف موجود در سیستم امتیاز دهند (مثل ویدئو ها، فیلم هاو…). رایج ­ترین الگوریتم مورد استفاده در روش CF، الگوریتم  k نزدیک ترین همسایه می­باشد. برای این الگوریتم دو رویکرد وجود دارد. در رویکرد اول که نگاهی کاربر به کاربر به سیستم دارد KNN  سه گام زیر را جهت ایجاد توصیه برای کاربر فعال انجام می­دهد:

  1. گام اول –  بر اساس یک معیار شباهت (کسینوس، همبستگی پیرسون و…)  برای کاربر فعال a، k کاربر همسایه انتخاب می­شود. این همسایگان، آنهایی هستند که بیش ترین شباهت را به کاربر  a دارند.
  2. گام دوم – به ازای تمامی آیتم های موجود در سیستم، معیاری کمی جهت پیشبینی آنکه آیا آیتم i مورد پسند کاربر a  قرار خواهد گرفت یا خیر محاسبه می­شود.  محاسبه این معیار کمی با استفاده از راهکار های مختلفی (مثل میانگین امتیازات) از روی امتیاز هایی که همسایگان کاربر a به آیتم i داده اند حاصل می­شود.
  3. گام سوم بر اساس گام دوم، از بین تمامی آیتم ­ها N آیتمی که بیشترین مقدار پیشبینی را دارند به کاربر پیشنهاد داده می­شوند.

از جمله مزیت ­های این الگوریتم سادگی و در عین حال دقت نتایج حاصل از آن است. باید توجه داشت که در این راهکار سیستم بر مبنای امتیازات، آیتم­ ها را رتبه بندی می­کند و آیتم هایی با بیشترین امتیاز را به کاربر پیشنهاد می­دهد. به همین دلیل در صورتی که سیستم تازه شروع به کار کرده باشد و یا آیتم جدیدی به سیستم اضافه شود، اطلاعات کافی از آیتم ها در دسترس نخواهد بود و در نتیجه نمی­توان به درستی امتیاز دهی و نرخ گذاری را انجام داد. این یکی از مشکلات اساسی و مهم در اینگونه سیستم ها ست که با عنوان شروع سرد شناخته می­شود. البته این سیستم ها از مشکل دیگری نیز رنج می­برند که پراکندگی داده ها می­باشد. بدین معنی که اطلاعات در سیستم وجود دارد اما پراکنده هستند و نمی­توان به درستی و با قطعیت گفت که چه آیتمی مقبولیت بیشتری دارد.

مشکلات دیگر این رویکرد عبارتند از مقیاس پذیری کم و آسیب پذیری در مقابل پراکندگی داده ها در پایگاه داده. با افزوده شدن کاربر جدید به سیستم معیار­های شباهت و مقادیر پیشبینی ها باید مجددا حساب شوند که با افزایش تعداد کاربران و بزرگ شدن سیستم این مسئله سر­بار محاسباتی زیادی را به سیستم وارد  می­آورد و مشکل ساز می­شود.

برای حل مشکل مقیاس پذیری در این الگوریتم، نسخه دیگری از آن با رویکردی متفاوت ارائه شده است. این رویکرد نگاه آیتم به آیتم دارد و توانسته است مشکل مقیاس پذیری را تا حد قابل توجهی کاهش دهد. در این نسخه نیز سه گام اصلی دیده می­شود که به شرح زیر می­باشند :

  1. گام اول   ابتدا بر اساس معیارهای شباهت برای هر آیتم i تعداد q همسایه را تعیین می­کنیم.
  2. گام دوم – در صورتی که کاربر a به آیتم i تاکنون امتیازی نداده باشد، بر اساس امتیازاتی که این کاربر به آیتم ­های همسایه i داده است مقدار پیش بینی را محاسبه می­کنیم.
  3. گام سوم  بر اساس مقادیر پیش بینی ­ها، آیتم ­هایی که بیشترین مقدار پیشبینی را دارند به کاربر a پیشنهاد می­کنیم.

اساس کار در سیستم ­های پیشنهادگر مبتنی بر CF تعیین میزان شباهت بین کاربران و آیتم­ها ست تا بتوان همسایگی را بدست آورد. برای این منظور به یک معیار شباهت نیاز است. در روش های سنتی، شباهت بر اساس امتیاز دهی تعیین می­شد. بدین گونه که اگر دو کاربر به یک آیتم رای می­دادند سیستم نتیجه می­گرفت که شباهتی بین این دو کاربر وجود دارد. در معیار تطبیق پذیری ارائه شده که فاکتور زمان را به عنوان پارامتر مهمی برای اندازه گیری تشابه کاربران در­نظر می­گیرد. این رویکرد، به خصوص مواقعی که علایق کاربران در طول زمان تغییر می­کند بسیار کارآمد است. در مورد آیتم ­ها نیز این مسئله به گونه ­ای دیگر قابل تعریف است. بدین صورت که در صورتی که به دو آیتم توسط کاربران یکسانی رای داده شود سیستم احتمال می­دهد که شباهتی بین این دو آیتم وجود دارد. در کنار این معیارها، موارد دیگری نیز مطرح هستند که از آنها در تعیین شباهت بین کاربران و آیتم ­ها استفاده می­شود. برخی از این معیار ها عبارتند از: کسینوس، همبستگی پیرسون، اختلاف مربع میانگین.

 

ارتباط و مشاوره با شما ۰۹۳۶۷۹۳۸۰۱۸ در واتس اپ

دیدگاه‌ها (0)

*
*


پاسخ من را به ایمیلم ارسال کن

error: با عرض پوزش؛ لطفا از مطالعه مطالب لذت ببرید.