دیتاماینینگ یار

تحلیل کلی مشکلات و محدودیتهای سیستم های توصیه گر

تحلیل کلی مشکلات و محدودیت های سیستم های توصیه­ گر

در این بخش، برخی از مشکلات رایج در سیستم های توصیه ­گر که رو به گسترش هستند و همچنین بعضی از مسیرهای مطالعاتی را که منجر به حل آنها می شود و در بیان شده است، ارائه خواهیم داد.

به یک بیان ساده، اغلب کاربران، بیشتر آیتم ­ها را امتیازدهی نمی­ کنند و از این رو به طور معمول ماتریس تراکنش آیتم- کاربر کوچک است. یکی از محدودیت­ های مهم روش فیلترینگ مشترک، مشکل پراکندگی است، این مشکل اغلب زمانی رخ می­دهد که یک سیستم دارای نسبت بالایی در میزان آیتم ها به تعداد کاربران داشته باشد و یا سیستم در مراحل اولیه­ ی استفاده شدن باشد. با این حال، زمانی که چنین سیستم­ هایی تنها به تعداد اندکی از رکوردهای مربوط به تراکنش ­های سابق دسترسی داشته باشند، تشخیص اینکه کدامیک از مشتریان شبیه به یکدیگر بوده و علایق آنها چیست، اساساً مشکل خواهد بود.

 راهکار کاهش ابعاد، مشکل پراکندگی را از طریق حذف مشتریان یا محصولات متفاوت یا بی ­اهمیت رفع می کند، تا بدین وسیله ماتریس امتیازدهی های کاربران را متراکم کند. البته اطلاعاتی که به صورت بالقوه مفید هستند، ممکن است طی این فرآیند کاهشی گم شده و از بین بروند.این مسأله می تواند با استفاده از یکسری اطلاعات اضافی دامنه و یا ایجاد فرض هایی درباره ­ی فرآیند ایجاد داده، تقلیل یابد.

آیتم ­ها و کاربران جدید، باعث بروز چالش مهمی در سیستم­ های توصیه ­گر می شوند. شروع سرد اشاره به حالتی دارد که در آن، یک آیتم نمی­تواند پیشنهاد داده شود، مگر اینکه توسط تعداد قابل توجهی از کاربران، امتیازدهی شده باشد. اولین دسته از این مشکلات، در سیستم های فیلترینگ مشارکتی رخ می دهند؛ جایی که یک آیتم قابلیت مطرح شدن به عنوان پیشنهاد را ندارد مگر آنکه قبلاً برخی از کاربران به آن رأی داده باشند.

این مشکل به آیتم های جدید و مبهم اِعمال می­شود و بویژه برای کاربرانی با سلیقه ­های مختلف خوشایند نیست و از این مشکل آیتم جدید، اغلب به عنوان مشکل درجه اول یاد می شود. علاوه بر این، یک کاربر جدید بایستی میزان مناسبی از آیتم ها را امتیازدهی کرده باشد تا الگوریتم پیشنهاد دهنده بتواند توصیه ­های قابل اعتماد و دقیقی ارائه دهد.

مطالعات در این زمینه، در درجه­ ی اول بر روی مسأله­ ی انتخاب مؤثر آیتم ­هایی که توسط یک کاربر امتیازدهی می شوند متمرکز شده است تا با داشتن حداقل بازخورد از کاربر، کارایی پیشنهاد را به سرعت بهبود ببخشد. در این حالت، می­توان از تکنیک های کلاسیک پیرامون یادگیری فعال برای عمل انتخاب آیتم بهره گرفت. به علاوه،  می­توان از اطلاعات شبکه ­های اجتماعی نیز استفاده کرد تا ضعف موجود در مشکل شروع سرد را حل کرده و شباهت های بین کاربران را پیدا کرد.

به دلیل وجود منافع اقتصادی برای خرده فروشان و ارائه دهندگان یک سرویس، سیستم ­های توصیه­ گر به طور فزاینده­ای توسط وب سایت های تجاری به خدمت گرفته می­شوند. همین مسأله منجربه پیدایش تعداد زیادی از فروشندگان ریاکار شده است که از روش های مختلف کلاهبرداری استفاده می کنند تا به خاطر منافع خود، از سیستم ­های توصیه ­گر سوء استفاده کنند. دو مفهوم در مشکل کلاهبرداری وجود دارد که با نامهای push attack و nuke attack شناخته می شوند.

حملات شناخته شده با عنوان push، عمدتاً زمانی رخ می دهند که فروشندگان سعی می­کنند، اشتیاق نشان داده شده به محصولات خود را زیادتر جلوه دهند و حملات نوع nuke، امتیازدهی­ های کم به رقیبانشان است. این نوع حملات به طور گسترده تحت عنوان shilling attacks و یا profile injection attacks مورد مطالعه قرار می­گیرند. چنین حملاتی معمولاً شامل ایجاد پروفایل های ساختگی ومصنوعی بوده و میزان دانش متفاوتی را درباره­ی سیستم به طور ظاهری نشان می­دهند. یک حمله ­ی دیگر، average attack است که دانش مربوط به متوسط امتیازدهی را برای هر آیتم مد نظر قرار می دهد و فرد مهاجم، مقادیری را که به طور تصادفی نزدیک به این عددِ متوسط توزیع شده ­اند، اختصاص می­دهد؛ همزمان با یک امتیاز­دهی بالا برای آیتمی که در حال push شدن است. مطالعات نشان داده­اند که چنین حملاتی می توانند تا حدودی برای رتبه­بندی های پیش بینی شده، زیانبار باشند. در حالیکه روش فیلترینگ مشارکتی مبتنی بر آیتم، اغلب در برابر این حملات مقاوم است.

بدیهی است که روش های مبتنی بر محتوا، که تنها بر امتیازدهی­ های گذشته­ ی کاربر متکی هستند، در برابر حملات profile injection تأثیری نپذیرفته و تغییر نمی­یابند. با اینکه روشهای محض مبتنی بر محتوا از دام ها و موقعیت های نامساعدی که در بالا عنوان شد دوری می کنند، روش فیلترینگ مشارکتی هنوز هم مزیت ­های عمده­ای نسبت به آنها دارد. اولین مزیت CF  این است که می تواند در دامنه ­ها فعالیت کند، در حالیکه در دامنه ­ها محتوای زیادی در رابطه با آیتم ها وجود ندارد و یا محتوا به طور پیوسته در حال تغییر بوده و یا اینکه تحلیل آن برای کامپیوتر مشکل است،  مانند نظرها، عقاید و غیره. برتری دیگر CF آن است که چنین سیستمی امکان فراهم­ کردن پیشنهادات مناسب و بموقع را دارد یعنی می تواند آیتم­ هایی را که مربوط به کاربر هستند پیشنهاد دهد، بدون آنکه شامل محتوایی از پروفایل کاربر باشد.

هنگامی که تعداد کاربران و آیتم ­ها به طور شگرفی افزایش می­یابد، یک سیستم نمونه از سیستم ­های توصیه ­گر مبتنی بر وب که در حال اجرا بر روی الگوریتم موجود است، به شدت درگیر مشکل مقیاس پذیری خواهد بود. بنابراین، نیاز به راهکاری جدید بوجود می ­آید تا بتواند به سرعت، پیش بینی­ هایی با کیفیت بالا تولید کرده و مشکلاتی با مقیاس وسیع را حل کند. بویژه سیستم ­های توصیه­ گر مبتنی بر الگوریتم های نزدیک­ترین همسایه ، نیاز به انجام محاسبات دارند که با افزایش تعداد کاربران و نیز تعداد آیتم ها افزایش می یابد.

یکی از روش هایی که می­توان استفاده کرد، تکنیک های خوشه­ بندی  هستند. زمانیکه خوشه­ بندی انجام شود، کارایی کاملاً خوب خواهد بود چرا که اندازه ­ی خوشه ­ای که باید تحلیل شود، بسیار کوچک­تر است. از این رو، روش مبتنی بر خوشه­ بندی می­تواند مشکلاتی با مقیاس وسیع را در سیستم ­های توصیه­ گر حل کند. البته تکنیک ­های خوشه ­بندی ممکن است منجربه تولید کم­ دقت ­ترین پیش بینی ها در مقایسه با سایر روش ها شوند.

هنگامی­که تعدادی آیتم یکسان یا بسیار مشابه با نام های متفاوت وجود دارند، اکثر سیستم ­های توصیه­ گر، قادر به تشخیص این ارتباط پنهان نبوده و در نتیجه با این آیتم ­ها به شیوه های متفاوتی برخورد می­کنند. زمانی که نظرات کاربری به طور مداوم در ارتباط با موافقت یا عدم موافقت با هیچ یک از گروه های مردم نیست، نمی تواند از سیستم بهره­ ای ببرد. به عنوان مثال، عبارت “kids film” و “children film” به ظاهر آیتم­ های متفاوتی هستند ولی در واقع یکسان هستند و این در حالی است که سیستم ­های CF مبتنی بر حافظه  نمی­توانند آنها را تطبیق دهند، تا تشابه را محاسبه کنند. زمانی که مجموعه ­ی مترادف ­ها زیاد باشد، کارایی پیشنهادی که سیستم توصیه­ گر ارائه می­دهد، کاهش پیدا می­کند. این حالت­ ها باعث بوجود آمدن مشکلی می­شود که معروف به Gray Sheep و Black Sheep است. کاربران مجموعه ­ی Gray Sheep همچنین مسئول افزایش نرخ بروز خطا در سیستم ­های توصیه ­گرCF هستند که گاهی اوقات منجربه عدم موفقیت سیستم توصیه ­گر می­شوند.

Gray Sheep اشاره به کاربرانی دارد که نظرات آنها همواره موافق یا مخالف هر گروه از افراد نیست، از این رو نمی ­توانند از تکنیک فیلترینگ مشارکتی بهره ­مند شوند.

کاربرانی در مجموعه­ ی Black Sheep قرار می­گیرند که یا ارتباطی با دیگر افراد ندارند و یا تعداد افرادی که با آنها در ارتباط هستند بسیار کم است. این شرایط، ارائه­ ی پیشنهاد به آنها را بسیار مشکل می کند.

روش Latent Semantic Indexing (LSI) که یکی از تکنیک­ هایSingular Value Decomposition (SVD) است، این توانایی را دارد که با مشکلات  هم­معنایی مقابله کند. ماتریس بزرگی از داده ­ی ارتباط واژه-سند (term-document association data) توسط SVD دریافت شده و فضای معنایی (semantic space) ایجاد می­شود در حالیکه واژه ­ها و اسنادی که ارتباط تنگاتنگی دارند، در برابر هم قرار می گیرند. آرایش این فضا می تواند توسط SVD صورت پذیرد که در اینصورت کاربران و آیتم ­هایی را که چشم گیرترین ارتباط را دارند، نشان خواهد داد. همچنین از آیتم ها و کاربران کوچکتر و یا کم اهمیت ­تر صرفنظر خواهد کرد. کارایی روش LSI در مقابله با مشکل هم معنایی ، عالی است.

الگوریتم­ های پیشنهادی معمولاً تنها بر روی اطلاعات کاربرو ویژگی های گروه مثل سابقه­ ی گردش او در بین لینک ­ها در اینترنت تکیه می­کنند و اطلاعات اضافی مثل ویژگی های محتوای آیتم ­ها، که ممکن است منبع با ارزشی از اطلاعات تکمیلی در رابطه با فعالیت های کاربر باشند، معمولاً در نظر گرفته نمی­شود. با در نظر گرفتن اطلاعات محتوایی با گردش­های کاربر در وب یا رفتار امتیازدهی او، ممکن است بتوان به درک عمیق تری از علایق پنهان ولی مهم وی دست یافت.

تکنیک های WUM متنوعی در طراحی سیستم ­های توصیه­ گر مورد استفاده قرار گرفته ­اند که برای داشتن عملکردی خوب بر روی وب سایت هایی طراحی شده ­اند که ساختار پیچیده ای ندارند. اما آزمایش ها بر روی وب سایت­ هایی با اتصال­ های زیاد و پیچیده نشان می­دهند که فضای ذخیره ­سازی و ملزومات زمان اجرا در چنین تکنیک­ هایی به دلیل تعداد زیاد الگوها برای الگوی زنجیروار و قواعد ارتباطات، افزایش می یابد و در نهایت منجربه تعداد حالت های بیشتری در مدل مارکف  می­گردد. این امکان وجود دارد که با فعالسازی پیش بینی آنلاین سریع­تر، فضای قواعد را کاهش داد.

تمام سیستم ­های توصیه­ گر مبتنی بر تکنیک ­های WUM نقاط قوت و ضعف مخصوص به خود را دارند. نتایج آزمایشاتیِ مطالعات قبلی نشان می­دهد که استفاده از یک مدل پیشنهاددهنده به عنوان ماژولی از سیستم توصیه گرترکیبی، که در مقایسه با دیگر ماژول های مدل ترکیبی دقت و صحت کمتری دارد، میزان درستی پیشنهاد نهایی را کاهش می دهد. از این رو، نیاز به راهکارهای ترکیبی مطرح شد که مزیت­های الگوریتم ­های چندگانه را با هم داشته باشند.

البته اکثریت سیستم ­های توصیه ­گر ترکیبی بین این دو مورد سوئیچ می کنند: الگوریتم ­های پیشنهادی که مستقل عمل می کنند و ادغام چند الگوریتم در قالب یک الگوریتم. در سال های اخیر، علاقه ­ای روز افزون در حوزه ی اعمال تکنیک های کاوش محتوای وب، برای ساخت سیستم­ های توصیه­ گر بوجود آمده است. البته این تکنیک­ ها در کنترل وب سایت ­هایی که به طور پیوسته در حال تغییر هستند – مثل سایت های خبری – و یا صفحات وبی که به طور دینامیک ایجاد شده اند، ناتوان هستند. بنابراین در صورت استفاده از این تکنیک ­ها در یک مدل پیشنهاد دهنده­، بایستی هر چند وقت یکبار مدل را به روز کرد.

احتمالاًٌ مهم­ترین چالش در برخورد با سیستم­ های توصیه­ گر وب، نیاز آنها به میزان بالایی از داده ­ها برای ارائه ­ی مؤثر پیشنهادها است. شرکت ­هایی همچون Google، Amazon، Netflix و Last.fm به این دلیل شناخته شده هستند که پیشنهادهای بی نقصی بر مبنای اطلاعات زیاد از کاربر و مشتری ارائه می دهند. داشتن اطلاعات زیاد درباره ­ی آیتم ­ها و کاربران، این قابلیت را به سیستم­ های توصیه ­گر می­دهد که شانس بیشتری برای ارائه ­ی پیشنهادهای خوب داشته باشد. بنابراین، یک سیستم­ توصیه ­گر مؤثر و کارا، باید داده ­های زیادی برای ارائه­ ی پیشنهاد داشته باشد. این داده نه تنها از طریق داده ­ی کاربرد وب بدست می آید، بلکه می تواند از داده ­ی محتوای وب و داده ­ی ساختار وب نیز حاصل گردد. پس از آن باید الگوهای گردش کاربر در اینترنت را گرفته و تحلیل کند.

جدول  زیر خلاصه ­ای از چالش­ های گوناگونی که پیش روی سیستم ­های توصیه ­گر است، به همراه راه حلی برای هر یک از آنها که در بالا اشاره شد، نشان می دهد.

مشکل

تعریف

راه حل

پراکندگی

-   عدم امتیازدهیِ اغلب آیتم ها توسط کابران

-   کمبود سابقه ی کافی از تراکنش­ها برای قضاوت کردن در مورد شباهت های قابل اعتماد در میان کاربران

- راهکار کاهش ابعاد برای کاربران یا آیتم های کم اهمیت

- خلاصه کردن ماتریس امتیازدهی کاربر

- استفاده از اطلاعات اضافی دامنه

- فرضیه سازی درباره ی فرآیند تولید داده برای imputation با کیفیت بالا

شروع سرد

- مشکل ارائه ی پیشنهاد جدید به کاربران در مورد آیتمی که از قبل امتیازدهی نشده است (شروع سرد آیتم ها)

- مشکل ارائه ی پیشنهاد به کاربرانی که قبلاً به تعداد کافی به آیتم ها رأی نداده اند (شروع سرد کاربران)

- استفاده از اطلاعات شبکه های اجتماعی برای حل معضل موجود در مشکل شروع  سرد

- استفاده از تکنیک های سنتی از یادگیری فعال

کلاهبرداری

-   استفاده از سیستم­های توصیه گر توسط فروشندگان حیله گر برای بزرگ جلوه دادن میزان اشتیاق به محصولاتشان

- اعمال collaborative filtering به حملات counter shilling (push attacks و nuke attacks)

مقیاس پذیری

- تعداد انبوه کاربران و آیتم ها

- استفاده از تکنیک های خوشه بندی

هم معنایی

- گرایش به داشتن نام های مختلف در آیتم های یکسان یا مشابه

- برخورد متفاوت سیستم توصیه گر با این آیتم ها- Gray Sheep و [۱]Black Sheep

- روش Latent Semantic Indexing (LSI) از تکنیک­های Singular Value Decomposition (SVD)

الگوریتم ها

- تعداد زیاد الگوهای کشف شده از طریق الگوریتم های کاوش ترتیبی الگوها و کاوش قواعد انجمنی

- عملکرد ضعیف الگوریتم ها در وب سایت هایی با ارتباطات درونی زیاد و پیچیده (بالا رفتن فضای ذخیره­سازی و زمان اجرا)

- کاهش صحت توصیه گر ترکیبی به دلیل اعمال شیوه ی بی دقت

- کمبود توانایی در کنترل وب سایت های تغییر کننده به طور مستمر در سیستم های توصیه گر مبتنی بر کاوش محتوای وب

- کاهش فضای قواعد

- استفاده ی مناسب از روش های دقیق برای ساختن سیستم های توصیه گر ترکیبی

- به روز کردن مدل به صورت مکرر در مدل های مبتنی بر محتوا

کمبود داده

- نیاز به داده های فراوان برای ارائه ی مؤثرتر پیشنهادها

- استفاده از داده های متفاوت در وب مانند داده ی کاربرد وب، داده ی محتوای وب و داده ی ساختار وب


ارتباط و مشاوره با شما ۰۹۳۶۷۹۳۸۰۱۸ در واتس اپ

دیدگاه‌ها (16)

*
*


پاسخ من را به ایمیلم ارسال کن

    سارا مهمان 24 آذر 1394 پاسخ

    متشکرم-بسیار مفید بود.

    nayereh مهمان 13 دی 1396 پاسخ

    سلام
    من برای پایان نامه ارشدم از مطالب شما خیلی استفاده بردم
    امیدوارم موفق و پیروز باشید

      مهدي مقيمي مدیر کل 13 دی 1396 پاسخ

      سلام زنده باشید
      امیدوارم در رشد بیشتر سایت شما هم سهیم باشید

    ارغوان مهمان 15 دی 1396 پاسخ

    سلام
    مطلبتون بسیار آموزنده بود.
    میشه از دلایلی که یک کاربر گوسفند خاکستری امکان داره در سیستم توصیه گر بوجود بیاد بگید؟
    همچنین روشهای شناسایی این کاربرا؟
    ممنون میشم.

      مهدي مقيمي مدیر کل 1 بهمن 1396 پاسخ

      من قبلا در خصوص گوسفند خاکستری در سایت اجمالا صحبت هایی کردم
      اختصارا منظور ازش همون افرادی با رفتار نویز گونه هستند که بجای پیش بینی صحیح کارمون باعث اشتباه در پیش بینی میشه
      روش های پیش پردازشی که برای بالا بردن صحت پیش بینی قبلا در سایت ذکر شده برخیهاش می تونه اثر این گوسفندان رو از بین ببره

    JILA مهمان 5 بهمن 1396 پاسخ

    سلام ، وقت به خیر
    یک راهنمایی از شما می خواستم در زمینه کار تحقیقاتی ارشد تجارت الکترونیکی
    به نظر شما کدامیک از زمینه های : سیستم های توصیه گر ، هوش تجاری ، CRM و ... برای کار بهتر است و ارزش وقت گذاشتن دارد.
    ممنون از راهنمایی و لطف شما

      مهدي مقيمي مدیر کل 5 بهمن 1396 پاسخ

      سلام
      ببینید من تقریبا همه این مواردی که شما گفتید رو درک و مطالعه کردم و برخی هاش رو سالها کار کردم
      فردی در شرکت ما هست که داره دکتری هوش تجاری میگیره ولی برنامه نویس جاواست.
      فردی مثل من در همون شرکت سیستم های توصیه گر رو بلعیدم اما هوش تجاری کار میکنم
      واقعا بستگی به خود شما داره
      سی آر ام هم اونچیزی که من ازش میدونم همش بیزینس و برنامه نویسیه و چیز خاصی نداره که جز گزینه ها بیاد
      ولی اگر من بودم حتما اول هوش تجاری رو انتخاب میکردم
      ولی این رو بدونید که کار براش یک دهم برنامه نویسی هم نیست

    JILA مهمان 9 خرداد 1397 پاسخ

    سلام ،وقت به خیر
    ممنون از مطالب ارزنده شما
    در مورد پیداکردن مقاله Base خوب در زمینه سیستم های توصیه گر و وب معنایی و آنتولوژی راهنمایی می خواستم .
    همچنین دیتاست Yahoo!Movies را اگر محبت کنید ممنون میشم .
    سپاس فراوان از لطف شما

      مهدي مقيمي مدیر کل 9 خرداد 1397 پاسخ

      با سلام
      اگرتصمیم قطعی خودتون رو در خصوص انتولوژی و وب معنایی گرفته اید که هیچ، اما اگر نگرفتید باید بگم این حوزه وب معنایی و مدلسازی معنایی ابجکت ها با ریاضیات زیادی امیختس و اگر قدرت استدلال و ریاضیات شما قوی هست وارد بشید وگرنه ورود نکنید
      در خصوص مقاله پایه احتمالا در سایت صحبت هایی کرده ام اما اگر چیز بدرد بخوری پیدا نکردید بفرمایید تا بیشتر صحبت کنم.
      در خصوص انتخاب موضوع پایان نامه هم صحبت های زیادی کردم. در سایت جستجو کنید

    JILA مهمان 9 خرداد 1397 پاسخ

    سلام ،وقت به خیر
    ممنون از مطالب ارزنده شما
    اگر مطالبی راجع به wordnet و Movieontology دارید ممنون میشم راهنمایی بفرمایید.
    سپاس فراوان از لطف شما

      مهدي مقيمي مدیر کل 9 خرداد 1397 پاسخ

      سلام زنده باشید
      قبلا در خصوص وردنت صحبت هایی کردم و محصولاتی هم در فروشگاه از اون موجوده
      پیشنهاد میکنم در سایت جستجو کنید

    hanan مهمان 8 مهر 1397 پاسخ

    سلام علیکم من یک آماتور در زمینه پشتیبانی از صفحات مجازیم میخواستم راهنماییم کنید ۱برای یافتن لغات مناسب چه باید کرد به جز گوگل ترند. چه اصول و استراتژی‌هایی رو در مدیریت صفحه رعایت کنم.چطور به طور حرفه ای هشتگ گذاری کنم و از اون استفاده کنم. برای من امکانش هست که تحلیلpestرو انجام بدم؟

      مهدي مقيمي مدیر کل 8 مهر 1397 پاسخ

      با سلام و وقت بخیر
      این روحیه شما، بزودی شما رو از یک پشتیبان به یک سئو کار ماهر میرسونه. متاسفانه محتوای سایت با سوال شما همخوان نیست. فقط قسمت هشتگ ها مرتبط هست که این رو باید بگم به شما که گوگل از وب معنایی حمایت میکنه و میتونید به کمک سینتکس های وب معنایی به صفحات وبتون معنا بدید و این باعث میشه گوگل به درک بهتری از سایت شما برسه

    parastoo مهمان 5 بهمن 1397 پاسخ

    واقعا مطالب عالی بود و خیلی خیلی بهم کمک کرد برای پایان نامه ... امیدوارم موفق باشید همیشه

      مهدي مقيمي مدیر کل 6 بهمن 1397 پاسخ

      با سلام
      خوشحالم که مورد توجه شما قرار گرفت. امیدوارم شما هم ما رو با مطالب خوبتون در بهتر شدن علوم مردم کمک کنید

    فرهاد مهمان 11 بهمن 1399 پاسخ

    بسیار عالی و مفید بود .

error: با عرض پوزش؛ لطفا از مطالعه مطالب لذت ببرید.