تحلیل کلی مشکلات و محدودیت های سیستم های توصیه گر
در این بخش، برخی از مشکلات رایج در سیستم های توصیه گر که رو به گسترش هستند و همچنین بعضی از مسیرهای مطالعاتی را که منجر به حل آنها می شود و در بیان شده است، ارائه خواهیم داد.
- پراکندگی
به یک بیان ساده، اغلب کاربران، بیشتر آیتم ها را امتیازدهی نمی کنند و از این رو به طور معمول ماتریس تراکنش آیتم- کاربر کوچک است. یکی از محدودیت های مهم روش فیلترینگ مشترک، مشکل پراکندگی است، این مشکل اغلب زمانی رخ میدهد که یک سیستم دارای نسبت بالایی در میزان آیتم ها به تعداد کاربران داشته باشد و یا سیستم در مراحل اولیه ی استفاده شدن باشد. با این حال، زمانی که چنین سیستم هایی تنها به تعداد اندکی از رکوردهای مربوط به تراکنش های سابق دسترسی داشته باشند، تشخیص اینکه کدامیک از مشتریان شبیه به یکدیگر بوده و علایق آنها چیست، اساساً مشکل خواهد بود.
راهکار کاهش ابعاد، مشکل پراکندگی را از طریق حذف مشتریان یا محصولات متفاوت یا بی اهمیت رفع می کند، تا بدین وسیله ماتریس امتیازدهی های کاربران را متراکم کند. البته اطلاعاتی که به صورت بالقوه مفید هستند، ممکن است طی این فرآیند کاهشی گم شده و از بین بروند.این مسأله می تواند با استفاده از یکسری اطلاعات اضافی دامنه و یا ایجاد فرض هایی درباره ی فرآیند ایجاد داده، تقلیل یابد.
- مشکل شروع سرد
آیتم ها و کاربران جدید، باعث بروز چالش مهمی در سیستم های توصیه گر می شوند. شروع سرد اشاره به حالتی دارد که در آن، یک آیتم نمیتواند پیشنهاد داده شود، مگر اینکه توسط تعداد قابل توجهی از کاربران، امتیازدهی شده باشد. اولین دسته از این مشکلات، در سیستم های فیلترینگ مشارکتی رخ می دهند؛ جایی که یک آیتم قابلیت مطرح شدن به عنوان پیشنهاد را ندارد مگر آنکه قبلاً برخی از کاربران به آن رأی داده باشند.
این مشکل به آیتم های جدید و مبهم اِعمال میشود و بویژه برای کاربرانی با سلیقه های مختلف خوشایند نیست و از این مشکل آیتم جدید، اغلب به عنوان مشکل درجه اول یاد می شود. علاوه بر این، یک کاربر جدید بایستی میزان مناسبی از آیتم ها را امتیازدهی کرده باشد تا الگوریتم پیشنهاد دهنده بتواند توصیه های قابل اعتماد و دقیقی ارائه دهد.
مطالعات در این زمینه، در درجه ی اول بر روی مسأله ی انتخاب مؤثر آیتم هایی که توسط یک کاربر امتیازدهی می شوند متمرکز شده است تا با داشتن حداقل بازخورد از کاربر، کارایی پیشنهاد را به سرعت بهبود ببخشد. در این حالت، میتوان از تکنیک های کلاسیک پیرامون یادگیری فعال برای عمل انتخاب آیتم بهره گرفت. به علاوه، میتوان از اطلاعات شبکه های اجتماعی نیز استفاده کرد تا ضعف موجود در مشکل شروع سرد را حل کرده و شباهت های بین کاربران را پیدا کرد.
- کلاه برداری
به دلیل وجود منافع اقتصادی برای خرده فروشان و ارائه دهندگان یک سرویس، سیستم های توصیه گر به طور فزایندهای توسط وب سایت های تجاری به خدمت گرفته میشوند. همین مسأله منجربه پیدایش تعداد زیادی از فروشندگان ریاکار شده است که از روش های مختلف کلاهبرداری استفاده می کنند تا به خاطر منافع خود، از سیستم های توصیه گر سوء استفاده کنند. دو مفهوم در مشکل کلاهبرداری وجود دارد که با نامهای push attack و nuke attack شناخته می شوند.
حملات شناخته شده با عنوان push، عمدتاً زمانی رخ می دهند که فروشندگان سعی میکنند، اشتیاق نشان داده شده به محصولات خود را زیادتر جلوه دهند و حملات نوع nuke، امتیازدهی های کم به رقیبانشان است. این نوع حملات به طور گسترده تحت عنوان shilling attacks و یا profile injection attacks مورد مطالعه قرار میگیرند. چنین حملاتی معمولاً شامل ایجاد پروفایل های ساختگی ومصنوعی بوده و میزان دانش متفاوتی را دربارهی سیستم به طور ظاهری نشان میدهند. یک حمله ی دیگر، average attack است که دانش مربوط به متوسط امتیازدهی را برای هر آیتم مد نظر قرار می دهد و فرد مهاجم، مقادیری را که به طور تصادفی نزدیک به این عددِ متوسط توزیع شده اند، اختصاص میدهد؛ همزمان با یک امتیازدهی بالا برای آیتمی که در حال push شدن است. مطالعات نشان دادهاند که چنین حملاتی می توانند تا حدودی برای رتبهبندی های پیش بینی شده، زیانبار باشند. در حالیکه روش فیلترینگ مشارکتی مبتنی بر آیتم، اغلب در برابر این حملات مقاوم است.
بدیهی است که روش های مبتنی بر محتوا، که تنها بر امتیازدهی های گذشته ی کاربر متکی هستند، در برابر حملات profile injection تأثیری نپذیرفته و تغییر نمییابند. با اینکه روشهای محض مبتنی بر محتوا از دام ها و موقعیت های نامساعدی که در بالا عنوان شد دوری می کنند، روش فیلترینگ مشارکتی هنوز هم مزیت های عمدهای نسبت به آنها دارد. اولین مزیت CF این است که می تواند در دامنه ها فعالیت کند، در حالیکه در دامنه ها محتوای زیادی در رابطه با آیتم ها وجود ندارد و یا محتوا به طور پیوسته در حال تغییر بوده و یا اینکه تحلیل آن برای کامپیوتر مشکل است، مانند نظرها، عقاید و غیره. برتری دیگر CF آن است که چنین سیستمی امکان فراهم کردن پیشنهادات مناسب و بموقع را دارد یعنی می تواند آیتم هایی را که مربوط به کاربر هستند پیشنهاد دهد، بدون آنکه شامل محتوایی از پروفایل کاربر باشد.
- مقیاس پذیری
هنگامی که تعداد کاربران و آیتم ها به طور شگرفی افزایش مییابد، یک سیستم نمونه از سیستم های توصیه گر مبتنی بر وب که در حال اجرا بر روی الگوریتم موجود است، به شدت درگیر مشکل مقیاس پذیری خواهد بود. بنابراین، نیاز به راهکاری جدید بوجود می آید تا بتواند به سرعت، پیش بینی هایی با کیفیت بالا تولید کرده و مشکلاتی با مقیاس وسیع را حل کند. بویژه سیستم های توصیه گر مبتنی بر الگوریتم های نزدیکترین همسایه ، نیاز به انجام محاسبات دارند که با افزایش تعداد کاربران و نیز تعداد آیتم ها افزایش می یابد.
یکی از روش هایی که میتوان استفاده کرد، تکنیک های خوشه بندی هستند. زمانیکه خوشه بندی انجام شود، کارایی کاملاً خوب خواهد بود چرا که اندازه ی خوشه ای که باید تحلیل شود، بسیار کوچکتر است. از این رو، روش مبتنی بر خوشه بندی میتواند مشکلاتی با مقیاس وسیع را در سیستم های توصیه گر حل کند. البته تکنیک های خوشه بندی ممکن است منجربه تولید کم دقت ترین پیش بینی ها در مقایسه با سایر روش ها شوند.
- هم معنایی
هنگامیکه تعدادی آیتم یکسان یا بسیار مشابه با نام های متفاوت وجود دارند، اکثر سیستم های توصیه گر، قادر به تشخیص این ارتباط پنهان نبوده و در نتیجه با این آیتم ها به شیوه های متفاوتی برخورد میکنند. زمانی که نظرات کاربری به طور مداوم در ارتباط با موافقت یا عدم موافقت با هیچ یک از گروه های مردم نیست، نمی تواند از سیستم بهره ای ببرد. به عنوان مثال، عبارت “kids film” و “children film” به ظاهر آیتم های متفاوتی هستند ولی در واقع یکسان هستند و این در حالی است که سیستم های CF مبتنی بر حافظه نمیتوانند آنها را تطبیق دهند، تا تشابه را محاسبه کنند. زمانی که مجموعه ی مترادف ها زیاد باشد، کارایی پیشنهادی که سیستم توصیه گر ارائه میدهد، کاهش پیدا میکند. این حالت ها باعث بوجود آمدن مشکلی میشود که معروف به Gray Sheep و Black Sheep است. کاربران مجموعه ی Gray Sheep همچنین مسئول افزایش نرخ بروز خطا در سیستم های توصیه گرCF هستند که گاهی اوقات منجربه عدم موفقیت سیستم توصیه گر میشوند.
Gray Sheep اشاره به کاربرانی دارد که نظرات آنها همواره موافق یا مخالف هر گروه از افراد نیست، از این رو نمی توانند از تکنیک فیلترینگ مشارکتی بهره مند شوند.
کاربرانی در مجموعه ی Black Sheep قرار میگیرند که یا ارتباطی با دیگر افراد ندارند و یا تعداد افرادی که با آنها در ارتباط هستند بسیار کم است. این شرایط، ارائه ی پیشنهاد به آنها را بسیار مشکل می کند.
روش Latent Semantic Indexing (LSI) که یکی از تکنیک هایSingular Value Decomposition (SVD) است، این توانایی را دارد که با مشکلات هممعنایی مقابله کند. ماتریس بزرگی از داده ی ارتباط واژه-سند (term-document association data) توسط SVD دریافت شده و فضای معنایی (semantic space) ایجاد میشود در حالیکه واژه ها و اسنادی که ارتباط تنگاتنگی دارند، در برابر هم قرار می گیرند. آرایش این فضا می تواند توسط SVD صورت پذیرد که در اینصورت کاربران و آیتم هایی را که چشم گیرترین ارتباط را دارند، نشان خواهد داد. همچنین از آیتم ها و کاربران کوچکتر و یا کم اهمیت تر صرفنظر خواهد کرد. کارایی روش LSI در مقابله با مشکل هم معنایی ، عالی است.
- الگوریتم ها
الگوریتم های پیشنهادی معمولاً تنها بر روی اطلاعات کاربرو ویژگی های گروه مثل سابقه ی گردش او در بین لینک ها در اینترنت تکیه میکنند و اطلاعات اضافی مثل ویژگی های محتوای آیتم ها، که ممکن است منبع با ارزشی از اطلاعات تکمیلی در رابطه با فعالیت های کاربر باشند، معمولاً در نظر گرفته نمیشود. با در نظر گرفتن اطلاعات محتوایی با گردشهای کاربر در وب یا رفتار امتیازدهی او، ممکن است بتوان به درک عمیق تری از علایق پنهان ولی مهم وی دست یافت.
تکنیک های WUM متنوعی در طراحی سیستم های توصیه گر مورد استفاده قرار گرفته اند که برای داشتن عملکردی خوب بر روی وب سایت هایی طراحی شده اند که ساختار پیچیده ای ندارند. اما آزمایش ها بر روی وب سایت هایی با اتصال های زیاد و پیچیده نشان میدهند که فضای ذخیره سازی و ملزومات زمان اجرا در چنین تکنیک هایی به دلیل تعداد زیاد الگوها برای الگوی زنجیروار و قواعد ارتباطات، افزایش می یابد و در نهایت منجربه تعداد حالت های بیشتری در مدل مارکف میگردد. این امکان وجود دارد که با فعالسازی پیش بینی آنلاین سریعتر، فضای قواعد را کاهش داد.
تمام سیستم های توصیه گر مبتنی بر تکنیک های WUM نقاط قوت و ضعف مخصوص به خود را دارند. نتایج آزمایشاتیِ مطالعات قبلی نشان میدهد که استفاده از یک مدل پیشنهاددهنده به عنوان ماژولی از سیستم توصیه گرترکیبی، که در مقایسه با دیگر ماژول های مدل ترکیبی دقت و صحت کمتری دارد، میزان درستی پیشنهاد نهایی را کاهش می دهد. از این رو، نیاز به راهکارهای ترکیبی مطرح شد که مزیتهای الگوریتم های چندگانه را با هم داشته باشند.
البته اکثریت سیستم های توصیه گر ترکیبی بین این دو مورد سوئیچ می کنند: الگوریتم های پیشنهادی که مستقل عمل می کنند و ادغام چند الگوریتم در قالب یک الگوریتم. در سال های اخیر، علاقه ای روز افزون در حوزه ی اعمال تکنیک های کاوش محتوای وب، برای ساخت سیستم های توصیه گر بوجود آمده است. البته این تکنیک ها در کنترل وب سایت هایی که به طور پیوسته در حال تغییر هستند – مثل سایت های خبری – و یا صفحات وبی که به طور دینامیک ایجاد شده اند، ناتوان هستند. بنابراین در صورت استفاده از این تکنیک ها در یک مدل پیشنهاد دهنده، بایستی هر چند وقت یکبار مدل را به روز کرد.
- کمبود داده
احتمالاًٌ مهمترین چالش در برخورد با سیستم های توصیه گر وب، نیاز آنها به میزان بالایی از داده ها برای ارائه ی مؤثر پیشنهادها است. شرکت هایی همچون Google، Amazon، Netflix و Last.fm به این دلیل شناخته شده هستند که پیشنهادهای بی نقصی بر مبنای اطلاعات زیاد از کاربر و مشتری ارائه می دهند. داشتن اطلاعات زیاد درباره ی آیتم ها و کاربران، این قابلیت را به سیستم های توصیه گر میدهد که شانس بیشتری برای ارائه ی پیشنهادهای خوب داشته باشد. بنابراین، یک سیستم توصیه گر مؤثر و کارا، باید داده های زیادی برای ارائه ی پیشنهاد داشته باشد. این داده نه تنها از طریق داده ی کاربرد وب بدست می آید، بلکه می تواند از داده ی محتوای وب و داده ی ساختار وب نیز حاصل گردد. پس از آن باید الگوهای گردش کاربر در اینترنت را گرفته و تحلیل کند.
جدول زیر خلاصه ای از چالش های گوناگونی که پیش روی سیستم های توصیه گر است، به همراه راه حلی برای هر یک از آنها که در بالا اشاره شد، نشان می دهد.
|
مشکل |
تعریف |
راه حل |
|
پراکندگی |
- عدم امتیازدهیِ اغلب آیتم ها توسط کابران - کمبود سابقه ی کافی از تراکنشها برای قضاوت کردن در مورد شباهت های قابل اعتماد در میان کاربران |
- راهکار کاهش ابعاد برای کاربران یا آیتم های کم اهمیت - خلاصه کردن ماتریس امتیازدهی کاربر - استفاده از اطلاعات اضافی دامنه - فرضیه سازی درباره ی فرآیند تولید داده برای imputation با کیفیت بالا |
|
شروع سرد |
- مشکل ارائه ی پیشنهاد جدید به کاربران در مورد آیتمی که از قبل امتیازدهی نشده است (شروع سرد آیتم ها) - مشکل ارائه ی پیشنهاد به کاربرانی که قبلاً به تعداد کافی به آیتم ها رأی نداده اند (شروع سرد کاربران) |
- استفاده از اطلاعات شبکه های اجتماعی برای حل معضل موجود در مشکل شروع سرد - استفاده از تکنیک های سنتی از یادگیری فعال |
|
کلاهبرداری |
- استفاده از سیستمهای توصیه گر توسط فروشندگان حیله گر برای بزرگ جلوه دادن میزان اشتیاق به محصولاتشان |
- اعمال collaborative filtering به حملات counter shilling (push attacks و nuke attacks) |
|
مقیاس پذیری |
- تعداد انبوه کاربران و آیتم ها |
- استفاده از تکنیک های خوشه بندی |
|
هم معنایی |
- گرایش به داشتن نام های مختلف در آیتم های یکسان یا مشابه - برخورد متفاوت سیستم توصیه گر با این آیتم ها- Gray Sheep و [۱]Black Sheep |
- روش Latent Semantic Indexing (LSI) از تکنیکهای Singular Value Decomposition (SVD) |
|
الگوریتم ها |
- تعداد زیاد الگوهای کشف شده از طریق الگوریتم های کاوش ترتیبی الگوها و کاوش قواعد انجمنی - عملکرد ضعیف الگوریتم ها در وب سایت هایی با ارتباطات درونی زیاد و پیچیده (بالا رفتن فضای ذخیرهسازی و زمان اجرا) - کاهش صحت توصیه گر ترکیبی به دلیل اعمال شیوه ی بی دقت - کمبود توانایی در کنترل وب سایت های تغییر کننده به طور مستمر در سیستم های توصیه گر مبتنی بر کاوش محتوای وب |
- کاهش فضای قواعد - استفاده ی مناسب از روش های دقیق برای ساختن سیستم های توصیه گر ترکیبی - به روز کردن مدل به صورت مکرر در مدل های مبتنی بر محتوا |
|
کمبود داده |
- نیاز به داده های فراوان برای ارائه ی مؤثرتر پیشنهادها |
- استفاده از داده های متفاوت در وب مانند داده ی کاربرد وب، داده ی محتوای وب و داده ی ساختار وب |
متشکرم-بسیار مفید بود.
سلام
من برای پایان نامه ارشدم از مطالب شما خیلی استفاده بردم
امیدوارم موفق و پیروز باشید
سلام زنده باشید
امیدوارم در رشد بیشتر سایت شما هم سهیم باشید
سلام
مطلبتون بسیار آموزنده بود.
میشه از دلایلی که یک کاربر گوسفند خاکستری امکان داره در سیستم توصیه گر بوجود بیاد بگید؟
همچنین روشهای شناسایی این کاربرا؟
ممنون میشم.
من قبلا در خصوص گوسفند خاکستری در سایت اجمالا صحبت هایی کردم
اختصارا منظور ازش همون افرادی با رفتار نویز گونه هستند که بجای پیش بینی صحیح کارمون باعث اشتباه در پیش بینی میشه
روش های پیش پردازشی که برای بالا بردن صحت پیش بینی قبلا در سایت ذکر شده برخیهاش می تونه اثر این گوسفندان رو از بین ببره
سلام ، وقت به خیر
یک راهنمایی از شما می خواستم در زمینه کار تحقیقاتی ارشد تجارت الکترونیکی
به نظر شما کدامیک از زمینه های : سیستم های توصیه گر ، هوش تجاری ، CRM و ... برای کار بهتر است و ارزش وقت گذاشتن دارد.
ممنون از راهنمایی و لطف شما
سلام
ببینید من تقریبا همه این مواردی که شما گفتید رو درک و مطالعه کردم و برخی هاش رو سالها کار کردم
فردی در شرکت ما هست که داره دکتری هوش تجاری میگیره ولی برنامه نویس جاواست.
فردی مثل من در همون شرکت سیستم های توصیه گر رو بلعیدم اما هوش تجاری کار میکنم
واقعا بستگی به خود شما داره
سی آر ام هم اونچیزی که من ازش میدونم همش بیزینس و برنامه نویسیه و چیز خاصی نداره که جز گزینه ها بیاد
ولی اگر من بودم حتما اول هوش تجاری رو انتخاب میکردم
ولی این رو بدونید که کار براش یک دهم برنامه نویسی هم نیست
سلام ،وقت به خیر
ممنون از مطالب ارزنده شما
در مورد پیداکردن مقاله Base خوب در زمینه سیستم های توصیه گر و وب معنایی و آنتولوژی راهنمایی می خواستم .
همچنین دیتاست Yahoo!Movies را اگر محبت کنید ممنون میشم .
سپاس فراوان از لطف شما
با سلام
اگرتصمیم قطعی خودتون رو در خصوص انتولوژی و وب معنایی گرفته اید که هیچ، اما اگر نگرفتید باید بگم این حوزه وب معنایی و مدلسازی معنایی ابجکت ها با ریاضیات زیادی امیختس و اگر قدرت استدلال و ریاضیات شما قوی هست وارد بشید وگرنه ورود نکنید
در خصوص مقاله پایه احتمالا در سایت صحبت هایی کرده ام اما اگر چیز بدرد بخوری پیدا نکردید بفرمایید تا بیشتر صحبت کنم.
در خصوص انتخاب موضوع پایان نامه هم صحبت های زیادی کردم. در سایت جستجو کنید
سلام ،وقت به خیر
ممنون از مطالب ارزنده شما
اگر مطالبی راجع به wordnet و Movieontology دارید ممنون میشم راهنمایی بفرمایید.
سپاس فراوان از لطف شما
سلام زنده باشید
قبلا در خصوص وردنت صحبت هایی کردم و محصولاتی هم در فروشگاه از اون موجوده
پیشنهاد میکنم در سایت جستجو کنید
سلام علیکم من یک آماتور در زمینه پشتیبانی از صفحات مجازیم میخواستم راهنماییم کنید ۱برای یافتن لغات مناسب چه باید کرد به جز گوگل ترند. چه اصول و استراتژیهایی رو در مدیریت صفحه رعایت کنم.چطور به طور حرفه ای هشتگ گذاری کنم و از اون استفاده کنم. برای من امکانش هست که تحلیلpestرو انجام بدم؟
با سلام و وقت بخیر
این روحیه شما، بزودی شما رو از یک پشتیبان به یک سئو کار ماهر میرسونه. متاسفانه محتوای سایت با سوال شما همخوان نیست. فقط قسمت هشتگ ها مرتبط هست که این رو باید بگم به شما که گوگل از وب معنایی حمایت میکنه و میتونید به کمک سینتکس های وب معنایی به صفحات وبتون معنا بدید و این باعث میشه گوگل به درک بهتری از سایت شما برسه
واقعا مطالب عالی بود و خیلی خیلی بهم کمک کرد برای پایان نامه ... امیدوارم موفق باشید همیشه
با سلام
خوشحالم که مورد توجه شما قرار گرفت. امیدوارم شما هم ما رو با مطالب خوبتون در بهتر شدن علوم مردم کمک کنید
بسیار عالی و مفید بود .