محتوای محصول:

خوشه بندی بهینه شده هر آبجکتی در رکوردهای بسیار زیاد به کمک خوشه بندی کامیانه بهینه شده

ورودی نرم افزار:

یک فایل متنی  که هر سطر آن حاوی یک یا بیش از یک آبجکت متنی باشد. چیزی شبیه به عکس زیر :

سرعت نرم افزار:

بسیار سریع . برای بیش از صد هزار آبجکت که بیش از دو عدد ابجکت در هر سطر داشته باشد حداکثر یک ربع زمان می برد.

خروجی نرم افزار:

بر اساس تعداد خوشه ای که کاربر وارد می کند فایل های متنی به عنوان خروجی به کاربر نمایش داده می شود.

محیط نرم افزار:

محیط ساده نرم افزار در شکل زیر قابل مشاهده می باشد.

نرم افزار VS2013 می باشد.

دلیل استفاده نکردن از نرم افزار هایی مانند متلب، وکا، رپیدماینر و … :

این نرم افزار ها در این مقیاس(مقیاس بسیار بزرگ) توانایی خوشه بندی و دادن خروجی خوشه راندارند. وجود یک ماتریس ۲۰۰۰ در ۲۰۰۰۰۰ سلولی در متلب کار ساده ای نیست.

دیدگاه‌ها (6)

3 دیدگاه برای خوشه بندی بهینه شده کامیانه

  1. سارا عباسي

    سلام
    در مورد فرمول خوشه بندی کامیانه سوال داشتم
    فرمول درواقع j یعنی تعداد خوشه های جدید رو محاسبه میکنه، Xi یعنی i امین عضو هرخوشه، بنابراین تعداد اعضای همه خوشه ها باید برابر باشند؟ ولی در عمل تعداد اعضای خوشه ها متفاوته؟ یا من اشتباه گرفتم مطلبو؟ ممنون میشم توضیح بدین

    • مهدي مقيمي

      نه فرمول رو اشتباه متوجه شدید. فرمولی که مد نظر شماست برای محاسبه خطای بین هر نشست با مراکز تمام خوشه ها است. فرمول های زیادی در این باب وجود داره . خوبه به مقاله من مراجعه کنید.

  2. سارا عباسي

    سلام
    چگونه نشست ها رو به بردار اعداد تبدیل میکنیم؟
    اینکه هرکاربر به هر صفحه چندبار مراجعه داشته؟ یعنی هر نشست آرایه ای از چند عدد میشه مختص یک کاربر؟ و کلا صفحات وب حذف میشن؟
    و تفاضل هایی که برای کلمه های نشست محاسبه میشن درواقع واسه اعدادشون محاسبه میشه
    و اکثر این اعداد باید یک یا دو باشن نه؟

    نشست ها خوشه بندی میشن نه کاربران؟ هر خوشه شامل نشست هایی با چه خصوصیاتی میشه؟ یعنی برچه اساس خوشه بندی میشن نشست ها؟ تعداد مراجعه کاربر به سایت؟

    • مهدي مقيمي

      سلام
      ببینید همه مقالات دنبال یک روش برای خوشه بندی داده هاشون بودن. برای اینکه راحت تر این کار رو انجام بدن روی آوردن به کار با اعداد بجای کار با استرینگ ها. حالا یکی از روش هایی که افراد برای خوشه بندی بکار بردن در مقالات همین تبدیل نشست ها به بردار های عددی. وقتی شما عدد داشته باشید راحت می تونید به کمک روش های ریاضیاتی روی اون کار کنید.
      اما منظور از بردارسازی : فرض کنید داریم :
      User1 : a,b,c,d
      ,user2:a,c,d,e,f
      حالا بردار این دو تا کاربر برای صفحات یکتای سایت یعنی a,b,c,d,e,f می شه
      ۱,۱,۱,۱,۰,۰
      ۱,۰,۱,۱,۱,۱
      حالا راحت با این بردار ها می شه کار کرد
      کلمات کلیدی: بردارسازی؛ بردار سازی، وکتورایزیشن

      بله هدف اینه در بردار سازی که مشخص کنیم به هر صفحه از سایت هر کاربر چند بار دسترسی داشته اگر من دو بار کلیک کرده باشم باید ۲ بزارم جای اون صفحه. اندازه هر نشست می شه به اندازه تعداد صفحات یکتای سایت.
      بله صفحات وب حذف می شن و بجاش با اعداد کار داریم.
      در جواب سوالتون “نشست ها خوشه بندی میشن نه کاربران؟” باید گفت کاربران به کمک نشست ها خوشه بندی می شن. یعنی شما دو کاربر رو ورودی سیمیلاریتی می دید و یه خروجی به شما می ده برای همه کاربران.
      هر خوشه شامل نشست هایی با فقط یک خصوصیت می شن اونهم فقط خود نام صفحه است. اما در برخی از کارهایی که در سایت انجام شده ما علاوه بر این خصوصیت زمان ماندن کاربر، علاقمندی به هر صفحه و … رو داریم که قبلا در پست هایی در خصوصش صحبت هایی شده است
      حالا شما می تونید برای افزایش دقت کارتون پارامتر هایی به آن اضافه کنید.

  3. PJ (مالک تایید شده)

    سلام ببخشید من دوباره مزاحم شدم
    خروجی که توی سشن فایل هست توی هر خط صفحاتیه که در هر نشست توسط یک کاربرخاص ویزیت شده

    و اوطرف اینترست وکتور هم هرخط بیانگر میزان علاقه و همون میانگین هارمونیک فرکانس و مدت برای هر صفحه که ویزیت کرده هستش… درسته؟؟؟؟

    حالا سوال دوم وقتی میخوایم خوشه بندی کنیم توی اون اپ فقط یک ورودی داریم
    یعنی سشن هارو باس جدا خوشه کنیم ؟
    اینترست هارو هم جدا؟؟
    اینجوری که معلوم نمیشه کدوم صفحه چقدر دیده شده

    فقط سشن هایی که مشابه همن باهم خوشه میشن
    چیزی از اینترستشون لازم نیس؟
    یا اونارو هم یه نوبت جدا باس خوشه کنیم؟؟

    من هیچ کار دستی لازم نیس بکنم؟
    چون تمام محاسبات رو همین نرم افزار میکنه گفتم شاید لازم باشه منم محاسبات کنم

    • مهدي مقيمي

      با سلام
      برای بخش اول صحبت هاتون درست می فرمایید
      برای سوال دومتون اگر اینطوره باید یه اپلیکیشنی رو تو سایت می خریدید که اسمش اینترست کلاسترینگه تا بر اساس اون خوشه بندی کنه
      سوم اینکه خیر نیازی نیست هیچ کار دستی انجام بدید

دیدگاه خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *


پاسخ من را به ایمیلم ارسال کن