دیتاماینینگ یار

داده های پرت و داده های نویز. آیا این دو متفاوت اند؟

یکی از چالش‌ها در تشخیص داده‌های پرت، وجود نویز می‌باشد. نویز با داده پرت متفاوت است. نویز، خطا (یا واریانس) تصادفی در داده‌هاست که باید قبل از تشخیص داده پرت حذف شود. اما داده‌های پرت، داده‌هایی هستند که آن‌قدر اختلاف زیادی با داده‌های ما دارند که به نظر می‌رسد با روش دیگری ساخته شده‌اند، برای مثال کشف جرم یا کشف خریدهای مکرر یا گران را می‌توان با استفاده از روش‌های تشخیص داده‌های پرت تشخیص داد. بنابراین تشخیص داده‌های پرت از داده‌های نویز مهم است.

عملیلت تشخیص نویز، شناسایی داده های پرت و پر کردن مقادیر مفقود شده در مرحله آماده‌سازی و پاک‌سازی داده‌ها انجام می‌‌شود.

انواع داده‌ها پرت

نقطه‌ای که نسبت به همه داده‌ها پرت باشد.

 نقطه‌ای که با توجه به شرایط موجود مسئله پرت محسوب شود. مثلا دمای هوای تهران در یک روز زمستانی، ۴۰ درجه باشد.

مجموعه‌ای از داده‌ها که به تنهایی پرت محسوب نمی‌شوند اما مجموعه این داده‌ها برای سیستم موجود پرت محسوب می‌شوند. مانند intrusion detection.

دسته‌بندی روش‌های تشخیص داده‌ها پرت

 به این معنی که در تشخیص داده‌های پرت تنها یک متغیر در نظر گرفته شود و بر اساس همان یک متغیر تشخیص صورت گیرد مانند روش‌ z ،روش میانه، نمودار باکس و…. و یا این‌ که تشخیص بر اساس چند متغیر صورت گیرد. از روش‌های چند متغیره می‌توان به روش رگرسیون چند متغیره، شبکه عصبی، الگوریتم ژنتیک، روش‌های مبتنی بر فاصله ماهالانوبیس و آنالیز مولفه‌های اصلی اشاره کرد.

 با استفاده از محاسبه توزیع نرمال داده‌ها.

 مانند روش KNN، مثلا فاصله هر نقطه را با سه تا از نزدیک‌ترین همسایه‌هایش در نظر می‌گیریم، چنان‌چه فاصله این نقطه نسبت به همسایه‌هایش خیلی نزدیک‌تر از فاصله آن نقطه تا داده‌های دیگر بود، یعنی آن نقطه یک نقطه پرت است.

در ابتدای کار، داده‌ها را با تعداد کم خوشه‌‌بندی کنیم.

کارهای انجام شده

در مقاله۱ تکنیک‌های مختلف تشخیص داده‌ها پرت روی قد تعدادی از دانشجویان پزشکی انجام شده است. در روش استاندارد‌سازی z، بر اساس میانگین و انحراف معیار داده‌های نمونه عمل می‌شود به این صورت که داده‌های بزرگتر از یک مقدار خاص مثلا (z≥۳) را پرت در نظر بگیریم. در روش استفاده از نمودار جعبه‌ای، مقادیر روی دیواره خارجی نمودار را مشکوک به پرت و مقادیر خارج از دیواره را به عنوان پرت در نظر می‌گیریم.

در این مقاله از روش‌های دیگری نظیر نمودار پراکنش آزمون گراب، نمودار هیستوگرام و چارک‌ها نیز استفاده شده است.

در مقاله۲ از روش کامیانه چند سطحی برای تشخیص نویز و تشخیص داده‌های پرت در محیط حسگر بیسیم استفاده کرده است. در این روش بر اساس خوش‌نامی منبع (نویز کمتر) در همان ابتدا منابع داده‌ای که نویز زیادی دارد را حذف کرده و آن‌ها را وارد محاسبات خوشه‌بندی الگوریتم کامیانه نمی‌کنیم به این ترتیب سربار الگوریتم کم شده و سرعت افزایش یافته است.

در مقاله ۳ برای خوشه‌بندی داده‌های مربوط به زلزله از خوشه‌بندی بهبود یافته کلونی مورچگان استفاده کرده و ادعا کرده این الگوریتم می‌تواند داده‌های پرت را شناسایی کند.‌

۱- غلامرضا بابایی، فیروز امانی، اکبر بیگلریان، مریم کشاورز، روش های تعیین داده های پرت در مطالعات پزشکی، مجله دانشکده پزشکی، دانشگاه علوم پزشکی تهران، دوره ۶۵ ، شماره ۷، مهر ۱۳۸۶٫

۲- ارائه یک الگوریتم kmeans چندسطحی جهت کاهش اثرات نویز در محیط های مستعد خطا با استفاده از خوش نامی منابع، Zahra Taghikhaki, Behrouz Minaei, Alireza Masoum،دانشگاه امیرکبیر، ۲۰۰۸٫

۳- بهروز مینائی، محمد فتحیان، احمدرضا جعفریان مقدم و مهدی نصیری، استفاده از تکنیک خوشهبندی سیستم کلونی مورچگان بهبودیافته با هدف خوشه بندى دادههای زلزله ایران، نشریه تخصصی مهندسی صنایع، دوره ۴۵ ، شماره ۲، مهر ماه ۱۳۹۰ ، از صفحه ۲۲۱ تا ۲۲۷ (یادداشت فنی).

ارتباط و مشاوره با شما ۰۹۳۶۷۹۳۸۰۱۸ در واتس اپ

دیدگاه‌ها (8)

*
*


پاسخ من را به ایمیلم ارسال کن

    ارسین مهمان 9 آذر 1396 پاسخ

    سلام..در مورد روش مبتنی برچکالی و معیار ارزیابی ان لطفا توضیح دهید

      مهدي مقيمي مدیر کل 11 آذر 1396 پاسخ

      سلام
      قبلا در اینجا در خصوص این الگوریتم ها صحبت هایی کردم ببینید کافیه؟

    سارا مهمان 1 دی 1396 پاسخ

    سلام. من یک سری داده مربوط به 21 عیب از یک فرآیند معیار داشتم و برای کلاسبندی آن عیوب ، ابتدا با الگوریتم فازی c mean اونها رو خوشه بندی کردم و سپس با الگوریتم فازی knn کلاسبندی کردم. الان کدم با هر ران یک گروه بندی متفاوت با ران های دیگه میده.دلیلش رو میخاستم ببینم بنظر شما چی میتونه باشه.ممنون

      مهدي مقيمي مدیر کل 4 دی 1396 پاسخ

      سلام و درود
      ببینید خاصیت کامیانه در ابتدا داشتن مراکز رندم هست و چون در هر بار اجرا دوباره خوشه بندی می کنید پس قطعا خروجی های شما تغییر می کنه. البته برخی از کدها هست که میاد آپتیمایز می کنه و بهترین مرکز خوشه رو به شما می ده

    قربانی مهمان 17 دی 1396 پاسخ

    سلام
    ببخشید من ترم یک ارشدم ومیخوام بعد از نرمال سازی نویز ها روپیدا کنم وحذف کنم
    بلد نیستم.میشه کمکم کنید.
    باسپاس

      مهدي مقيمي مدیر کل 1 بهمن 1396 پاسخ

      سلام
      ببینید یا باید دست به کد شید الگوریتمش رو پیاده سازی کنید یا باید از نرم افزارهایی مثل رپیدماینر استفاده کنید که بسیار محبوبن
      این نرم افزارها کلی فیلتر دارن برای کار با نویز و حذف اون
      صحبت در خصوص فیلتر های رپید نیاز به یه پست جداگانه داره ولی در یک کلام کوتاه کافیه در باکس فیلترهای هر نرم افزار داده کاوی سرچ کنید نویز

    z.m مهمان 25 دی 1396 پاسخ

    سلام روزتون بخیر
    درمورد فاصله ماهالانوبیس اطلاعاتی میخواستم .که چی هست و تعریفش اینا

      مهدي مقيمي مدیر کل 1 بهمن 1396 پاسخ

      من قبلا در خصوص گوسفند خاکستری در سایت اجمالا صحبت هایی کردم
      اختصارا منظور ازش همون افرادی با رفتار نویز گونه هستند که بجای پیش بینی صحیح کارمون باعث اشتباه در پیش بینی میشه
      روش های پیش پردازشی که برای بالا بردن صحت پیش بینی قبلا در سایت ذکر شده برخیهاش می تونه اثر این گوسفندان رو از بین ببره

error: با عرض پوزش؛ لطفا از مطالعه مطالب لذت ببرید.