یکی از چالشها در تشخیص دادههای پرت، وجود نویز میباشد. نویز با داده پرت متفاوت است. نویز، خطا (یا واریانس) تصادفی در دادههاست که باید قبل از تشخیص داده پرت حذف شود. اما دادههای پرت، دادههایی هستند که آنقدر اختلاف زیادی با دادههای ما دارند که به نظر میرسد با روش دیگری ساخته شدهاند، برای مثال کشف جرم یا کشف خریدهای مکرر یا گران را میتوان با استفاده از روشهای تشخیص دادههای پرت تشخیص داد. بنابراین تشخیص دادههای پرت از دادههای نویز مهم است.
عملیلت تشخیص نویز، شناسایی داده های پرت و پر کردن مقادیر مفقود شده در مرحله آمادهسازی و پاکسازی دادهها انجام میشود.
انواع دادهها پرت
- دادههای پرت عمومی (global outlier)
نقطهای که نسبت به همه دادهها پرت باشد.
- دادههای پرت مشروط ( contextual outlier)
نقطهای که با توجه به شرایط موجود مسئله پرت محسوب شود. مثلا دمای هوای تهران در یک روز زمستانی، ۴۰ درجه باشد.
- دادههای پرت جمعی (collective outlier)
مجموعهای از دادهها که به تنهایی پرت محسوب نمیشوند اما مجموعه این دادهها برای سیستم موجود پرت محسوب میشوند. مانند intrusion detection.
دستهبندی روشهای تشخیص دادهها پرت
- روشهای یک متغیره یا چند متغیره
به این معنی که در تشخیص دادههای پرت تنها یک متغیر در نظر گرفته شود و بر اساس همان یک متغیر تشخیص صورت گیرد مانند روش z ،روش میانه، نمودار باکس و…. و یا این که تشخیص بر اساس چند متغیر صورت گیرد. از روشهای چند متغیره میتوان به روش رگرسیون چند متغیره، شبکه عصبی، الگوریتم ژنتیک، روشهای مبتنی بر فاصله ماهالانوبیس و آنالیز مولفههای اصلی اشاره کرد.
- روشهای آماری
با استفاده از محاسبه توزیع نرمال دادهها.
- روشهای مبتنی بر مجاورت
مانند روش KNN، مثلا فاصله هر نقطه را با سه تا از نزدیکترین همسایههایش در نظر میگیریم، چنانچه فاصله این نقطه نسبت به همسایههایش خیلی نزدیکتر از فاصله آن نقطه تا دادههای دیگر بود، یعنی آن نقطه یک نقطه پرت است.
- روشهای مبتنی بر چگالی یا تراکم
- روشهای خوشهبندی
در ابتدای کار، دادهها را با تعداد کم خوشهبندی کنیم.
- روشهای مبتنی بر دستهبندی
کارهای انجام شده
در مقاله۱ تکنیکهای مختلف تشخیص دادهها پرت روی قد تعدادی از دانشجویان پزشکی انجام شده است. در روش استانداردسازی z، بر اساس میانگین و انحراف معیار دادههای نمونه عمل میشود به این صورت که دادههای بزرگتر از یک مقدار خاص مثلا (z≥۳) را پرت در نظر بگیریم. در روش استفاده از نمودار جعبهای، مقادیر روی دیواره خارجی نمودار را مشکوک به پرت و مقادیر خارج از دیواره را به عنوان پرت در نظر میگیریم.
در این مقاله از روشهای دیگری نظیر نمودار پراکنش آزمون گراب، نمودار هیستوگرام و چارکها نیز استفاده شده است.
در مقاله۲ از روش کامیانه چند سطحی برای تشخیص نویز و تشخیص دادههای پرت در محیط حسگر بیسیم استفاده کرده است. در این روش بر اساس خوشنامی منبع (نویز کمتر) در همان ابتدا منابع دادهای که نویز زیادی دارد را حذف کرده و آنها را وارد محاسبات خوشهبندی الگوریتم کامیانه نمیکنیم به این ترتیب سربار الگوریتم کم شده و سرعت افزایش یافته است.
در مقاله ۳ برای خوشهبندی دادههای مربوط به زلزله از خوشهبندی بهبود یافته کلونی مورچگان استفاده کرده و ادعا کرده این الگوریتم میتواند دادههای پرت را شناسایی کند.
۱- غلامرضا بابایی، فیروز امانی، اکبر بیگلریان، مریم کشاورز، روش های تعیین داده های پرت در مطالعات پزشکی، مجله دانشکده پزشکی، دانشگاه علوم پزشکی تهران، دوره ۶۵ ، شماره ۷، مهر ۱۳۸۶٫
۲- ارائه یک الگوریتم kmeans چندسطحی جهت کاهش اثرات نویز در محیط های مستعد خطا با استفاده از خوش نامی منابع، Zahra Taghikhaki, Behrouz Minaei, Alireza Masoum،دانشگاه امیرکبیر، ۲۰۰۸٫
۳- بهروز مینائی، محمد فتحیان، احمدرضا جعفریان مقدم و مهدی نصیری، استفاده از تکنیک خوشهبندی سیستم کلونی مورچگان بهبودیافته با هدف خوشه بندى دادههای زلزله ایران، نشریه تخصصی مهندسی صنایع، دوره ۴۵ ، شماره ۲، مهر ماه ۱۳۹۰ ، از صفحه ۲۲۱ تا ۲۲۷ (یادداشت فنی).
سلام..در مورد روش مبتنی برچکالی و معیار ارزیابی ان لطفا توضیح دهید
سلام
قبلا در اینجا در خصوص این الگوریتم ها صحبت هایی کردم ببینید کافیه؟
سلام. من یک سری داده مربوط به 21 عیب از یک فرآیند معیار داشتم و برای کلاسبندی آن عیوب ، ابتدا با الگوریتم فازی c mean اونها رو خوشه بندی کردم و سپس با الگوریتم فازی knn کلاسبندی کردم. الان کدم با هر ران یک گروه بندی متفاوت با ران های دیگه میده.دلیلش رو میخاستم ببینم بنظر شما چی میتونه باشه.ممنون
سلام و درود
ببینید خاصیت کامیانه در ابتدا داشتن مراکز رندم هست و چون در هر بار اجرا دوباره خوشه بندی می کنید پس قطعا خروجی های شما تغییر می کنه. البته برخی از کدها هست که میاد آپتیمایز می کنه و بهترین مرکز خوشه رو به شما می ده
سلام
ببخشید من ترم یک ارشدم ومیخوام بعد از نرمال سازی نویز ها روپیدا کنم وحذف کنم
بلد نیستم.میشه کمکم کنید.
باسپاس
سلام
ببینید یا باید دست به کد شید الگوریتمش رو پیاده سازی کنید یا باید از نرم افزارهایی مثل رپیدماینر استفاده کنید که بسیار محبوبن
این نرم افزارها کلی فیلتر دارن برای کار با نویز و حذف اون
صحبت در خصوص فیلتر های رپید نیاز به یه پست جداگانه داره ولی در یک کلام کوتاه کافیه در باکس فیلترهای هر نرم افزار داده کاوی سرچ کنید نویز
سلام روزتون بخیر
درمورد فاصله ماهالانوبیس اطلاعاتی میخواستم .که چی هست و تعریفش اینا
من قبلا در خصوص گوسفند خاکستری در سایت اجمالا صحبت هایی کردم
اختصارا منظور ازش همون افرادی با رفتار نویز گونه هستند که بجای پیش بینی صحیح کارمون باعث اشتباه در پیش بینی میشه
روش های پیش پردازشی که برای بالا بردن صحت پیش بینی قبلا در سایت ذکر شده برخیهاش می تونه اثر این گوسفندان رو از بین ببره