دیتاماینینگ یار

پیش پردازش داده چیست؟

پیش پردازش داده، جزئی از آماده سازی داده ها ، هر نوع پردازشی را توصیف می کند که بر روی داده های خام انجام می شود تا آن را برای فرآیند پردازش داده دیگری آماده کند. این به طور سنتی یک مرحله مقدماتی مهم برای فرآیند داده کاوی بوده است . اخیراً، تکنیک‌های پیش‌پردازش داده‌ها برای آموزش مدل‌های یادگیری ماشین و مدل‌های هوش مصنوعی و برای اجرای استنباط‌ها علیه آن‌ها اقتباس شده‌اند.

پیش پردازش داده ها، داده ها را به قالبی تبدیل می کند که در داده کاوی، یادگیری ماشین و سایر کارهای علم داده پردازش آسان تر و مؤثرتر باشد. این تکنیک‌ها معمولاً در مراحل اولیه یادگیری ماشین و خط لوله توسعه هوش مصنوعی برای اطمینان از نتایج دقیق استفاده می‌شوند.

ابزارها و روش های مختلفی برای پیش پردازش داده ها استفاده می شود، از جمله:

این ابزارها و روش‌ها را می‌توان در انواع منابع داده، از جمله داده‌های ذخیره‌شده در فایل‌ها یا پایگاه‌های داده و جریان داده استفاده کرد.

چرا پیش پردازش داده ها مهم است؟

تقریباً هر نوع تجزیه و تحلیل داده، علم داده یا توسعه هوش مصنوعی به نوعی از پیش پردازش داده نیاز دارد تا نتایج قابل اعتماد، دقیق و قوی برای برنامه های کاربردی سازمانی ارائه دهد.

داده های دنیای واقعی مناسب نیستند و اغلب توسط انسان ها، فرآیندهای تجاری و برنامه های کاربردی مختلف ایجاد، پردازش و ذخیره می شوند. در نتیجه، ممکن است یک مجموعه داده دارای فیلدهای جداگانه نباشد و حاوی خطاهای ورودی دستی باشد، یا داده های تکراری یا نام های متفاوتی برای توصیف یک چیز داشته باشد. انسان ها اغلب می توانند این مشکلات را در داده هایی که در خط کسب و کار استفاده می کنند شناسایی و اصلاح کنند، اما داده هایی که برای آموزش یادگیری ماشین یا الگوریتم های یادگیری عمیق استفاده می شوند نیاز به پیش پردازش خودکار دارند.

آماده سازی داده ها چیست؟ راهنمای عمیق برای آماده سازی داده ها

الگوریتم‌های یادگیری ماشین و یادگیری عمیق زمانی بهترین کار را دارند که داده‌ها در قالبی ارائه شوند که جنبه‌های مرتبط مورد نیاز برای حل یک مشکل را برجسته کند. روش‌های مهندسی ویژگی که شامل جدال داده‌ها، تبدیل داده‌ها ، کاهش داده‌ها، انتخاب ویژگی و مقیاس‌بندی ویژگی است، به بازسازی داده‌های خام به شکلی مناسب برای انواع خاصی از الگوریتم‌ها کمک می‌کند. این می تواند به طور قابل توجهی قدرت پردازش و زمان مورد نیاز برای آموزش یک الگوریتم یادگیری ماشینی جدید یا AI یا اجرای یک استنتاج در برابر آن را کاهش دهد.

یک احتیاط که باید در پیش پردازش داده ها رعایت شود: امکان رمزگذاری مجدد سوگیری در مجموعه داده ها. شناسایی و تصحیح سوگیری برای برنامه‌هایی که به تصمیم‌گیری‌هایی که افراد را تحت تأثیر قرار می‌دهند، مانند تأییدیه‌های وام، بسیار مهم است. اگرچه دانشمندان داده ممکن است عمداً متغیرهایی مانند جنسیت، نژاد یا مذهب را نادیده بگیرند، این ویژگی‌ها ممکن است با متغیرهای دیگری مانند کد پستی یا مدارسی که در آن شرکت کرده‌اند همبستگی داشته باشند و نتایج مغرضانه‌ای ایجاد کنند.

اکثر بسته‌ها و خدمات علوم داده مدرن اکنون شامل کتابخانه‌های پیش‌پردازش مختلفی هستند که به خودکارسازی بسیاری از این وظایف کمک می‌کنند.

مراحل کلیدی در پیش پردازش داده چیست؟

مراحل مورد استفاده در پیش پردازش داده ها شامل موارد زیر است:

پروفایل داده ها فرآیند بررسی، تجزیه و تحلیل و بررسی داده ها برای جمع آوری آمار در مورد کیفیت آن است. با بررسی داده های موجود و ویژگی های آن شروع می شود. دانشمندان داده مجموعه‌های داده‌ای را شناسایی می‌کنند که مربوط به مسئله مورد نظر هستند، ویژگی‌های مهم آن را فهرست‌بندی می‌کنند و فرضیه‌ای از ویژگی‌هایی را تشکیل می‌دهند که ممکن است برای تحلیل پیشنهادی یا کار یادگیری ماشینی مرتبط باشند. آنها همچنین منابع داده را به مفاهیم تجاری  مرتبط می کنند و در نظر می گیرند که کدام کتابخانه های پیش پردازش می توانند مورد استفاده قرار گیرند.

هدف در اینجا یافتن ساده‌ترین راه برای اصلاح مشکلات کیفیت است، مانند حذف داده‌های بد، پر کردن داده‌های از دست رفته یا اطمینان از مناسب بودن داده‌های خام برای مهندسی ویژگی‌ها.

مجموعه داده‌های خام اغلب شامل داده‌های اضافی می‌شوند که از توصیف پدیده‌ها به روش‌های مختلف یا داده‌هایی که به یک کار خاص ML، AI یا تجزیه و تحلیل مرتبط نیستند، ناشی می‌شوند. کاهش داده ها از تکنیک هایی مانند تجزیه و تحلیل مؤلفه های اصلی برای تبدیل داده های خام به شکل ساده تر مناسب برای موارد استفاده خاص استفاده می کند.

در اینجا، دانشمندان داده به این فکر می‌کنند که چگونه جنبه‌های مختلف داده‌ها باید سازماندهی شوند تا بیشترین معنا را برای هدف داشته باشند. این می‌تواند شامل مواردی مانند ساختار دادن به داده‌های بدون ساختار ، ترکیب متغیرهای برجسته در مواقعی که منطقی است یا شناسایی محدوده‌های مهمی که باید روی آنها تمرکز کرد، باشد.

در این مرحله، دانشمندان داده، کتابخانه‌های مهندسی ویژگی‌های مختلف را روی داده‌ها اعمال می‌کنند تا تبدیل‌های مورد نظر را اعمال کنند. نتیجه باید مجموعه داده ای باشد که برای دستیابی به تعادل بهینه بین زمان آموزش برای یک مدل جدید و محاسبات مورد نیاز سازماندهی شده است.

در این مرحله , داده ها , به دو مجموعه تقسیم می شوند. اولین مجموعه برای آموزش یک مدل یادگیری ماشینی یا یادگیری عمیق استفاده می شود. مجموعه دوم داده های آزمایشی است که برای سنجش دقت و استحکام مدل به دست آمده استفاده می شود. این مرحله دوم به شناسایی هرگونه مشکل در فرضیه استفاده شده در تمیز کردن و مهندسی ویژگی داده ها کمک می کند. اگر دانشمندان داده از نتایج راضی باشند، می توانند وظیفه پیش پردازش را به یک مهندس داده سوق دهند که چگونگی مقیاس بندی آن را برای تولید بیابد. در غیر این صورت، دانشمندان داده می‌توانند به عقب برگردند و تغییراتی در نحوه اجرای مراحل پاکسازی داده‌ها و مهندسی ویژگی‌ها ایجاد کنند.

پیش پردازش داده ها معمولاً شامل این مراحل است.

تکنیک های پیش پردازش داده ها (Data preprocessing techniques )

دو دسته اصلی پیش پردازش وجود دارد – پاکسازی داده ها و مهندسی ویژگی. هر کدام شامل تکنیک های متنوعی است که در زیر توضیح داده شده است.

پاک کردن داده (Data cleansing)

تکنیک های پاکسازی داده های نامرتب شامل موارد زیر است:

 دلایل مختلفی وجود دارد که یک مجموعه داده ممکن است فیلدهای جداگانه داده را از دست بدهد. دانشمندان داده باید تصمیم بگیرند که آیا بهتر است رکوردهای دارای فیلدهای گمشده را کنار بگذارند، آنها را نادیده بگیرند یا آنها را با مقدار احتمالی پر کنند. به عنوان مثال، در یک برنامه IoT که دما را ثبت می‌کند، اضافه کردن یک میانگین دمای از دست رفته بین رکورد قبلی و بعدی ممکن است راه حل مطمئنی باشد.

داده های دنیای واقعی اغلب پر سر و صدا هستند که می تواند مدل تحلیلی یا هوش مصنوعی را مخدوش کند. به عنوان مثال، یک سنسور دما که به طور مداوم دمای ۷۵ درجه فارنهایت را گزارش می کند ممکن است به اشتباه دما را ۲۵۰ درجه گزارش کند. انواع روش های آماری را می توان برای کاهش نویز استفاده کرد، از جمله binning، رگرسیون و خوشه بندی.

هنگامی که به نظر می رسد دو رکورد تکرار می شوند، یک الگوریتم باید تعیین کند که آیا اندازه گیری یکسان دو بار ثبت شده است یا اینکه رکوردها نشان دهنده رویدادهای مختلف هستند. در برخی موارد، ممکن است تفاوت های جزئی در یک رکورد وجود داشته باشد زیرا یک فیلد به اشتباه ثبت شده است. در موارد دیگر، سوابقی که به نظر تکراری هستند ممکن است واقعاً متفاوت باشند، مانند پدر و پسری با نام مشابه که در یک خانه زندگی می کنند اما باید به عنوان افراد جداگانه نشان داده شوند. تکنیک‌های شناسایی و حذف یا پیوستن موارد تکراری می‌تواند به رفع خودکار این نوع مشکلات کمک کند.

مهندسی ویژگی (Feature engineering)

همانطور که اشاره شد، مهندسی ویژگی شامل تکنیک‌هایی است که توسط دانشمندان داده برای سازمان‌دهی داده‌ها به روش‌هایی که آموزش مدل‌های داده و استنتاج‌ها را بر اساس آن‌ها کارآمدتر می‌کند، استفاده می‌کند . این تکنیک ها شامل موارد زیر است:

اغلب، چندین متغیر در مقیاس‌های مختلف تغییر می‌کنند، یا یکی به صورت خطی تغییر می‌کند در حالی که متغیر دیگر به صورت تصاعدی تغییر می‌کند. به عنوان مثال، حقوق ممکن است با هزاران دلار اندازه گیری شود، در حالی که سن به صورت دو رقمی نشان داده می شود. مقیاس‌بندی به تغییر شکل داده‌ها کمک می‌کند تا الگوریتم‌ها بتوانند رابطه معنادار بین متغیرها را از هم جدا کنند.

دانشمندان داده اغلب نیاز به ترکیب انواع منابع داده برای ایجاد یک مدل هوش مصنوعی یا تحلیلی جدید دارند . برخی از متغیرها ممکن است با یک نتیجه مشخص همبستگی نداشته باشند و با خیال راحت کنار گذاشته شوند. سایر متغیرها ممکن است مرتبط باشند، اما فقط از نظر رابطه – مانند نسبت بدهی به اعتبار در مورد مدلی که احتمال بازپرداخت وام را پیش‌بینی می‌کند. آنها ممکن است در یک متغیر واحد ترکیب شوند. تکنیک‌هایی مانند تحلیل مؤلفه‌های اصلی نقش کلیدی در کاهش تعداد ابعاد در مجموعه داده‌های آموزشی به نمایش کارآمدتر دارند.

اغلب مفید است که اعداد خام را به فواصل مجزا تقسیم کنید. به عنوان مثال، درآمد ممکن است به پنج محدوده تقسیم شود که معرف افرادی است که معمولاً برای نوع خاصی از وام درخواست می کنند. این می‌تواند هزینه‌های سربار آموزش یک مدل یا اجرای استنباط‌ها در برابر آن را کاهش دهد.

رمزگذاری ویژگی یکی دیگر از جنبه های مهندسی ویژگی شامل سازماندهی داده های بدون ساختار در قالبی ساخت یافته است. فرمت های داده بدون ساختار می تواند شامل متن، صدا و تصویر باشد. برای مثال، فرآیند توسعه الگوریتم‌های پردازش زبان طبیعی معمولاً با استفاده از الگوریتم‌های تبدیل داده مانند Word2vec برای ترجمه کلمات به بردارهای عددی آغاز می‌شود. این باعث می‌شود که به الگوریتم نشان دهیم که کلماتی مانند “پست” و “پست” مشابه هستند، در حالی که کلمه ای مانند “خانه” کاملاً متفاوت است. به طور مشابه، یک الگوریتم تشخیص چهره ممکن است داده های پیکسل خام را در بردارهایی که فاصله بین قسمت های صورت را نشان می دهد، رمزگذاری مجدد کند.

ین مسائل روند آماده سازی داده ها را برای برنامه های کاربردی BI و تجزیه و تحلیل پیچیده می کند.

چگونه از پیش پردازش داده ها استفاده می شود؟

همانطور که قبلا ذکر شد، پیش پردازش داده ها نقش کلیدی در مراحل اولیه یادگیری ماشین و توسعه برنامه کاربردی هوش مصنوعی ایفا می کند. در زمینه هوش مصنوعی ، پیش پردازش داده ها برای بهبود روش پاکسازی، تبدیل و ساختار داده ها برای بهبود دقت یک مدل جدید، در حالی که میزان محاسبه مورد نیاز را کاهش می دهد، استفاده می شود.

یک خط لوله پیش پردازش داده خوب می تواند اجزای قابل استفاده مجدد ایجاد کند که آزمایش ایده های مختلف برای ساده سازی فرآیندهای تجاری یا بهبود رضایت مشتری را آسان تر می کند. به عنوان مثال، پیش پردازش می تواند نحوه سازماندهی داده ها را برای یک موتور توصیه با بهبود محدوده سنی مورد استفاده برای دسته بندی مشتریان بهبود بخشد.

پیش پردازش همچنین می‌تواند کار ایجاد و اصلاح داده‌ها را برای بینش‌های هوش تجاری دقیق‌تر و هدفمندتر ساده‌تر کند. برای مثال، مشتریان با اندازه‌ها، دسته‌ها یا مناطق مختلف ممکن است رفتارهای متفاوتی را در مناطق مختلف از خود نشان دهند. پیش پردازش داده ها در فرم های مناسب می تواند به تیم های BI کمک کند تا این بینش ها را در داشبورد BI ببافند.

در زمینه مدیریت ارتباط با مشتری ( CRM )، پیش پردازش داده جزء وب کاوی است. گزارش‌های استفاده از وب ممکن است برای استخراج مجموعه‌های معنی‌داری از داده‌ها به نام تراکنش‌های کاربر، که از گروه‌هایی از مراجع URL تشکیل شده‌اند، از قبل پردازش شوند. جلسات کاربر ممکن است برای شناسایی کاربر، وب سایت های درخواستی و سفارش آنها و مدت زمان صرف شده برای هر یک ردیابی شود. هنگامی که این داده‌ها از داده‌های خام خارج شدند، اطلاعات مفیدتری به دست می‌آورند که می‌تواند برای مثال برای تحقیقات مصرف‌کننده، بازاریابی یا شخصی‌سازی اعمال شود.

 

ارتباط و مشاوره با شما ۰۹۳۶۷۹۳۸۰۱۸ در واتس اپ

دیدگاه‌ها (0)

*
*


پاسخ من را به ایمیلم ارسال کن

error: با عرض پوزش؛ لطفا از مطالعه مطالب لذت ببرید.