پیش پردازش داده، جزئی از آماده سازی داده ها ، هر نوع پردازشی را توصیف می کند که بر روی داده های خام انجام می شود تا آن را برای فرآیند پردازش داده دیگری آماده کند. این به طور سنتی یک مرحله مقدماتی مهم برای فرآیند داده کاوی بوده است . اخیراً، تکنیکهای پیشپردازش دادهها برای آموزش مدلهای یادگیری ماشین و مدلهای هوش مصنوعی و برای اجرای استنباطها علیه آنها اقتباس شدهاند.
پیش پردازش داده ها، داده ها را به قالبی تبدیل می کند که در داده کاوی، یادگیری ماشین و سایر کارهای علم داده پردازش آسان تر و مؤثرتر باشد. این تکنیکها معمولاً در مراحل اولیه یادگیری ماشین و خط لوله توسعه هوش مصنوعی برای اطمینان از نتایج دقیق استفاده میشوند.
ابزارها و روش های مختلفی برای پیش پردازش داده ها استفاده می شود، از جمله:
- نمونهگیری، که زیرمجموعهای نماینده از جمعیت زیادی از دادهها را انتخاب میکند.
- تبدیل، که داده های خام را برای تولید یک ورودی واحد دستکاری می کند.
- حذف نویز، که نویز را از داده ها حذف می کند.
- imputation ، که داده های آماری مرتبط را برای مقادیر از دست رفته ترکیب می کند.
- عادی سازی ، که داده ها را برای دسترسی کارآمدتر سازماندهی می کند.
- استخراج ویژگی، که یک زیرمجموعه ویژگی مرتبط را که در یک زمینه خاص مهم است، بیرون میکشد.
این ابزارها و روشها را میتوان در انواع منابع داده، از جمله دادههای ذخیرهشده در فایلها یا پایگاههای داده و جریان داده استفاده کرد.
چرا پیش پردازش داده ها مهم است؟
تقریباً هر نوع تجزیه و تحلیل داده، علم داده یا توسعه هوش مصنوعی به نوعی از پیش پردازش داده نیاز دارد تا نتایج قابل اعتماد، دقیق و قوی برای برنامه های کاربردی سازمانی ارائه دهد.
داده های دنیای واقعی مناسب نیستند و اغلب توسط انسان ها، فرآیندهای تجاری و برنامه های کاربردی مختلف ایجاد، پردازش و ذخیره می شوند. در نتیجه، ممکن است یک مجموعه داده دارای فیلدهای جداگانه نباشد و حاوی خطاهای ورودی دستی باشد، یا داده های تکراری یا نام های متفاوتی برای توصیف یک چیز داشته باشد. انسان ها اغلب می توانند این مشکلات را در داده هایی که در خط کسب و کار استفاده می کنند شناسایی و اصلاح کنند، اما داده هایی که برای آموزش یادگیری ماشین یا الگوریتم های یادگیری عمیق استفاده می شوند نیاز به پیش پردازش خودکار دارند.
آماده سازی داده ها چیست؟ راهنمای عمیق برای آماده سازی داده ها
- بهترین روش آماده سازی داده برای برنامه های تحلیلی
- چالش های برتر آماده سازی داده ها و نحوه غلبه بر آنها
- آماده سازی داده ها در یادگیری ماشین: ۶ مرحله کلیدی
الگوریتمهای یادگیری ماشین و یادگیری عمیق زمانی بهترین کار را دارند که دادهها در قالبی ارائه شوند که جنبههای مرتبط مورد نیاز برای حل یک مشکل را برجسته کند. روشهای مهندسی ویژگی که شامل جدال دادهها، تبدیل دادهها ، کاهش دادهها، انتخاب ویژگی و مقیاسبندی ویژگی است، به بازسازی دادههای خام به شکلی مناسب برای انواع خاصی از الگوریتمها کمک میکند. این می تواند به طور قابل توجهی قدرت پردازش و زمان مورد نیاز برای آموزش یک الگوریتم یادگیری ماشینی جدید یا AI یا اجرای یک استنتاج در برابر آن را کاهش دهد.
یک احتیاط که باید در پیش پردازش داده ها رعایت شود: امکان رمزگذاری مجدد سوگیری در مجموعه داده ها. شناسایی و تصحیح سوگیری برای برنامههایی که به تصمیمگیریهایی که افراد را تحت تأثیر قرار میدهند، مانند تأییدیههای وام، بسیار مهم است. اگرچه دانشمندان داده ممکن است عمداً متغیرهایی مانند جنسیت، نژاد یا مذهب را نادیده بگیرند، این ویژگیها ممکن است با متغیرهای دیگری مانند کد پستی یا مدارسی که در آن شرکت کردهاند همبستگی داشته باشند و نتایج مغرضانهای ایجاد کنند.
اکثر بستهها و خدمات علوم داده مدرن اکنون شامل کتابخانههای پیشپردازش مختلفی هستند که به خودکارسازی بسیاری از این وظایف کمک میکنند.
مراحل کلیدی در پیش پردازش داده چیست؟
مراحل مورد استفاده در پیش پردازش داده ها شامل موارد زیر است:
- ۱٫ پروفایل داده ( Data profiling)
پروفایل داده ها فرآیند بررسی، تجزیه و تحلیل و بررسی داده ها برای جمع آوری آمار در مورد کیفیت آن است. با بررسی داده های موجود و ویژگی های آن شروع می شود. دانشمندان داده مجموعههای دادهای را شناسایی میکنند که مربوط به مسئله مورد نظر هستند، ویژگیهای مهم آن را فهرستبندی میکنند و فرضیهای از ویژگیهایی را تشکیل میدهند که ممکن است برای تحلیل پیشنهادی یا کار یادگیری ماشینی مرتبط باشند. آنها همچنین منابع داده را به مفاهیم تجاری مرتبط می کنند و در نظر می گیرند که کدام کتابخانه های پیش پردازش می توانند مورد استفاده قرار گیرند.
- ۲٫ پاکسازی داده ها ( Data cleansing)
هدف در اینجا یافتن سادهترین راه برای اصلاح مشکلات کیفیت است، مانند حذف دادههای بد، پر کردن دادههای از دست رفته یا اطمینان از مناسب بودن دادههای خام برای مهندسی ویژگیها.
- ۳٫ کاهش داده ها (Data reduction)
مجموعه دادههای خام اغلب شامل دادههای اضافی میشوند که از توصیف پدیدهها به روشهای مختلف یا دادههایی که به یک کار خاص ML، AI یا تجزیه و تحلیل مرتبط نیستند، ناشی میشوند. کاهش داده ها از تکنیک هایی مانند تجزیه و تحلیل مؤلفه های اصلی برای تبدیل داده های خام به شکل ساده تر مناسب برای موارد استفاده خاص استفاده می کند.
- ۴٫ تبدیل داده ها (Data transformation)
در اینجا، دانشمندان داده به این فکر میکنند که چگونه جنبههای مختلف دادهها باید سازماندهی شوند تا بیشترین معنا را برای هدف داشته باشند. این میتواند شامل مواردی مانند ساختار دادن به دادههای بدون ساختار ، ترکیب متغیرهای برجسته در مواقعی که منطقی است یا شناسایی محدودههای مهمی که باید روی آنها تمرکز کرد، باشد.
- ۵٫ غنی سازی داده ها (Data enrichment)
در این مرحله، دانشمندان داده، کتابخانههای مهندسی ویژگیهای مختلف را روی دادهها اعمال میکنند تا تبدیلهای مورد نظر را اعمال کنند. نتیجه باید مجموعه داده ای باشد که برای دستیابی به تعادل بهینه بین زمان آموزش برای یک مدل جدید و محاسبات مورد نیاز سازماندهی شده است.
- ۶٫ اعتبار سنجی داده ها (Data validation)
در این مرحله , داده ها , به دو مجموعه تقسیم می شوند. اولین مجموعه برای آموزش یک مدل یادگیری ماشینی یا یادگیری عمیق استفاده می شود. مجموعه دوم داده های آزمایشی است که برای سنجش دقت و استحکام مدل به دست آمده استفاده می شود. این مرحله دوم به شناسایی هرگونه مشکل در فرضیه استفاده شده در تمیز کردن و مهندسی ویژگی داده ها کمک می کند. اگر دانشمندان داده از نتایج راضی باشند، می توانند وظیفه پیش پردازش را به یک مهندس داده سوق دهند که چگونگی مقیاس بندی آن را برای تولید بیابد. در غیر این صورت، دانشمندان داده میتوانند به عقب برگردند و تغییراتی در نحوه اجرای مراحل پاکسازی دادهها و مهندسی ویژگیها ایجاد کنند.
پیش پردازش داده ها معمولاً شامل این مراحل است.
تکنیک های پیش پردازش داده ها (Data preprocessing techniques )
دو دسته اصلی پیش پردازش وجود دارد – پاکسازی داده ها و مهندسی ویژگی. هر کدام شامل تکنیک های متنوعی است که در زیر توضیح داده شده است.
پاک کردن داده (Data cleansing)
تکنیک های پاکسازی داده های نامرتب شامل موارد زیر است:
- داده های از دست رفته را شناسایی و مرتب کنید.
دلایل مختلفی وجود دارد که یک مجموعه داده ممکن است فیلدهای جداگانه داده را از دست بدهد. دانشمندان داده باید تصمیم بگیرند که آیا بهتر است رکوردهای دارای فیلدهای گمشده را کنار بگذارند، آنها را نادیده بگیرند یا آنها را با مقدار احتمالی پر کنند. به عنوان مثال، در یک برنامه IoT که دما را ثبت میکند، اضافه کردن یک میانگین دمای از دست رفته بین رکورد قبلی و بعدی ممکن است راه حل مطمئنی باشد.
- داده های پر سر و صدا را کاهش دهید .
داده های دنیای واقعی اغلب پر سر و صدا هستند که می تواند مدل تحلیلی یا هوش مصنوعی را مخدوش کند. به عنوان مثال، یک سنسور دما که به طور مداوم دمای ۷۵ درجه فارنهایت را گزارش می کند ممکن است به اشتباه دما را ۲۵۰ درجه گزارش کند. انواع روش های آماری را می توان برای کاهش نویز استفاده کرد، از جمله binning، رگرسیون و خوشه بندی.
- موارد تکراری را شناسایی و حذف کنید
هنگامی که به نظر می رسد دو رکورد تکرار می شوند، یک الگوریتم باید تعیین کند که آیا اندازه گیری یکسان دو بار ثبت شده است یا اینکه رکوردها نشان دهنده رویدادهای مختلف هستند. در برخی موارد، ممکن است تفاوت های جزئی در یک رکورد وجود داشته باشد زیرا یک فیلد به اشتباه ثبت شده است. در موارد دیگر، سوابقی که به نظر تکراری هستند ممکن است واقعاً متفاوت باشند، مانند پدر و پسری با نام مشابه که در یک خانه زندگی می کنند اما باید به عنوان افراد جداگانه نشان داده شوند. تکنیکهای شناسایی و حذف یا پیوستن موارد تکراری میتواند به رفع خودکار این نوع مشکلات کمک کند.
مهندسی ویژگی (Feature engineering)
همانطور که اشاره شد، مهندسی ویژگی شامل تکنیکهایی است که توسط دانشمندان داده برای سازماندهی دادهها به روشهایی که آموزش مدلهای داده و استنتاجها را بر اساس آنها کارآمدتر میکند، استفاده میکند . این تکنیک ها شامل موارد زیر است:
- مقیاس بندی یا عادی سازی ویژگی.
اغلب، چندین متغیر در مقیاسهای مختلف تغییر میکنند، یا یکی به صورت خطی تغییر میکند در حالی که متغیر دیگر به صورت تصاعدی تغییر میکند. به عنوان مثال، حقوق ممکن است با هزاران دلار اندازه گیری شود، در حالی که سن به صورت دو رقمی نشان داده می شود. مقیاسبندی به تغییر شکل دادهها کمک میکند تا الگوریتمها بتوانند رابطه معنادار بین متغیرها را از هم جدا کنند.
- کاهش داده ها
دانشمندان داده اغلب نیاز به ترکیب انواع منابع داده برای ایجاد یک مدل هوش مصنوعی یا تحلیلی جدید دارند . برخی از متغیرها ممکن است با یک نتیجه مشخص همبستگی نداشته باشند و با خیال راحت کنار گذاشته شوند. سایر متغیرها ممکن است مرتبط باشند، اما فقط از نظر رابطه – مانند نسبت بدهی به اعتبار در مورد مدلی که احتمال بازپرداخت وام را پیشبینی میکند. آنها ممکن است در یک متغیر واحد ترکیب شوند. تکنیکهایی مانند تحلیل مؤلفههای اصلی نقش کلیدی در کاهش تعداد ابعاد در مجموعه دادههای آموزشی به نمایش کارآمدتر دارند.
- گسسته سازی (Descritize)
اغلب مفید است که اعداد خام را به فواصل مجزا تقسیم کنید. به عنوان مثال، درآمد ممکن است به پنج محدوده تقسیم شود که معرف افرادی است که معمولاً برای نوع خاصی از وام درخواست می کنند. این میتواند هزینههای سربار آموزش یک مدل یا اجرای استنباطها در برابر آن را کاهش دهد.
رمزگذاری ویژگی یکی دیگر از جنبه های مهندسی ویژگی شامل سازماندهی داده های بدون ساختار در قالبی ساخت یافته است. فرمت های داده بدون ساختار می تواند شامل متن، صدا و تصویر باشد. برای مثال، فرآیند توسعه الگوریتمهای پردازش زبان طبیعی معمولاً با استفاده از الگوریتمهای تبدیل داده مانند Word2vec برای ترجمه کلمات به بردارهای عددی آغاز میشود. این باعث میشود که به الگوریتم نشان دهیم که کلماتی مانند “پست” و “پست” مشابه هستند، در حالی که کلمه ای مانند “خانه” کاملاً متفاوت است. به طور مشابه، یک الگوریتم تشخیص چهره ممکن است داده های پیکسل خام را در بردارهایی که فاصله بین قسمت های صورت را نشان می دهد، رمزگذاری مجدد کند.
چگونه از پیش پردازش داده ها استفاده می شود؟
همانطور که قبلا ذکر شد، پیش پردازش داده ها نقش کلیدی در مراحل اولیه یادگیری ماشین و توسعه برنامه کاربردی هوش مصنوعی ایفا می کند. در زمینه هوش مصنوعی ، پیش پردازش داده ها برای بهبود روش پاکسازی، تبدیل و ساختار داده ها برای بهبود دقت یک مدل جدید، در حالی که میزان محاسبه مورد نیاز را کاهش می دهد، استفاده می شود.
یک خط لوله پیش پردازش داده خوب می تواند اجزای قابل استفاده مجدد ایجاد کند که آزمایش ایده های مختلف برای ساده سازی فرآیندهای تجاری یا بهبود رضایت مشتری را آسان تر می کند. به عنوان مثال، پیش پردازش می تواند نحوه سازماندهی داده ها را برای یک موتور توصیه با بهبود محدوده سنی مورد استفاده برای دسته بندی مشتریان بهبود بخشد.
پیش پردازش همچنین میتواند کار ایجاد و اصلاح دادهها را برای بینشهای هوش تجاری دقیقتر و هدفمندتر سادهتر کند. برای مثال، مشتریان با اندازهها، دستهها یا مناطق مختلف ممکن است رفتارهای متفاوتی را در مناطق مختلف از خود نشان دهند. پیش پردازش داده ها در فرم های مناسب می تواند به تیم های BI کمک کند تا این بینش ها را در داشبورد BI ببافند.
در زمینه مدیریت ارتباط با مشتری ( CRM )، پیش پردازش داده جزء وب کاوی است. گزارشهای استفاده از وب ممکن است برای استخراج مجموعههای معنیداری از دادهها به نام تراکنشهای کاربر، که از گروههایی از مراجع URL تشکیل شدهاند، از قبل پردازش شوند. جلسات کاربر ممکن است برای شناسایی کاربر، وب سایت های درخواستی و سفارش آنها و مدت زمان صرف شده برای هر یک ردیابی شود. هنگامی که این دادهها از دادههای خام خارج شدند، اطلاعات مفیدتری به دست میآورند که میتواند برای مثال برای تحقیقات مصرفکننده، بازاریابی یا شخصیسازی اعمال شود.
دیدگاهها (0)