دیتاماینینگ یار

دیتاست چیست؟

دیتاست همانگونه از نامش مشخص است به عنوان مجموعه‌ای از داده‌ها تعریف می‌شود. ساده‌ترین و رایج‌ترین قالب برای دیتاست‌هایی که به صورت آنلاین پیدا خواهید کرد، یک صفحه گسترده یا قالب CSV است که به صورت جدول با ردیف‌ها و ستون‌های سازمان یافته است. اما برخی از مجموعه‌های داده در قالب‌های دیگری ذخیره می‌شوند و لازم نیست فقط یک فایل باشند. گاهی اوقات یک دیتاست ممکن است یک فایل یا پوشه فشرده سازی شده باشد که شامل چندین جدول داده با داده‌های مرتبط است.

دیتاست یا مجموعه داده یا DataSet به مجموعه‌ای از داده‌ها می‌گویند که با موضوعیت واحد، جهت انجام کارها و پروژه‌های یادگیری ماشین استفاده می‌شوند. البته یک کاربرد دیگر دیتاست ها نیز برای مقایسه بین روش‌های مختلف هست، به این صورت که به‌طور نمونه بر روی دیتاست A، دو روش(الگوریتم) مختلف را اجرا کرده و با توجه به نتایج می‌توان بر اساس معیارهای دقت، سرعت و پیچیدگی هریک از روش‌ها را مقایسه کرد.

دیتا و داده به عنوان مهم‌ترین ابزار یک محقق در زمینه هوش مصنوعی و تحلیل داده برای ارائه تحلیل دقیق به حساب می‌آید و استفاده از یک داده یا دیتای غلط باعث می‌شود که تحلیل دچار خطا شود و برای نتیجه‌گیری و تصمیم‌گیری اثرات زیان‌آوری به بار آورد. بسیاری از دیتاست های تولید شده و موجود از نظرسنجی ها، فناوری ها و تکنولوژی ها، اطلاعات منابع انسانی، بازی های ویدیویی، اطلاعات خودروها و غیره به دست می‌آیند. دیتاست های موجود و منتشر شده در سایت ها را باید از نظر تمیز بودن و طبقه بندی مورد بررسی قرار داد و در صورت رعایت تکنیک ها و اصول صحیح، از آن‌ها استفاده کرد.

چگونگی ایجاد دیتاست

دیتاست ها بر این اساس به وجود می‌آیند که محققان و پژوهشگران در زمینه‌های کاری مرتبط با هوش مصنوعی و تحلیل داده، بتوانند به راحتی کار کنند و تحقیقات و پژوهش‌های خود را گسترش دهند و نتایج را منتشر کنند. مقالاتی که در زمینه‌های هوش مصنوعی و تحلیل داده منتشر می‌شوند برای اثبات تحقیقات، باید دیتاست ها را بصورت عمومی در اختیار جامعه علمی و پژوهشگران قرار دهند تا مقالات بصورت مستند ثابت شوند. در این میان فایل دیتاستی که به عنوان داکیومنت و مستند ارائه می‌شود در برخی موارد کار با آن‌ها سخت و پیچیده است که در این مواقع یک فایل راهنمای کار با دیتاست قرار می‌گیرد که نحوه کار با دیتاست چگونه است.

چگونگی انتخاب دیتاست مناسب

فرض کنید کاری که می‌خواهید انجام دهید در مورد رده‌بندی (Classification) است. درنتیجه شما باید به دنبال دیتایی باشید که لیبل یا برچسب داده‌های آن مشخص باشد. یا در مثال دیگر،  فرض کنید شما به دنبال ایجاد یا ارتقاء روشی برای کاهش بُعد دیتا هستید در این صورت نیز شما باید دیتایی را انتخاب کنید که دارای بُعد زیاد باشد.

پس می‌توان نتیجه گرفت برای هر تسک باید به دنبال دیتاست مناسب آن باشیم. دسته‌بندی‌های مختلفی در دیتاست‌ها وجود دارد به‌طور خلاصه می‌توان دیتاست ها را به موارد زیر تقسیم‌بندی کنیم:

از نظر نوع رسانه‌ای که دیتاست بر روی آن ارائه می‌گردد نیز می‌توان چهار دسته‌بندی زیر را معرفی کرد:

دیتاست‌ها چگونه ایجاد می‌شوند؟

دیتاست‌های مختلف به روش‌های مختلف ایجاد می‌شوند. برخی از آنها داده‌های تولید شده توسط ماشین خواهند بود. برخی از آنها داده‌هایی هستند که از طریق نظرسنجی‌ها جمع آوری شده‌اند. برخی ممکن است داده‌هایی باشند که از مشاهدات انسانی ثبت شده‌اند. برخی ممکن است داده‌هایی باشند که از وب سایت‌ها و یا از طریق API ثبت شده باشند. هر زمان که با یک دیتاست کار می‌کنید، مهم است که در نظر بگیرید: این دیتاست چگونه ایجاد شده است؟ داده‌ها از کجا می‌آیند؟

سورس‌های دیتاست

دیتاست‌های عمومی

شامل اطلاعات جمع آوری شده توسط سرویس سرشماری ایالات متحده در مورد مسکن در مناطق بوستون است که از بایگانی StatLib به دست آمده و به طور گسترده برای محک زدن الگوریتم‌ها استفاده شده است.

 یک دیتاست بهبود یافته برای شناسایی و بازیابی نقطه عطف است. این دیتاست حاوی بیشا از ۵ میلیون متر مربع از بیش از ۲۰۰K تصاویر نشانه از نقاط مختلف جهان است که توسط انجمن Wiki Commons تهیه و شرح داده شده است.

دیتاست‌های یادگیری ماشین:

دیتاست‌های بینایی رایانه

دیتاست‌های تجزیه و تحلیل احساسات

دیتاست‌های بالینی

۳منبع عالی برای به دست آوردن داده‌های رایگان، جهت داده‌کاوی

یکی از مشکلات بسیاری از افراد فعال در حوزه داده کاوی و پردازش‌های مه‌داده یا همان Big Data، پیدا کردن داده‌های مناسب چه برای یادگیری و چه برای آزمایش الگوریتم‌های مختلف است. نکته اصلی در منابع داده‌ای این است که آن‌ها باید از دل دنیای واقعی استخراج شده باشند، نه به صورت مصنوعی ساخته شده باشند. در زیر چند منبع که از طریق آن‌ها می‌توانید داده‌های مختلف جهت عملیات داده‌کاوی، یادگیری ماشین داشته باشید را آورده‌ایم:

معرفی پایگاه‌های دیتاست‌ها

و در انتها به معرفی برخی از پایگاه‌هایی که دیتاست‌های خوبی در آن‌ها قابل‌دسترسی هست می‌پردازیم:

در این نوشته به معرفی منابعی برای دریافت دیتاست می پردازیم:

 

Google’s Datasets Search Engine

https://toolbox.google.com/datasetsearch

UCI data repository

https://archive.ics.uci.edu/ml/datasets.php

Kaggle Datasets

https://www.kaggle.com/datasets

Awesome Public Datasets Collection

https://github.com/awesomedata/awesome-public-datasets

Amazon Datasets

https://registry.opendata.aws

Microsoft Datasets 

Government Datasets

https://www.data.gov<br/> https://data.europa.eu/euodp/data/dataset <br/> https://data.gov.in<br/> https://data.gov.uk

Harvard Dataverse

https://dataverse.harvard.edu

kdnuggets Dataset

https://www.kdnuggets.com/datasets/index.html

stackoverflow page

https://stackoverflow.com/questions/381806/large-public-datasets

Social Network Analysis Datasets

http://snap.stanford.edu/data/index.html<br/> https://networkdata.ics.uci.edu/resources.php<br/> http://socialcomputing.asu.edu/pages/datasets<br/> http://networkrepository.com

https://github.com/briatte/awesome-network-analysis<br/> http://cnets.indiana.edu/resources/data-repository<br/> http://vlado.fmf.uni-lj.si/pub/networks/data<br/> https://sites.google.com/site/ucinetsoftware/datasets

https://msropendata.com

ارتباط و مشاوره با شما ۰۹۳۶۷۹۳۸۰۱۸ در واتس اپ

دیدگاه‌ها (0)

*
*


پاسخ من را به ایمیلم ارسال کن

error: با عرض پوزش؛ لطفا از مطالعه مطالب لذت ببرید.