دیتاست همانگونه از نامش مشخص است به عنوان مجموعهای از دادهها تعریف میشود. سادهترین و رایجترین قالب برای دیتاستهایی که به صورت آنلاین پیدا خواهید کرد، یک صفحه گسترده یا قالب CSV است که به صورت جدول با ردیفها و ستونهای سازمان یافته است. اما برخی از مجموعههای داده در قالبهای دیگری ذخیره میشوند و لازم نیست فقط یک فایل باشند. گاهی اوقات یک دیتاست ممکن است یک فایل یا پوشه فشرده سازی شده باشد که شامل چندین جدول داده با دادههای مرتبط است.
دیتاست یا مجموعه داده یا DataSet به مجموعهای از دادهها میگویند که با موضوعیت واحد، جهت انجام کارها و پروژههای یادگیری ماشین استفاده میشوند. البته یک کاربرد دیگر دیتاست ها نیز برای مقایسه بین روشهای مختلف هست، به این صورت که بهطور نمونه بر روی دیتاست A، دو روش(الگوریتم) مختلف را اجرا کرده و با توجه به نتایج میتوان بر اساس معیارهای دقت، سرعت و پیچیدگی هریک از روشها را مقایسه کرد.
دیتا و داده به عنوان مهمترین ابزار یک محقق در زمینه هوش مصنوعی و تحلیل داده برای ارائه تحلیل دقیق به حساب میآید و استفاده از یک داده یا دیتای غلط باعث میشود که تحلیل دچار خطا شود و برای نتیجهگیری و تصمیمگیری اثرات زیانآوری به بار آورد. بسیاری از دیتاست های تولید شده و موجود از نظرسنجی ها، فناوری ها و تکنولوژی ها، اطلاعات منابع انسانی، بازی های ویدیویی، اطلاعات خودروها و غیره … به دست میآیند. دیتاست های موجود و منتشر شده در سایت ها را باید از نظر تمیز بودن و طبقه بندی مورد بررسی قرار داد و در صورت رعایت تکنیک ها و اصول صحیح، از آنها استفاده کرد.
چگونگی ایجاد دیتاست
دیتاست ها بر این اساس به وجود میآیند که محققان و پژوهشگران در زمینههای کاری مرتبط با هوش مصنوعی و تحلیل داده، بتوانند به راحتی کار کنند و تحقیقات و پژوهشهای خود را گسترش دهند و نتایج را منتشر کنند. مقالاتی که در زمینههای هوش مصنوعی و تحلیل داده منتشر میشوند برای اثبات تحقیقات، باید دیتاست ها را بصورت عمومی در اختیار جامعه علمی و پژوهشگران قرار دهند تا مقالات بصورت مستند ثابت شوند. در این میان فایل دیتاستی که به عنوان داکیومنت و مستند ارائه میشود در برخی موارد کار با آنها سخت و پیچیده است که در این مواقع یک فایل راهنمای کار با دیتاست قرار میگیرد که نحوه کار با دیتاست چگونه است.
چگونگی انتخاب دیتاست مناسب
فرض کنید کاری که میخواهید انجام دهید در مورد ردهبندی (Classification) است. درنتیجه شما باید به دنبال دیتایی باشید که لیبل یا برچسب دادههای آن مشخص باشد. یا در مثال دیگر، فرض کنید شما به دنبال ایجاد یا ارتقاء روشی برای کاهش بُعد دیتا هستید در این صورت نیز شما باید دیتایی را انتخاب کنید که دارای بُعد زیاد باشد.
پس میتوان نتیجه گرفت برای هر تسک باید به دنبال دیتاست مناسب آن باشیم. دستهبندیهای مختلفی در دیتاستها وجود دارد بهطور خلاصه میتوان دیتاست ها را به موارد زیر تقسیمبندی کنیم:
- دادههای متنی (متن کتاب، نظرات شبکههای اجتماعی، توییت ها و …)
- دادههای جدولی (دادههای خوشهبندی، طبقهبندی، سری زمانی و …)
- دادههای مولتی مدیا (عکس، ویدیو و صوت)(عکسهای هوایی، دوربینهای مداربسته و …)
از نظر نوع رسانهای که دیتاست بر روی آن ارائه میگردد نیز میتوان چهار دستهبندی زیر را معرفی کرد:
- دیتاستهایی که بر روی فایل هستند
- دیتاستهایی که بر روی چند فایل هستند
- دیتاستهایی که بر روی پایگاه داده هستند
- دیتاستهایی که بر روی وب هستند
دیتاستها چگونه ایجاد میشوند؟
دیتاستهای مختلف به روشهای مختلف ایجاد میشوند. برخی از آنها دادههای تولید شده توسط ماشین خواهند بود. برخی از آنها دادههایی هستند که از طریق نظرسنجیها جمع آوری شدهاند. برخی ممکن است دادههایی باشند که از مشاهدات انسانی ثبت شدهاند. برخی ممکن است دادههایی باشند که از وب سایتها و یا از طریق API ثبت شده باشند. هر زمان که با یک دیتاست کار میکنید، مهم است که در نظر بگیرید: این دیتاست چگونه ایجاد شده است؟ دادهها از کجا میآیند؟
سورسهای دیتاست
- Google Dataset Search : مشابه نحوه کارGoogle Scholar ، جستجوی دیتاست به شما امکان میدهد دیتاستها را در هر کجا که میزبانی میشوند، پیدا کنید؛ خواه سایت ناشران، کتابخانه دیجیتال یا صفحه وب نویسندگان باشد. این سورس یک دیتاست یاب خارق العاده است و شامل بیش از ۲۵ میلیون مجموعه داده است.
- Kaggle : این سورس مجموعه وسیعی از دیتاستها را برای افراد به صورت مناسب فراهم میکند.
- UCI Machine Learning Repository : این سورس منبعی به روز برای دیتاستهای منبع باز فراهم میکند.
- VisualData : این سورس دیتاستهای بینایی رایانه را بر اساس دسته بندی کشف میکند. این سورس کوئریها را جستجو میکند.
- CMU Libraries : به لطف مجموعهHuajin Wang ، درCMU ، دیتاستهایی با کیفیت بالا را میتوانید پیدا کنید.
- The Big Bad NLP Database : این لیست مجموعه جذاب شامل دیتاستهایی برای کارهای مختلف پردازش توسط Quantum Stat ایجاد و تنظیم شده است.
دیتاستهای عمومی
- دیتاستهای مسکن
- Boston Housing Dataset
شامل اطلاعات جمع آوری شده توسط سرویس سرشماری ایالات متحده در مورد مسکن در مناطق بوستون است که از بایگانی StatLib به دست آمده و به طور گسترده برای محک زدن الگوریتمها استفاده شده است.
- دیتاستهای جغرافیایی
- Google-Landmarks-v2
یک دیتاست بهبود یافته برای شناسایی و بازیابی نقطه عطف است. این دیتاست حاوی بیشا از ۵ میلیون متر مربع از بیش از ۲۰۰K تصاویر نشانه از نقاط مختلف جهان است که توسط انجمن Wiki Commons تهیه و شرح داده شده است.
دیتاستهای یادگیری ماشین:
- Mall Customers Dataset : دیتاستهای مشتریان مرکز خرید شامل اطلاعاتی درباره افرادی است که از یک مرکز تجاری در یک شهر خاص بازدید میکنند. این دیتاست از ستونهای مختلفی مانند جنسیت، شناسه مشتری، سن، درآمد سالانه و نمره هزینه تشکیل شده است. معمولاً برای تقسیم بندی مشتریان براساس سن، درآمد و علاقه آنها استفاده میشود.
- IRIS Dataset : دیتاست IRIS یک مجموعه داده ساده و مبتدی است که حاوی اطلاعاتی در مورد گلبرگ گل و عرض کاسبرگ است. دادهها به سه کلاس تقسیم میشوند که در هر کلاس ۵۰ ردیف دارند. به طور کلی برای طبقه بندی و مدل رگرسیون استفاده میشود.
- MNIST Dataset : این یک پایگاه داده از ارقام دست نویس است که شامل ۶۰۰۰۰ تصویر آموزشی و ۱۰۰۰۰ عکس آزمایشی است. این یک دیتاست کامل برای شروع اجرای طبقه بندی تصویر است که در آن میتوانید یک رقم از ۰ تا ۹ را طبقه بندی کنید.
- Boston Housing Dataset : شامل اطلاعات جمع آوری شده توسط سرویس سرشماری ایالات متحده در مورد مسکن در منطقه تودهای بوستون است که از بایگانی StatLib به دست آمده و به طور گسترده برای محاسبه الگوریتمها مورد استفاده قرار گرفته است.
- Fake News Detection Dataset : این مورد یک فایل CSV است که دارای ۷۷۹۶ ردیف با چهار ستون خبر، عنوان، متن خبر و نتیجه است.
- Wine quality dataset : دیتاست حاوی اطلاعات شیمیایی مختلفی درباره شراب است. این دیتاست برای کارهای طبقه بندی و رگرسیون مناسب است.
- SOCR data – Heights and Weights Dataset : این مورد یک دیتاست اساسی برای مبتدیان است که شامل فقط قد و وزن ۲۵۰۰۰ انسان مختلف در ۱۸ سالگی است. از این دیتاست میتوان برای ساخت مدلی استفاده کرد که بتواند قد یا وزن انسان را پیش بینی کند.
- Titanic Dataset : این دیتاست شامل اطلاعاتی مانند نام، سن، جنس، تعداد خواهر و برادران داخل هواپیما و سایر اطلاعات در مورد ۸۹۱ مسافر در مجموعه آموزش و ۴۱۸ مسافر در مجموعه آزمایش است.
- Credit Card Fraud Detection Dataset : این دیتاست شامل تراکنشهای انجام شده توسط کارتهای اعتباری است. آنها برچسب کلاهبرداری یا واقعی دارند. یا کمک این دیتاست برای شرکتهایی که سیستم معاملاتی دارند میتوان الگویی برای شناسایی فعالیتهای کلاهبرداری ایجاد کرد.
دیتاستهای بینایی رایانه
- xView : این دیتاست یکی از گستردهترین دیتاستهای تصاویر عمومی است که شامل تصاویری از صحنههای پیچیده در سرتاسر جهان است که با استفاده از جعبههای تفاسیر شرح داده شده است.
- ImageNet : بزرگترین دیتاست تصاویر برای دید کامپیوتر است. به گفته WordNet، این یک پایگاه داده تصویری قابل دسترسی است که به صورت سلسله مراتبی سازمان یافته است.
- Kinetics-70 : دیتاستی در مقیاس بزرگ از URL های ویدیویی از Youtube است که شامل بیش از ۷۰۰۰۰۰ فیلم میباشد.
- Google’s Open Images : دیتاست گستردهای از Google AI شامل بیش از ۱۰ میلیون تصویر میباشد.
- Cityscapes Dataset : یک دیتاست منبع باز برای پروژههای کامپیوتری است که حاوی تفاسیر با کیفیت بالا در سطح پیکسل از توالیهای ویدئویی است که در ۵۰ خیابان مختلف شهر گرفته شده است. این دیتاست در تقسیم بندی معنایی و آموزش شبکههای عصبی عمیق برای درک صحنه شهری مفید است.
- IMDB-Wiki Dataset : دیتاست IMDB-Wiki یکی از گستردهترین دیتاستهای منبع باز برای تصاویر چهره با برچسب جنسیت و سن است که از IMDB و ویکی پدیا جمع آوری شده است. این عکس دارای پنج میلیون تصویر دارای برچسب است.
- Color Detection Dataset : این دیتاست حاوی یک فایل CSV است که دارای ۸۶۵ نام رنگ با مقادیر RGB (قرمز، سبز و آبی) مربوط به رنگ است. همچنین دارای ارزش هگزادسیمال رنگ است.
- Stanford Dogs Dataset : شامل ۲۰۵۸۰ تصویر و ۱۲۰ دسته مختلف نژاد سگ است.
دیتاستهای تجزیه و تحلیل احساسات
- Lexicoder Sentiment Dictionary : این دیتاست به طور ویژه برای تجزیه و تحلیل احساسات استفاده میشود. این دیتاست شامل بیش از ۳۰۰۰ کلمه احساسی منفی و بیش از ۲۰۰۰ کلمه احساسی مثبت است.
- IMDB reviews : یک دیتاست جالب با بیش از ۵۰۰۰۰ بررسی فیلم از Kaggle است.
- Stanbank Sentiment Treebank : مجموعه داده احساسات استاندارد با تفسیر احساسات است.
- Twitter Airline Sentiment : دادههای توییتر درباره خطوط هوایی ایالات متحده از فوریه ۲۰۱۵، به عنوان توییتهای مثبت، منفی و خنثی طبقه بندی میشوند.
دیتاستهای بالینی
- MaskedFace-Net : این دیتاست یک مجموعه داده واقعی است که شامل چهرههای انسانی با ماسکهای صحیح و نادرست پوشیده شده است. این دیتاست شامل بیش از ۱۳۷ هزار تصویر است که براساس مجموعه دادههای Flick-Faces-HQ تهیه شدهاند.
۳منبع عالی برای به دست آوردن دادههای رایگان، جهت دادهکاوی
یکی از مشکلات بسیاری از افراد فعال در حوزه داده کاوی و پردازشهای مهداده یا همان Big Data، پیدا کردن دادههای مناسب چه برای یادگیری و چه برای آزمایش الگوریتمهای مختلف است. نکته اصلی در منابع دادهای این است که آنها باید از دل دنیای واقعی استخراج شده باشند، نه به صورت مصنوعی ساخته شده باشند. در زیر چند منبع که از طریق آنها میتوانید دادههای مختلف جهت عملیات دادهکاوی، یادگیری ماشین داشته باشید را آوردهایم:
- ۱٫ وب سایت UCI که یکی از معروفترین وب سایتها داده در جهان است. این دادهها با توجه به مسائل مختلف در دستههای مختلف جای گرفتهاند و میتوان از آنها در پروژهها استفاده نمود.
- ۲٫ اگر در حوزه اقتصادی فعالیت میکنید، وب سایت AssetMacro دادههای اقتصادی بسیار زیاد بر گرفته شده از دنیای واقعی را برای شما فراهم آورده است.
- ۳٫ اگر به حوزه ورزش و دادههای ورزشی علاقه مند هستید، وب سایت opensourcesport دادههای متنوعی از ورزشهای مختلف مانند فوتبال، بیسبال و... در اختیار شما قرار میدهد.
- ۴٫ دیتاستهای یاهو هم یکی از منابع ارزشمند موجود در وب هست
- ۵٫ لیستی از بقیه دیتاستها نیز در وبسایت Kdnuggets قرار داده شده است که میتوانید با توجه نیاز خود از آنها استفاده کنید
معرفی پایگاههای دیتاستها
و در انتها به معرفی برخی از پایگاههایی که دیتاستهای خوبی در آنها قابلدسترسی هست میپردازیم:
- kaggle
- UCI
- WorldBankData
- UNData
- DataHub
- GitHub
- OpenGovernmentData
- DataVancouver
در این نوشته به معرفی منابعی برای دریافت دیتاست می پردازیم:
Google’s Datasets Search Engine
https://toolbox.google.com/datasetsearch
UCI data repository
https://archive.ics.uci.edu/ml/datasets.php
Kaggle Datasets
https://www.kaggle.com/datasets
Awesome Public Datasets Collection
https://github.com/awesomedata/awesome-public-datasets
Amazon Datasets
https://registry.opendata.aws
Microsoft Datasets
Government Datasets
https://www.data.gov<br/> https://data.europa.eu/euodp/data/dataset <br/> https://data.gov.in<br/> https://data.gov.uk
Harvard Dataverse
https://dataverse.harvard.edu
kdnuggets Dataset
https://www.kdnuggets.com/datasets/index.html
stackoverflow page
https://stackoverflow.com/questions/381806/large-public-datasets
Social Network Analysis Datasets
http://snap.stanford.edu/data/index.html<br/> https://networkdata.ics.uci.edu/resources.php<br/> http://socialcomputing.asu.edu/pages/datasets<br/> http://networkrepository.com
https://github.com/briatte/awesome-network-analysis<br/> http://cnets.indiana.edu/resources/data-repository<br/> http://vlado.fmf.uni-lj.si/pub/networks/data<br/> https://sites.google.com/site/ucinetsoftware/datasets
https://msropendata.com
دیدگاهها (0)