مجموعه داده (Dataset) مجموعه ای از داده ها است. در مورد داده های جدولی ، یک مجموعه داده مربوط به یک یا چند جدول پایگاه داده است ، که در آن هر ستون یک جدول متغیر خاصی را نشان می دهد و هر سطر مربوط به یک رکورد(یعنی یک اطلاعات به خصوص ثبت شده ) معین از مجموعه داده مورد نظر است. مجموعه داده ها برای هر یک از متغیرها ، مانند ارتفاع و وزن یک شی ، برای هر یک از اعضای مجموعه داده ها لیست می کند. هر مقدار به عنوان یک داده شناخته می شود. مجموعه داده ها همچنین می توانند شامل مجموعه ای از اسناد یا پرونده ها باشند.
مجموعه ای از داده ها است که در آن داده ها به ترتیبی مرتب شده اند تمامی روشها و متدهای یادگیری ماشین بر روی دادهها اجرا میشوند و درواقع این دادهها هستند که نقطه شروع فرایند دادهکاوی، علم دادهها و بهطورکلی یادگیری ماشین میباشند.به صورت ساده دیتاست ها و یا مجموعه داده ها : به مجموعه ای گرد آوری شده از هر نوع اطلاعات تلقی میشود که می تواند به صورت زیر شاخه زیر شاخه آن اطلاعات را طبقه بندی کرد و ممکن است هر مجموعه داده شامل هزاران نوع و مدل خاص اطلاعات باشد .
انواع مجموعه داده عبارتند از :
صوتی
تصویری
متنی
آماری
ریاضیاتی
عددی
مجهول
انواع داده ها در مجموعه داده
داده های عددی: مانند قیمت خانه، دما و غیره.
داده های طبقه بندی شده: مانند بله/خیر، درست/نادرست، آبی/سبز و غیره.
دادههای ترتیبی: این دادهها شبیه به دادههای طبقهبندی هستند، اما میتوانند بر اساس مقایسه اندازهگیری شوند. مانند مقطع تحصیلی که شامل مقادیر وزنی (دیپلم، کاردانی، کارشناسی، کارشناسی ارشد و دکترا می باشد)
منظور از پراکندگی در یک دیتاست چیست؟
در برخی از دیتاستها، بهویژه دیتاستهایی که ویژگیهای نامتقارن دارند، مقدار اغلب صفات یک شیء صفر است و در اکثر موارد، تنها کمتر از ۱% از آنها مقداری غیر صفر دارند. اینگونه دادهها، دادههای پراکنده نامیده میشوند. همچنین میتوان گفت که این دیتاست دارای پراکندگی است.
روشهای ایجاد دیتاست
دیتاستها غالبا به صورت عمومی عرضه میشوند اما ممکن است برای موضوعات خاصی، دیتاست مورد نظر را پیدا نکنید. در چنین شرایطی باید سراغ راههای ایجاد مجموعهٔ داده بروید. در واقع دیتاستها از راههای مختلفی ایجاد میشوند که از این روشها میتوان به موارد زیر اشاره کرد:
دادههای تولید شده از ماشینها
دادههای ثبت شده از مشاهدات انسانی
دادههای ثبت شده از وبسایتها
دادههای جمعآوری شده از نظرسنجی
دادههای دیتاست میتوانند متنی، جدولی یا مولتی مدیا باشند. به عنوان مثال یک دیتاست میتواند شامل نظرات کاربران درشبکههای اجتماعی باشد و دیتاست دیگری، شامل عکس دوربینهای مداربسته.
همچنین مجموعهٔ دادهها میتوانند از لحاظ رسانهای که روی آن ارائه میشوند، در ۴ دسته قرار بگیرند:
دیتاستهایی که بر روی یک فایل هستند.
دیتاستهایی روی چند فایل قرار دارند.
دیتاستهایی که بر روی پایگاه داده قرار دارند.
داده های طبقه بندی شده: مانند بله/خیر، درست/نادرست، آبی/سبز و غیره.
انواع دیتاست
دادههای ثبتی
دادههای نموداری
دادههای ترتیبی.
در زمان دادهکاوی اغلب فرض میشود که دادهها مجموعهای از رکوردها هستند (شیء داده).در سادهترین گونه دادههای ثبتی هیچ رابطه روشنی میان رکوردها یا فیلد دادهها وجود ندارد و همه رکوردها (شیءها) مجموعه صفات یکسانی دارند. دادههای ثبتی معمولاً در فایلهای مسطح یا پایگاههای دادههای رابطهای ذخیره میشوند. دادههای ثبتی انواع مختلفی دارند که هر یک از آنها ویژگیهای ذاتی مخصوص به خود را دارد.
دادههای تراکنشی یا سبد بازار: در این نوع از دادههای رکوردی، هر رکورد حاوی مجموعهای از آیتمهاست. برای مثال، خرید از یک سوپرمارکت یا خواربار فروشی را درنظر بگیرید. در این حالت رکورد مربوط به هر یک از مشتریان حاوی مجموعهای از اقلام خریداریشده در یک مراجعه مشخص است. این نوع از دادهها، دادههای سبد بازار نام گرفتهاند. داده تراکنشی نیز دستههای حاوی مجموعه اقلام هستند، اما این دستهها را میتوان مجموعهای از رکوردها درنظر گرفت که فیلدهای آن دارای صفات نامتقارن هستند. این صفات اغلب دودویی هستند و به ما میگویند که آیا یک قلم جنس مشخص خریداری شده است یا خیر.
ماتریس دادهها: اگر همه شیء دادههای موجود در یک دسته از دادهها دارای یک مجموعه صفات عددی ثابت و یکسان باشند، در یک فضای چندبعدی میتوان این شیء دادهها را به عنوان نقاط (بردار) در نظر گرفت. هر بعد در این فضای چندبعدی، نمایانگر یک صفت متمایز برای توصیف شیء است. مجموعه این نوع از شیء دادهها را میتوان یک ماتریس n×m درنظر گرفت که هر ستون مربوط به یک صفت و هر سطر مربوط به یک شیء است. با استفاده از اعمال ماتریسی استاندارد میتوان باعث تغییرشکل دادهها شد و آنها را دستکاری کرد. به همین دلیل، دادههای ماتریسی اغلب شکل استاندارد دادههای آماری درنظر گرفته میشوند.
ماتریس دادههای پراکنده: ماتریس دادههای پراکنده (که گاه ماتریس دادههای اسنادی نیز نامیده میشود) نوعی از خاصی از ماتریس دادههاست که عناصر آن از یک نوع و نامتقارن هستند و در این میان، تنها عناصر غیر صفر اهمیت دارند. این دادهها را میتوان به چند دسته کوچکتر تقسیم کرد:
دادههایی که بین اشیای آنها ارتباط وجود دارد: شیء دادهها روی نمودار به شکل نقطه رسم میشوند و روابط میان اشیاء نیز به واسطه اتصالاتی که میان اشیاء رسم شده، نمایش داده خواهند شد و ویژگیهایی از قبیل جهت و وزن را برای اشیاء تعریف میکنند. برای مثال صفحات وبی را درنظر بگیرید که علاوهبر متن حاوی لینکهایی به سایر صفحات هستند. موتورهای جستوجوی وب برای آنکه بتوانند مطالبی که افراد در آنها جستوجو میکنند را پردازش کنند، باید این صفحات وب را جمعآوری و پردازش کرده و محتویات درون آنها را استخراج کنند.
دادههایی که اشیاء آنها نمودار هستند: وقتی اشیاء ساختاریافته باشند، یعنی هر شیء تعدادی شیء دیگر به عنوان زیرمجموعه داشته باشد که بین آنها رابطه وجود دارد، این اشیاء اغلب در قالب نمودار به نمایش درمیآیند. برای مثال، ساختار ترکیبات شیمیایی را میتوان در نموداری نشان داد که هر نقطه آن نمایانگر یک اتم و اتصالات بین این نقاط نمایانگر پیوندهای شیمیایی باشند. در برخی از انواع دادهها، رابطه صفات دادهها با یکدیگر دارای ترتیب زمانی یا فضایی است.این قبیل دادهها را میتوان در ۴ دسته مجزا بررسی کرد:
۱٫ دادههای متوالی: این دادهها که گاه با نام دادههای موقتی نیز از آنها یاد میشود را میتوان دادههای ثبتی تعمیمیافته دانست که هر رکورد آن یک زمان مشخص دارد. برای مثال، دیتاست مربوط به تراکنشهای یک خردهفروشی را درنظر بگیرید که علاوهبر خود تراکنشها زمان انجام تراکنش نیز در آن ذخیره شده است.
۲.دادههای رشتهای: دادههای رشتهای به دیتاستی گفته میشود که حاوی رشتهای از دادههای مجزا (برای مثال، رشتهای از کلمات یا حروف) است. این دادهها شباهت زیادی به دادههای متوالی دارند، اما تفاوت آنها در این است که دادههای رشتهای بهجای زمان، یک جایگاه مشخص در رشته ترتیبی مربوطه دارند. برای مثال، اطلاعات ژنتیکی گیاهان و جانوران را میتوان در قالب دادههای رشتهای و بهصورت رشتهای از نوکلئوتیدها (که هر یک به عنوان یک ژن درنظر گرفته میشوند) ذخیره کرد.
۳٫دادههای سری زمانی: دادههای سری زمانی نوع خاصی از دادههای متوالی هستند که در آنها هر رکورد یک سری زمانی است؛ برای مثال، در هر رکورد میتوان نتایج ارزیابی یک مسئله درطول زمان را ذخیره کرد. برای ارائه یک مثال دیگر از دادههای سری زمانی میتوان یکی از انواع دیتاست های مالی را درنظر گرفت که هر یک از اشیاء آن یک سری زمانی از قیمت روزانه چندین سهم متفاوت باشد.
۴.دادههای فضایی: در این نوع دادهها، برخی از اشیاء علاوهبر سایر صفاتشان، صفات فضایی همچون مکان یا ناحیه نیز دارند. برای مثال، دادههای آبوهوایی (بارش، دما یا فشار) را درنظر بگیرید که از موقعیتهای جغرافیایی مختلف جمعآوری شدهاند.
انواع dataset در هوش مصنوعی
در هوش مصنوعی، در یادگیری ماشین و پروسه اجرا، از مجموعه داده یا dataset های مختلفی استفاده میشود.
Training
مجموعه داده یادگیری یا training dataset، مجموعه ای متشکل از feature ها و پاسخ ها یا label های درست است.
از مجموعه داده یادگیری یا training برای آموزش به نرم افزار استفاده میشود.
Testing
از مجموعه داده آزمایش یا testing dataset برای آزمودن عملکرد یک الگوریتم یا نرم افزار استفاده میشود.
منابع دیتاست
برای دسترسی به مجموعه دادهها، منابع گوناگونی وجود دارد که تعدادی از آنها را بیان میکنیم:
Google Dataset Search
Kaggle
Amazon
World Bank Data
Github
Visual Data
The Big Bad NLP Database
DataVancouver
دیتاستها چه انواعی دارند؟
از انواع مجموعه دادهها میتوان به دیتاستهای متنی، تصویری و صوتی اشاره کرد.در ادامه چند نمونه از دیتاستها را بیان میکنیم.مثال:
مجموعه دادهٔ Boston Housing Dataset یک مجموعه دادهٔ عمومی محسوب میشود که شامل اطلاعات مربوط به مسکن در منطق بوستون است توسط سرویس سرشماری ایالات متحده جمعآوری و تهیه شده است.
دیتاست Mall Customers Dataset مجموعه دادههایی شامل اطلاعات افرادی است که به یک مرکز خرید مراجعه و از آن بازدید میکنند. این دیتاست شامل جنسیت، سن، درآمد و سایر اطلاعات مشابه از این افراد است. مجموعه دادههای Mall Customers Dataset یکی از دیتاستهای یادگیری ماشین به شمار میروند.
Twitter Airline Sentiment: شامل دادههای توییتری مربوط به خطوط هوایی ایالات متحده است که در دستهبندیهای مثبت، منفی و خنثی قرار گرفتهاند؛ این دیتاست یکی از مجموعه دادههای تجزیه و تحلیل احساسات است.
سلام مطلب تون مفید بود. منم یه دیتاست در خصوص حروف و اعداد الفبای فارسی ساختم تا بتونید هم برای تشخیص الفبای فارسی ازش استفاده کنید هم برای تشخیص پلاک خودرو های ایرانی امیدوارم ازش استفاده کنید و بدردتون بخوره
سلام مطلب تون مفید بود. منم یه دیتاست در خصوص حروف و اعداد الفبای فارسی ساختم تا بتونید هم برای تشخیص الفبای فارسی ازش استفاده کنید هم برای تشخیص پلاک خودرو های ایرانی امیدوارم ازش استفاده کنید و بدردتون بخوره
kaggle link:
https://www.kaggle.com/datasets/mehdisahraei/persian-alpha?resource=download
دوست داشتید رای بدید