دیتاماینینگ یار

انواع دیتاست

مجموعه داده (Dataset) مجموعه ای از داده ها است. در مورد داده های جدولی ، یک مجموعه داده مربوط به یک یا چند جدول پایگاه داده است ، که در آن هر ستون یک جدول متغیر خاصی را نشان می دهد و هر سطر مربوط به یک رکورد(یعنی یک اطلاعات به خصوص ثبت شده ) معین از مجموعه داده مورد نظر است. مجموعه داده ها برای هر یک از متغیرها ، مانند ارتفاع و وزن یک شی ، برای هر یک از اعضای مجموعه داده ها لیست می کند. هر مقدار به عنوان یک داده شناخته می شود. مجموعه داده ها همچنین می توانند شامل مجموعه ای از اسناد یا پرونده ها باشند.

مجموعه ای از داده ها است که در آن داده ها به ترتیبی مرتب شده اند تمامی روش‌ها و متدهای یادگیری ماشین بر روی ‌داده‌ها اجرا می‌شوند و درواقع این داده‌ها هستند که نقطه شروع فرایند داده‌کاوی، علم داده‌ها و به‌طورکلی یادگیری ماشین می‌باشند.به صورت ساده دیتاست ها و یا مجموعه داده ها : به مجموعه ای گرد آوری شده از هر نوع اطلاعات تلقی میشود که می تواند به صورت زیر شاخه زیر شاخه آن اطلاعات را طبقه بندی کرد و ممکن است هر مجموعه داده شامل هزاران نوع و مدل خاص اطلاعات باشد .

انواع مجموعه داده عبارتند از :

انواع داده ها در مجموعه داده

منظور از پراکندگی در یک دیتاست چیست؟

در برخی از دیتاست‌ها، به‌ویژه دیتاست‌هایی که ویژگی‌های نامتقارن دارند، مقدار اغلب صفات یک شیء صفر است و در اکثر موارد، تنها کمتر از ۱% از آن‌ها مقداری غیر صفر دارند. این‌گونه داده‌ها، داده‌های پراکنده نامیده می‌شوند. همچنین می‌توان گفت که این دیتاست دارای پراکندگی است.

روش‌های ایجاد دیتاست

دیتاست‌ها غالبا به صورت عمومی عرضه می‌شوند اما ممکن است برای موضوعات خاصی، دیتاست مورد نظر را پیدا نکنید. در چنین شرایطی باید سراغ راه‌های ایجاد مجموعهٔ داده بروید.
در واقع دیتاست‌ها از راه‌های مختلفی ایجاد می‌شوند که از این روش‌ها می‌توان به موارد زیر اشاره کرد:

داده‌های دیتاست می‌توانند متنی، جدولی یا مولتی مدیا باشند. به عنوان مثال یک دیتاست می‌تواند شامل نظرات کاربران درشبکه‌های اجتماعی باشد و دیتاست دیگری، شامل عکس دوربین‌های مداربسته.

همچنین مجموعهٔ داده‌ها می‌توانند از لحاظ رسانه‌ای که روی آن ارائه می‌شوند، در ۴ دسته قرار بگیرند:

انواع دیتاست

در زمان داده‌کاوی اغلب فرض می‌شود که داده‌ها مجموعه‌ای از رکوردها هستند (شیء داده).در ساده‌ترین گونه داده‌های ثبتی هیچ رابطه روشنی میان رکوردها یا فیلد داده‌ها وجود ندارد و همه رکوردها (شیءها) مجموعه صفات یکسانی دارند. داده‌های ثبتی معمولاً در فایل‌های مسطح یا پایگاه‌های داده‌های رابطه‌ای ذخیره می‌شوند.
داده‌های ثبتی انواع مختلفی دارند که هر یک از آن‌ها ویژگی‌های ذاتی مخصوص به خود را دارد.

۱٫ داده‌های متوالی: این داده‌ها که گاه با نام داده‌های موقتی نیز از آن‌ها یاد می‌شود را می‌توان داده‌های ثبتی تعمیم‌یافته دانست که هر رکورد آن یک زمان مشخص دارد. برای مثال، دیتاست مربوط به تراکنش‌های یک خرده‌فروشی را درنظر بگیرید که علاوه‌بر خود تراکنش‌ها زمان انجام تراکنش نیز در آن ذخیره شده است.

۲.داده‌های رشته‌ای: داده‌های رشته‌ای به دیتاستی گفته می‌شود که حاوی رشته‌ای از داده‌های مجزا (برای مثال، رشته‌ای از کلمات یا حروف) است. این داده‌ها شباهت زیادی به داده‌های متوالی دارند، اما تفاوت آن‌ها در این است که داده‌های رشته‌ای به‌جای زمان، یک جایگاه مشخص در رشته ترتیبی مربوطه دارند. برای مثال، اطلاعات ژنتیکی گیاهان و جانوران را می‌توان در قالب داده‌های رشته‌ای و به‌صورت رشته‌ای از نوکلئوتیدها (که هر یک به عنوان یک ژن درنظر گرفته می‌شوند) ذخیره کرد.

۳٫داده‌های سری زمانی: داده‌های سری زمانی نوع خاصی از داده‌های متوالی هستند که در آن‌ها هر رکورد یک سری زمانی است؛ برای مثال، در هر رکورد می‌توان نتایج ارزیابی یک مسئله درطول زمان را ذخیره کرد. برای ارائه یک مثال دیگر از داده‌های سری زمانی می‌توان یکی از انواع دیتاست های مالی را درنظر گرفت که هر یک از اشیاء آن یک سری زمانی از قیمت روزانه چندین سهم متفاوت باشد.

۴.داده‌های فضایی: در این نوع داده‌ها، برخی از اشیاء علاوه‌بر سایر صفات‌شان، صفات فضایی همچون مکان یا ناحیه نیز دارند. برای مثال، داده‎های آب‌وهوایی (بارش، دما یا فشار) را درنظر بگیرید که از موقعیت‌های جغرافیایی مختلف جمع‌آوری شده‌اند.

انواع dataset در هوش مصنوعی

در هوش مصنوعی، در یادگیری ماشین و پروسه اجرا، از مجموعه داده یا dataset های مختلفی استفاده می‌شود.

مجموعه داده یادگیری یا training dataset، مجموعه ای متشکل از feature ها و پاسخ ها یا label های درست است.

از مجموعه داده یادگیری یا training برای آموزش به نرم افزار استفاده می‌شود.

از مجموعه داده آزمایش یا testing dataset برای آزمودن عملکرد یک الگوریتم یا نرم افزار استفاده می‌شود.

منابع دیتاست

برای دسترسی به مجموعه داده‌ها، منابع گوناگونی وجود دارد که تعدادی از آنها را بیان می‌کنیم:

دیتاست‌ها چه انواعی دارند؟

از انواع مجموعه داده‌ها می‌توان به دیتاست‌های متنی، تصویری و صوتی اشاره کرد.در ادامه چند نمونه از دیتاست‌ها را بیان می‌کنیم.مثال:

ارتباط و مشاوره با شما ۰۹۳۶۷۹۳۸۰۱۸ در واتس اپ

دیدگاه‌ها (1)

*
*


پاسخ من را به ایمیلم ارسال کن

    مهدی مهمان 4 اسفند 1401 پاسخ

    سلام مطلب تون مفید بود. منم یه دیتاست در خصوص حروف و اعداد الفبای فارسی ساختم تا بتونید هم برای تشخیص الفبای فارسی ازش استفاده کنید هم برای تشخیص پلاک خودرو های ایرانی امیدوارم ازش استفاده کنید و بدردتون بخوره

    kaggle link:
    https://www.kaggle.com/datasets/mehdisahraei/persian-alpha?resource=download

    دوست داشتید رای بدید

error: با عرض پوزش؛ لطفا از مطالعه مطالب لذت ببرید.