بلاگ

هر کاری می کنم دیتاست گیر نمی آورم. چکار کنم؟

مدتی هست که در این فیلد افرادی رو می بینم که دنبال دیتاست هستند(یکسری دیتا که باهاش آزمایشات خودشون رو انجام بدن). سوالات زیادی در این مورد از من می پرسیدند و گاهی می دیدم حتی فیلد خودشون رو عوض می کردند. همین الان که در حال کمک کردن به دو نفر از کاربران گرامی […]

۲۲ بهمن ۱۳۹۳

مهدی مقیمی

نمایش بیشتر

ابزار وب معنایی متن باز OWLGrEd

چکیده : OWL به تدریج به پرکاربردترین زبان نمایش دانش تبدیل می شود که با موفقیت در تعدادی از برنامه ها به کار گرفته شده است. به دلیل معناشناسی رسمی و در دسترس بودن دلایلی برای کاربا OWL، در جامعه مهندسی نرم‌افزار نیز محبوبیت پیدا می‌کند که تاکنون عمدتاً تحت سلطه UML بوده است. بسیاری […]

۰۲ مرداد ۱۴۰۱

محدثه مقیمی

نمایش بیشتر

خلاصه شروع سرد

وجود مشکل شروع سرد در سیستمهای توصیهگر تجاری میتواند منجر به ارائه توصیههای نامناسب شود که این امر ضمن سلب اعتماد کاربر، باعث رنجش و انصراف کاربر از ادامه انجام فرایند خرید میشود.مشکل شروع سرد زمانی رخ میدهد که کاربر یا اقلام جدیدی در سیستم وارد شود. در این حالت سیستم توصیهگر بدلیل در دسترس […]

۰۳ مرداد ۱۴۰۱

محدثه مقیمی

نمایش بیشتر

ایجاد دیتاست

به داده‌هایی گفته می‌شود که با موضوع، خواص مشص و یکسان جهت انجام تحقیقات و پروژه‌های مربوط به Data Science (علم داده) جهت کسب دانش از داده‌ها استفاده می‌شود. گاهی مجموعه داده‌ها به این شکل به وجود می‌آیند که پژوهشگران در یک حوزه‌ای از پژوهش شروع به جمع آوری داده می‌کنند تا در آن حوزه […]

۰۹ مرداد ۱۴۰۱

محدثه مقیمی

نمایش بیشتر

انجام پروژه های داده کاوی

داده کاوی چیست؟ داده کاوی علمی است که به استخراج اطلاعات پنهان یا روابط در حجم زیادی از داده ها از طریق نرم افزارهای رپیدماینر، کلمنتاین، پایتون و متلب می پردازد. داده کاوی شاخه توسعه یافته از علم آمار می باشد. داده کاوی فراتر از علم آمار است و امکاناتی را در اختیار شما قرار […]

۰۲ تیر ۱۴۰۱

محدثه مقیمی

نمایش بیشتر

خوشه‌بندی پروفایل‌های کاربران با استفاده از روش Fuzzy C-Means در متلب

به منظور دانلود کدهای مرتبط با این موضوع به اینجا(دانلود کد خوشه بندی فازی کامیانه) مراجعه کنید. همان‌طور که قبلا ذکر شد با استفاده از الگوریتم Fuzzy C-Means در محیط نرم‌افزار MATLAB اجرا شده است .در پیاده‌سازی Fuzzy C-Means با MATLAB انعطاف‌های لازمه در قالب پارامترهای ورودی درنظر گرفته شده که کد آن با توضیحات […]

۱۵ تیر ۱۴۰۱

محدثه مقیمی

نمایش بیشتر

دیتاست چیست؟

دیتاست همانگونه از نامش مشخص است به عنوان مجموعه‌ای از داده‌ها تعریف می‌شود. ساده‌ترین و رایج‌ترین قالب برای دیتاست‌هایی که به صورت آنلاین پیدا خواهید کرد، یک صفحه گسترده یا قالب CSV است که به صورت جدول با ردیف‌ها و ستون‌های سازمان یافته است. اما برخی از مجموعه‌های داده در قالب‌های دیگری ذخیره می‌شوند و […]

۰۴ مرداد ۱۴۰۱

محدثه مقیمی

نمایش بیشتر

آشنایی بیشتر با زنجیره های مارکوف

این چند خط یکی از Draft های من از زمان خیلی قدیمه که حیفم اومد به زباله دان منتقلش کنم. کمی در خصوص مارکوف نوشته که شاید راهی هر چند کوتاه باشه برای جستجو. زنجیره های مارکف که پس ازمارکف، نظریه پرداز روسی در زمینه علم احتمال، بدین نام خوانده می شوند، طبقه خاصی از […]

۱۱ شهریور ۱۳۹۶

مهدی مقیمی

نمایش بیشتر

راهنمای Hitchhiker برای MapReduce با MRJob در پایتون

۱٫ MapReduce چیست؟ MapReduce یک الگوی برنامه‌نویسی برای پردازش کلان داده است که در آن داده‌ها به تکه‌های توزیع شده تقسیم می‌شوند و توسط یک سری تبدیل پردازش می‌شوند. پارادایم برنامه نویسی MapReduce داده ها را در ۲ عملیات پردازش می کند: map() و سپس reduce(). map() یک تابع تعریف شده توسط کاربر است که هر […]

۲۵ دی ۱۴۰۱

محدثه مقیمی

نمایش بیشتر

در مورد نظرکاوی بیشتر بدانیم

وقتی صحبت از نظر کاوی پیش می‌آید ابتدا ذهن همه به دنبال دسته‌بندی حسی (تحلیل احساسات) می‌رود. اما دسته‌بندی حسی یا تشخیص حس نویسنده از متن یکی از فیلدهای پرطرفدار و کاربردی نظرکاوی است. تولید مجموعه لغات حسی ساخت مجموعه لغات حاوی حس یکی از روشهای مورد توجه محققان برای تشخیص حس جملات است. بطور […]

۲۱ تیر ۱۴۰۱

محدثه مقیمی

نمایش بیشتر

چرا مرجوب؟

mrjob ساده ترین راه برای نوشتن برنامه های پایتون است که روی Hadoop اجرا می شوند. اگر از mrjob استفاده می‌کنید، می‌توانید کد خود را به صورت محلی بدون نصب Hadoop آزمایش کنید یا آن را روی خوشه مورد نظر خود اجرا کنید. علاوه بر این، mrjob دارای ادغام گسترده با Amazon Elastic MapReduce است. […]

۲۴ دی ۱۴۰۱

محدثه مقیمی

نمایش بیشتر

ensemble learning

یکی از اهداف اولیه در داده کاوی، پیش بینی یک مقدار نامعلوم از یک نمونه جدید براساس نمونه های مشاهده شده قبلی است. دستیابی به چنین نتیجه ای با دو گام حاصل می شود: مرحله آموزش: ایجاد یک مدل پیش بینی از نمونه های آموزشی با استفاده از یکی از الگوریتم های یادگیری با ناظر […]

۱۵ مرداد ۱۳۹۵

مهدی مقیمی

نمایش بیشتر

پیشینه پژوهش

نویسنده برای حل مشکل مقیاس پذیری از روش فیلتر مشارکتی ، الگوریتم فیلتر مشارکتی مبتنی بر کاربر را در یک سیستم عامل محاسبات ابری توزیع شده که Hadoop است ، پیاده سازی می کند. مزایا : ۱٫برای پیدا کردن علاقه به موارد مشابه بهتر است. ۲٫ توصیه شخصی. نویسنده روی توصیه های سفر شخصی متمرکز […]

۰۱ مرداد ۱۴۰۱

محدثه مقیمی

نمایش بیشتر

درخت های FP و الگوریتم FP-Growth در بیگ دیتا

کاوش قوانین انجمنی کاوش قوانین انجمنی در راستای کشف ارتباطات جالب و با اهمیت بین اقلام اطلاعاتی در پایگاه داده ها ی بزرگ و انبار های تراکنش می باشد. داده کاوی انجمنی و استخراج قوانین انجمنی از مجموعه داده ها اولین بار توسط آگراوال برای کشف دانش و الگوهای خرید کاربران یک فروشگاه ارائه گردید. […]

۲۷ شهریور ۱۳۹۵

مهدی مقیمی

نمایش بیشتر

پیش پردازش داده چیست؟

پیش پردازش داده، جزئی از آماده سازی داده ها ، هر نوع پردازشی را توصیف می کند که بر روی داده های خام انجام می شود تا آن را برای فرآیند پردازش داده دیگری آماده کند. این به طور سنتی یک مرحله مقدماتی مهم برای فرآیند داده کاوی بوده است . اخیراً، تکنیک‌های پیش‌پردازش داده‌ها برای آموزش مدل‌های یادگیری ماشین و مدل‌های هوش […]

۰۳ اسفند ۱۴۰۱

محدثه مقیمی

نمایش بیشتر

مروری کلی بر داده کاوی

مقدمه دنیای مدرن در واقع دنیایی داده ‏گرا است. ما با داده‏ های عددی و غیرعددی در بخش های صنعتی ، بازرگانی ، مدیریتی ، مالی و علمی احاطه شده‏ ایم. این داده‏ ها باید تحلیل و پردازش شوند تا تبدیل به اطلاعاتی شوند که آگاهی بخش ، آموزش دهنده و پاسخگو باشند یا به […]

۲۷ شهریور ۱۳۹۵

مهدی مقیمی

نمایش بیشتر

مقایسه چند نرم افزار قدرتمند در زمینه تولید آنتولوژی

در ادامه به تشریح چند نرم افزار معروف در زمینه آنتولوژی می پردازیم و به مقایسه آنها به یکدیگر از چند لحاظ می پردازیم. نرم افزار ها به قرار زیر می باشند. Apollo OntoStudio Protégé Swoop TopBraid Composer Free Edition تمام این ابزار ها در بخش طراحی و توسعه ی هستی شناسی گسترده هستند و […]

۱۳ مهر ۱۳۹۷

مهدی مقیمی

نمایش بیشتر

صفر تا صد داده کاوی

داده کاوی چیست؟ داده کاوی ترجمه عبارت Data Mining و به معنی کاویدن معادن داده است. داده کاوی یعنی استخراج اطلاعات گرانبها از حجم عظیم معادن داده. می‌توانید داده کاوی (Data Mining) را نوعی روش حل مساله در نظر بگیرید که با تحلیل حجم زیادی از داده‌ها، الگوهای تکرار شونده را از آن‌ها استخراج می‌کند. […]

۱۱ مرداد ۱۴۰۱

محدثه مقیمی

نمایش بیشتر

کار با پورت سریال یا کام (COM) در سی شارپ

اصول تبادل داده در پورت سریال در تبادل داده دو روش را به کار می بریم که یکی روش همزمان و دیگری غیر همزمان است . روش همزمان هر بار یک بلوک از داده را انتقال می دهد درحالی که روش غیر همزمان هر بار یک بایت را منتقل می سازد . می توان برای […]

۰۹ خرداد ۱۳۹۳

مهدی مقیمی

نمایش بیشتر

داده های پرت و داده های نویز. آیا این دو متفاوت اند؟

یکی از چالش‌ها در تشخیص داده‌های پرت، وجود نویز می‌باشد. نویز با داده پرت متفاوت است. نویز، خطا (یا واریانس) تصادفی در داده‌هاست که باید قبل از تشخیص داده پرت حذف شود. اما داده‌های پرت، داده‌هایی هستند که آن‌قدر اختلاف زیادی با داده‌های ما دارند که به نظر می‌رسد با روش دیگری ساخته شده‌اند، برای […]

۳۰ مهر ۱۳۹۳

مهدی مقیمی

نمایش بیشتر

دسته بندهای Naive Bayes و KNN

Naive Bayes چیست؟ به طور ساده روش بیز روشی برای دسته بندی پدیده‌ها، بر پایه احتمال وقوع یا عدم وقوع یک پدیده‌است.براساس ویژگی‌های ذاتی احتمال(به ویژه اشتراک احتمال) نایو بیز با دریافت تمرین اولیه نتایج خوبی ارایه خواهد کرد. شیوه یادگیری در روش نایو بیز از نوع یادگیری با ناظر است. برای نمونه یک میوه […]

۲۷ بهمن ۱۳۹۳

مهدی مقیمی

نمایش بیشتر

مقدمه ای بر سیستم های توصیه کننده

پیش مقدمه اینترنت با همه مزایایی که دارد مشکلاتی را برای کاربران خود به وجود آورده است. زمانی که کاربر به منظور تامین خواسته ای به اینترنت متصل میشود با حجم عظیم اطلاعات مرتبط با نیازش مواجه میشود. انتخاب بهترین مورد از میان موارد موجود، مشکلی است که اکثر کاربران آن را تجربه کرده اند. […]

۰۷ آبان ۱۳۹۳

مهدی مقیمی

نمایش بیشتر

تکنیک های داده کاوی (Data Mining Techniques)

در تحقیقات بازاریابی که در چند سال اخیر بیشتر مورد توجه قرار گرفته است، داده کاوی نقش مهمی‌ دارد. یک سری مطالعات در فروشگاه‌های آمریکا صورت گرفته و نتیجه به این شکل بود که مردم در این کشور وقتی برای خرید شیر وارد یک مغازه ‌می‌شوند، ناخودآگاه اقدام به خرید نان هم ‌می‌کنند. این روال […]

۱۱ مرداد ۱۴۰۱

محدثه مقیمی

نمایش بیشتر

انواع دیتاست

مجموعه داده (Dataset) مجموعه ای از داده ها است. در مورد داده های جدولی ، یک مجموعه داده مربوط به یک یا چند جدول پایگاه داده است ، که در آن هر ستون یک جدول متغیر خاصی را نشان می دهد و هر سطر مربوط به یک رکورد(یعنی یک اطلاعات به خصوص ثبت شده ) […]

۱۰ مرداد ۱۴۰۱

محدثه مقیمی

نمایش بیشتر

گذری بر ابعاد فرکتال (بعد فرکتال یا بعد Fractal)

روش های محاسبه بعد فرکتال Corolation Dimintion بعد همبستگی یک معیار اندازه گیری ابعاد فضای اشغال شده توسط مجموعه ای از نقاط تصادفی می باشد این نقاط می تواند حاصل یک مکانیک هرج ومرج و آشوبگون و یا یک مولد اعداد تصادفی و یا یک فرکتال باشد به عنوان مثال بعد یک نقطه ۰ و […]

۰۱ آذر ۱۳۹۶

مهدی مقیمی

نمایش بیشتر

تحلیل کلی مشکلات و محدودیتهای سیستم های توصیه گر

تحلیل کلی مشکلات و محدودیت های سیستم های توصیه گر در این بخش، برخی از مشکلات رایج در سیستم های توصیه گر که رو به گسترش هستند و همچنین بعضی از مسیرهای مطالعاتی را که منجر به حل آنها می شود و در بیان شده است، ارائه خواهیم داد. پراکندگی به یک بیان ساده، اغلب […]

۱۹ بهمن ۱۳۹۳

مهدی مقیمی

نمایش بیشتر

پیاده سازی مدل مارکوف پیش بینی کننده وب

یکی از مراحل کار با مدل مارکوف استفاده از پنجره لغزان یا اسلایدینگ ویندو هست. باید تمام داده ها رو هش کرد و جریان کلیک کاربران رو استخراج کرد. در ادامه در این خصوص و شیوه کار اسلایدینگ ویندو و شیوه پیش بینی توسط مدل مارکوف توضیحاتی می دم پیاده سازی عمل هش کردن مجموعه […]

۱۰ خرداد ۱۳۹۳

مهدی مقیمی

نمایش بیشتر

خوشه بندی سلسله مراتبی(الگوریتم های سلسله مراتبی)

روش های خوشه‌بندی سلسله مراتبی همان گونه که بیان شد، در روش خوشه بندی سلسله مراتبی، به خوشه‌های نهایی بر اساس میزان عمومیت آنها ساختاری سلسله‌ مراتبی، معمولا به صورت درختی نسبت داده می‌شود. به ا ین درخت سلسله مراتبی دندوگرام (dendogram) می‌گویند. روش کار تکنیک های خوشه‌بندی سلسله‌مراتبی معمولا بر اساس الگوریتم های حریصانه […]

۱۹ شهریور ۱۳۹۵

مهدی مقیمی

نمایش بیشتر

خوشه‌بندی پروفایل‌های کاربران با استفاده از روش Fuzzy C-Means در متلب

۲۰ شهریور ۱۳۹۶

مهدی مقیمی

نمایش بیشتر

هر کاری می کنم دیتاست گیر نمی آورم. چکار کنم؟

ابزار وب معنایی متن باز OWLGrEd

خلاصه شروع سرد

ایجاد دیتاست

انجام پروژه های داده کاوی

خوشه‌بندی پروفایل‌های کاربران با استفاده از روش Fuzzy C-Means در متلب

دیتاست چیست؟

آشنایی بیشتر با زنجیره های مارکوف

راهنمای Hitchhiker برای MapReduce با MRJob در پایتون

در مورد نظرکاوی بیشتر بدانیم

چرا مرجوب؟

ensemble learning

پیشینه پژوهش

درخت های FP و الگوریتم FP-Growth در بیگ دیتا

پیش پردازش داده چیست؟

مروری کلی بر داده کاوی

مقایسه چند نرم افزار قدرتمند در زمینه تولید آنتولوژی

صفر تا صد داده کاوی

کار با پورت سریال یا کام (COM) در سی شارپ

داده های پرت و داده های نویز. آیا این دو متفاوت اند؟

دسته بندهای Naive Bayes و KNN

مقدمه ای بر سیستم های توصیه کننده

تکنیک های داده کاوی (Data Mining Techniques)

انواع دیتاست

گذری بر ابعاد فرکتال (بعد فرکتال یا بعد Fractal)

تحلیل کلی مشکلات و محدودیتهای سیستم های توصیه گر

پیاده سازی مدل مارکوف پیش بینی کننده وب

خوشه بندی سلسله مراتبی(الگوریتم های سلسله مراتبی)

خوشه‌بندی پروفایل‌های کاربران با استفاده از روش Fuzzy C-Means در متلب

دسترسی سریع

تماس با ما