در مورد نظرکاوی بیشتر بدانیم
وقتی صحبت از نظر کاوی پیش میآید ابتدا ذهن همه به دنبال دستهبندی حسی (تحلیل احساسات) میرود. اما دستهبندی حسی یا تشخیص حس نویسنده از متن یکی از فیلدهای پرطرفدار و کاربردی نظرکاوی است. تولید مجموعه لغات حسی ساخت مجموعه لغات حاوی حس یکی از روشهای مورد توجه محققان برای تشخیص حس جملات است. بطور […]
پیشینه پژوهش
نویسنده برای حل مشکل مقیاس پذیری از روش فیلتر مشارکتی ، الگوریتم فیلتر مشارکتی مبتنی بر کاربر را در یک سیستم عامل محاسبات ابری توزیع شده که Hadoop است ، پیاده سازی می کند. مزایا : ۱٫برای پیدا کردن علاقه به موارد مشابه بهتر است. ۲٫ توصیه شخصی. نویسنده روی توصیه های سفر شخصی متمرکز […]
ابزار وب معنایی متن باز OWLGrEd
چکیده : OWL به تدریج به پرکاربردترین زبان نمایش دانش تبدیل می شود که با موفقیت در تعدادی از برنامه ها به کار گرفته شده است. به دلیل معناشناسی رسمی و در دسترس بودن دلایلی برای کاربا OWL، در جامعه مهندسی نرمافزار نیز محبوبیت پیدا میکند که تاکنون عمدتاً تحت سلطه UML بوده است. بسیاری […]
پیاده سازی مدل مارکوف پیش بینی کننده وب
یکی از مراحل کار با مدل مارکوف استفاده از پنجره لغزان یا اسلایدینگ ویندو هست. باید تمام داده ها رو هش کرد و جریان کلیک کاربران رو استخراج کرد. در ادامه در این خصوص و شیوه کار اسلایدینگ ویندو و شیوه پیش بینی توسط مدل مارکوف توضیحاتی می دم پیاده سازی عمل هش کردن مجموعه […]
انواع دیتاست
مجموعه داده (Dataset) مجموعه ای از داده ها است. در مورد داده های جدولی ، یک مجموعه داده مربوط به یک یا چند جدول پایگاه داده است ، که در آن هر ستون یک جدول متغیر خاصی را نشان می دهد و هر سطر مربوط به یک رکورد(یعنی یک اطلاعات به خصوص ثبت شده ) […]
مقدمه ای بر سیستم های توصیه کننده
پیش مقدمه اینترنت با همه مزایایی که دارد مشکلاتی را برای کاربران خود به وجود آورده است. زمانی که کاربر به منظور تامین خواسته ای به اینترنت متصل میشود با حجم عظیم اطلاعات مرتبط با نیازش مواجه میشود. انتخاب بهترین مورد از میان موارد موجود، مشکلی است که اکثر کاربران آن را تجربه کرده اند. […]
داده های پرت و داده های نویز. آیا این دو متفاوت اند؟
یکی از چالشها در تشخیص دادههای پرت، وجود نویز میباشد. نویز با داده پرت متفاوت است. نویز، خطا (یا واریانس) تصادفی در دادههاست که باید قبل از تشخیص داده پرت حذف شود. اما دادههای پرت، دادههایی هستند که آنقدر اختلاف زیادی با دادههای ما دارند که به نظر میرسد با روش دیگری ساخته شدهاند، برای […]
مروری کلی بر داده کاوی
مقدمه دنیای مدرن در واقع دنیایی داده گرا است. ما با داده های عددی و غیرعددی در بخش های صنعتی ، بازرگانی ، مدیریتی ، مالی و علمی احاطه شده ایم. این داده ها باید تحلیل و پردازش شوند تا تبدیل به اطلاعاتی شوند که آگاهی بخش ، آموزش دهنده و پاسخگو باشند یا به […]
ensemble learning
یکی از اهداف اولیه در داده کاوی، پیش بینی یک مقدار نامعلوم از یک نمونه جدید براساس نمونه های مشاهده شده قبلی است. دستیابی به چنین نتیجه ای با دو گام حاصل می شود: مرحله آموزش: ایجاد یک مدل پیش بینی از نمونه های آموزشی با استفاده از یکی از الگوریتم های یادگیری با ناظر […]
آشنایی بیشتر با زنجیره های مارکوف
این چند خط یکی از Draft های من از زمان خیلی قدیمه که حیفم اومد به زباله دان منتقلش کنم. کمی در خصوص مارکوف نوشته که شاید راهی هر چند کوتاه باشه برای جستجو. زنجیره های مارکف که پس ازمارکف، نظریه پرداز روسی در زمینه علم احتمال، بدین نام خوانده می شوند، طبقه خاصی از […]
صفر تا صد داده کاوی
داده کاوی چیست؟ داده کاوی ترجمه عبارت Data Mining و به معنی کاویدن معادن داده است. داده کاوی یعنی استخراج اطلاعات گرانبها از حجم عظیم معادن داده. میتوانید داده کاوی (Data Mining) را نوعی روش حل مساله در نظر بگیرید که با تحلیل حجم زیادی از دادهها، الگوهای تکرار شونده را از آنها استخراج میکند. […]
پیش پردازش داده چیست؟
پیش پردازش داده، جزئی از آماده سازی داده ها ، هر نوع پردازشی را توصیف می کند که بر روی داده های خام انجام می شود تا آن را برای فرآیند پردازش داده دیگری آماده کند. این به طور سنتی یک مرحله مقدماتی مهم برای فرآیند داده کاوی بوده است . اخیراً، تکنیکهای پیشپردازش دادهها برای آموزش مدلهای یادگیری ماشین و مدلهای هوش […]
مقایسه چند نرم افزار قدرتمند در زمینه تولید آنتولوژی
در ادامه به تشریح چند نرم افزار معروف در زمینه آنتولوژی می پردازیم و به مقایسه آنها به یکدیگر از چند لحاظ می پردازیم. نرم افزار ها به قرار زیر می باشند. Apollo OntoStudio Protégé Swoop TopBraid Composer Free Edition تمام این ابزار ها در بخش طراحی و توسعه ی هستی شناسی گسترده هستند و […]
دسته بندهای Naive Bayes و KNN
Naive Bayes چیست؟ به طور ساده روش بیز روشی برای دسته بندی پدیدهها، بر پایه احتمال وقوع یا عدم وقوع یک پدیدهاست.براساس ویژگیهای ذاتی احتمال(به ویژه اشتراک احتمال) نایو بیز با دریافت تمرین اولیه نتایج خوبی ارایه خواهد کرد. شیوه یادگیری در روش نایو بیز از نوع یادگیری با ناظر است. برای نمونه یک میوه […]
تحلیل کلی مشکلات و محدودیتهای سیستم های توصیه گر
تحلیل کلی مشکلات و محدودیت های سیستم های توصیه گر در این بخش، برخی از مشکلات رایج در سیستم های توصیه گر که رو به گسترش هستند و همچنین بعضی از مسیرهای مطالعاتی را که منجر به حل آنها می شود و در بیان شده است، ارائه خواهیم داد. پراکندگی به یک بیان ساده، اغلب […]
هر کاری می کنم دیتاست گیر نمی آورم. چکار کنم؟
مدتی هست که در این فیلد افرادی رو می بینم که دنبال دیتاست هستند(یکسری دیتا که باهاش آزمایشات خودشون رو انجام بدن). سوالات زیادی در این مورد از من می پرسیدند و گاهی می دیدم حتی فیلد خودشون رو عوض می کردند. همین الان که در حال کمک کردن به دو نفر از کاربران گرامی […]
خوشه بندی سلسله مراتبی(الگوریتم های سلسله مراتبی)
روش های خوشهبندی سلسله مراتبی همان گونه که بیان شد، در روش خوشه بندی سلسله مراتبی، به خوشههای نهایی بر اساس میزان عمومیت آنها ساختاری سلسله مراتبی، معمولا به صورت درختی نسبت داده میشود. به ا ین درخت سلسله مراتبی دندوگرام (dendogram) میگویند. روش کار تکنیک های خوشهبندی سلسلهمراتبی معمولا بر اساس الگوریتم های حریصانه […]
خلاصه شروع سرد
وجود مشکل شروع سرد در سیستمهای توصیهگر تجاری میتواند منجر به ارائه توصیههای نامناسب شود که این امر ضمن سلب اعتماد کاربر، باعث رنجش و انصراف کاربر از ادامه انجام فرایند خرید میشود.مشکل شروع سرد زمانی رخ میدهد که کاربر یا اقلام جدیدی در سیستم وارد شود. در این حالت سیستم توصیهگر بدلیل در دسترس […]
راهنمای Hitchhiker برای MapReduce با MRJob در پایتون
۱٫ MapReduce چیست؟ MapReduce یک الگوی برنامهنویسی برای پردازش کلان داده است که در آن دادهها به تکههای توزیع شده تقسیم میشوند و توسط یک سری تبدیل پردازش میشوند. پارادایم برنامه نویسی MapReduce داده ها را در ۲ عملیات پردازش می کند: map() و سپس reduce(). map() یک تابع تعریف شده توسط کاربر است که هر […]
خوشهبندی پروفایلهای کاربران با استفاده از روش Fuzzy C-Means در متلب
به منظور دانلود کدهای مرتبط با این موضوع به اینجا(دانلود کد خوشه بندی فازی کامیانه) مراجعه کنید. همانطور که قبلا ذکر شد با استفاده از الگوریتم Fuzzy C-Means در محیط نرمافزار MATLAB اجرا شده است .در پیادهسازی Fuzzy C-Means با MATLAB انعطافهای لازمه در قالب پارامترهای ورودی درنظر گرفته شده که کد آن با توضیحات […]
ایجاد دیتاست
به دادههایی گفته میشود که با موضوع، خواص مشص و یکسان جهت انجام تحقیقات و پروژههای مربوط به Data Science (علم داده) جهت کسب دانش از دادهها استفاده میشود. گاهی مجموعه دادهها به این شکل به وجود میآیند که پژوهشگران در یک حوزهای از پژوهش شروع به جمع آوری داده میکنند تا در آن حوزه […]
دیتاست چیست؟
دیتاست همانگونه از نامش مشخص است به عنوان مجموعهای از دادهها تعریف میشود. سادهترین و رایجترین قالب برای دیتاستهایی که به صورت آنلاین پیدا خواهید کرد، یک صفحه گسترده یا قالب CSV است که به صورت جدول با ردیفها و ستونهای سازمان یافته است. اما برخی از مجموعههای داده در قالبهای دیگری ذخیره میشوند و […]
گذری بر ابعاد فرکتال (بعد فرکتال یا بعد Fractal)
روش های محاسبه بعد فرکتال Corolation Dimintion بعد همبستگی یک معیار اندازه گیری ابعاد فضای اشغال شده توسط مجموعه ای از نقاط تصادفی می باشد این نقاط می تواند حاصل یک مکانیک هرج ومرج و آشوبگون و یا یک مولد اعداد تصادفی و یا یک فرکتال باشد به عنوان مثال بعد یک نقطه ۰ و […]
انجام پروژه های داده کاوی
داده کاوی چیست؟ داده کاوی علمی است که به استخراج اطلاعات پنهان یا روابط در حجم زیادی از داده ها از طریق نرم افزارهای رپیدماینر، کلمنتاین، پایتون و متلب می پردازد. داده کاوی شاخه توسعه یافته از علم آمار می باشد. داده کاوی فراتر از علم آمار است و امکاناتی را در اختیار شما قرار […]
خوشهبندی پروفایلهای کاربران با استفاده از روش Fuzzy C-Means در متلب
به منظور دانلود کدهای مرتبط با این موضوع به اینجا(دانلود کد خوشه بندی فازی کامیانه) مراجعه کنید. همانطور که قبلا ذکر شد با استفاده از الگوریتم Fuzzy C-Means در محیط نرمافزار MATLAB اجرا شده است .در پیادهسازی Fuzzy C-Means با MATLAB انعطافهای لازمه در قالب پارامترهای ورودی درنظر گرفته شده که کد آن با توضیحات […]
کار با پورت سریال یا کام (COM) در سی شارپ
اصول تبادل داده در پورت سریال در تبادل داده دو روش را به کار می بریم که یکی روش همزمان و دیگری غیر همزمان است . روش همزمان هر بار یک بلوک از داده را انتقال می دهد درحالی که روش غیر همزمان هر بار یک بایت را منتقل می سازد . می توان برای […]
درخت های FP و الگوریتم FP-Growth در بیگ دیتا
کاوش قوانین انجمنی کاوش قوانین انجمنی در راستای کشف ارتباطات جالب و با اهمیت بین اقلام اطلاعاتی در پایگاه داده ها ی بزرگ و انبار های تراکنش می باشد. داده کاوی انجمنی و استخراج قوانین انجمنی از مجموعه داده ها اولین بار توسط آگراوال برای کشف دانش و الگوهای خرید کاربران یک فروشگاه ارائه گردید. […]
چرا مرجوب؟
mrjob ساده ترین راه برای نوشتن برنامه های پایتون است که روی Hadoop اجرا می شوند. اگر از mrjob استفاده میکنید، میتوانید کد خود را به صورت محلی بدون نصب Hadoop آزمایش کنید یا آن را روی خوشه مورد نظر خود اجرا کنید. علاوه بر این، mrjob دارای ادغام گسترده با Amazon Elastic MapReduce است. […]
تکنیک های داده کاوی (Data Mining Techniques)
در تحقیقات بازاریابی که در چند سال اخیر بیشتر مورد توجه قرار گرفته است، داده کاوی نقش مهمی دارد. یک سری مطالعات در فروشگاههای آمریکا صورت گرفته و نتیجه به این شکل بود که مردم در این کشور وقتی برای خرید شیر وارد یک مغازه میشوند، ناخودآگاه اقدام به خرید نان هم میکنند. این روال […]