پایان نامه ارشد : پیش پردازش داده های نا متوازن با استفاده از ماشین بردار پشتیبان |
11
2-2-1 تعاریف داده کاوی………………………………………………………………………………. 11
2-2-2 فرایند کشف دانش……………………………………………………………………………… 12
2-2-3 حوزه ها و عملکردهای داده کاوی…………………………………………………………… 12
2-3 کاربردهای داده کاوی و کشف دانش……………………………………………………………. 14
2-4 چالش هایی برای KDD………………………………………………………………………………. 15
2-5 پیش پردازش و آماده سازی داده ها :…………………………………………………………….. 16
2-5-1اجزای اصلی پیش پردازش داده ها…………………………………………………………… 17
2-5-1-1 پاکسازی داده ها………………………………………………………………………… 18
2-5-1-2یکپارچه سازی داده ها………………………………………………………………….. 20
2-5-1-3 تبدیل داده ها…………………………………………………………………………….. 20
2-5-1-3-1هموار سازی……………………………………………………………………….. 20
2-5-1-3-2 تجمیع……………………………………………………………………………… 21
2-5-1-3-3 تعمیم……………………………………………………………………………….. 21
2-5-1-3-4 ساخت ویژگی……………………………………………………………………. 21
2-5-1-3-5 نرمال سازی……………………………………………………………………….. 21
2-5-1-4 کاهش داده ها……………………………………………………………………………. 21
2-5-1-4-1 تجمیع مکعبی داده………………………………………………………………. 23
2-5-1-4-2 انتخاب زیر مجموعه مشخصه ها…………………………………………….. 23
2-5-1-4-3 کاهش تعدد نقاط………………………………………………………………… 24
2-5-1-5 تصویر کردن برای کاهش بعد………………………………………………………… 24
2-6 روش های ارزیابی دسته بندی……………………………………………………………………… 25
2-6-1 ارزیابی صحت روشهای دسته بندی…………………………………………………………. 27
2-7 تکنیک حداقل مربعات………………………………………………………………………………. 30
2-7-1 تقریب کمترین مربعات گسسته چند جمله ای…………………………………………… 31
2-8 ماشین بردار پشتیبان…………………………………………………………………………………… 33
2-8-1مقدمه………………………………………………………………………………………………. 33
2-8-2دلایل استفاده از SVM………………………………………………………………………….. 34
2-8-3 کاربردهای SVM…………………………………………………………………………………. 35
2-8-4 مزایا و معایب SVM…………………………………………………………………………….. 36
2-8-5 تعاریف کلی………………………………………………………………………………………. 36
2-8-5-1تابع تصمیم مسائل دو کلاسی…………………………………………………………. 36
2-8-5-2 تعیین تابع تصمیم(ابر صفحه جداکننده)……………………………………………. 38
2-8-5-3 بعد VC……………………………………………………………………………………. 39
2-8-5-4حداقل سازی ریسک تجربی………………………………………………………….. 40
2-8-5-5حداقل سازی ریسک ساختاری……………………………………………………….. 42
2-8-6 ماشین بردار پشتیبان طبقه بندی کننده خطی با داده های جدا شدنی به طور خطی 44
2-8-7ماشین بردار پشتیبان طبقه بندی کننده خطی با داده های جدا نشدنی به طور خطی ( 49
2-8-8 ماشین بردار پشتیبان غیر خطی…………………………………………………………….. 52
2-8-9 انواع کرنل ها…………………………………………………………………………………….. 55
2-8-9-1 کرنل چند جمله ای…………………………………………………………………….. 55
2-8-9-2 کرنل های شبکه عصبی………………………………………………………………… 55
2-8-9-3 کرنل های گوسی………………………………………………………………………. 56
2-9 تکنیک های پیش پردازش نامتوازن………………………………………………………………… 58
2-9-1 ماشین بردار پشتیبان و مشکل عدم توازن کلاس……………………………………….. 58
2-9-1-1 عیب مشکل بهینه سازی با ناحیه مرزی نرم………………………………………. 59
2-9-1-2 نسبت بردار پشتیبان نامتوازن…………………………………………………………. 60
2-9-2 روشهای یادگیری عدم توازن خارجی برای SVM (روشهای پیش پردازش داده) 61
2-9-2-1 روشهای نمونه برداری دوباره……………………………………………………….. 61
2-9-2-1-1زیر نمونه برداری…………………………………………………………………. 61
2-9-2-1-2بیش نمونه برداری………………………………………………………………… 62
2-9-2-1-3 SCM………………………………………………………………………………… 63
2-9-2-1-4 نمونه برداری پیشرفته…………………………………………………………… 63
2-9-2-1-5 تکنیک بیش نمونه برداری اقلیت مصنوعی…………………………………. 64
2-9-2-1-6 نزدیک ترین همسایه فشرده(CNN)………………………………………….. 64
2-9-2-1-7 نزدیک ترین همسایه تغییر یافته(ENN)……………………………………… 66
2-9-2-1-8 Tomek-Link…………………………………………………………………….. 67
2-9-2-2 روشهای یادگیری جمعی……………………………………………………………… 68
2-9-2-2-1الگوریتم آموزشی Bagging……………………………………………………… 69
2-9-2-2-2 الگوریتم آموزشی Boosting…………………………………………………… 70
2-9-3 روشهای یادگیری عدم تعادل داخلی برای ماشین بردار پشتیبان 71
2-9-3-1 هزینه خطای متفاوت…………………………………………………………………… 71
2-9-3-2 یادگیری یک کلاس…………………………………………………………………….. 73
2-9-3-3zSVM………………………………………………………………………………………. 73
2-9-3-4 روشهای اصلاح کرنل………………………………………………………………….. 74
2-9-3-5 یادگیری فعال……………………………………………………………………………. 75
2-9-3-6 روش های ترکیبی………………………………………………………………………. 75
فصل سوم:روش تحقیق
3-1مقدمه……………………………………………………………………………………………………… 77
3-2 ماشین بردار پشتیبان فازی برای یادگیری عدم توازن کلاس…………………………………. 77
3-2-1 روش SVMFuzzy………………………………………………………………………………. 77
3-2-2متد FSVM-CIL…………………………………………………………………………………. 79
3-3 ماشین بردار پشتیبان حداقل مربعات (LS-SVM)……………………………………………….. 83
3-4 الگوریتم پیشنهادی…………………………………………………………………………………….. 87
فصل چهارم:محاسبات و یافته های تحقیق
4-1 مقدمه…………………………………………………………………………………………………….. 90
4-2 مجموعه داده ها………………………………………………………………………………………. 90
4-3 نتایج کارایی روش های مختلف بر روی مجموعه داده ها……………………………………. 91
فصل پنجم:نتیجه گیری و پیشنهادات
5-1 جمع بندی و نتیجه گیری……………………………………………………………………………. 94
5-2 کارهای آتی…………………………………………………………………………………………….. 96
منابع و مآخذ :………………………………………………………………………………………. 97
چکیده انگلیسی……………………………………………………………………………………………………….102
فهرست جداول
جدول 2-1 متغیرهای ارزیابی دسته بندی.. 29
جدول 4-1 جزییات مجموعه داده های نامتوازن. 90
جدول 4-2- مقایسه کارایی روش های مختلف… 92
فهرست اشکال
شکل (2-1)- فرایند کشف دانش]1[ 12
شکل(2-2)-حوزه های مختلف داده کاوی]1[ 13
شکل(2-3)-عملکردهای داده کاوی]1[ 13
شکل(2-4)-عملیات مختلف در پاکسازی داده]1[ 18
شکل(2-5)-فشرده سازی بی اتلاف و پر اتلاف]1[ 22
شکل(2-6)-تجمیع مکعبی داده]1[ 23
شکل(2-7)-نمایی از ریسک در دسته بندی]1[ 27
شکل (2-8)-تابع تصمیم فضای دو بعدی.. 37
شکل (2-9)- مرکز کلاس برای شکل 2-8. 38
فرم در حال بارگذاری ...
[چهارشنبه 1399-10-17] [ 09:23:00 ق.ظ ]
|