1-8-2-4 دیگر روشهای خوشه بندی سلسله مراتبی…………………………………..16
1-8-3 روش مبتنی برچگالی………………………………………………………………………..18
1-8-3-1 الگوریتم خوشه بندی براساس چگالی DBSCAN……………………………21
1-8-3-2 الگوریتم سلسله مراتبی خوشه بندی براساس چگالی OPTICS …….22
1-8-4 روشهای مبتنی بر شبکه های مشبک (Grid based)……………………………..23
1-8-5 روشهای مبتنی بر مدل………………………………………………………………………..23
1-8-6 روش های فازی………………………………………………………………………………..23
1-9 هدف خوشه بندی ……………………………………………………………………………………..23
1-10 اندازهگیری کیفیت خوشهبندی……………………………………………………………………25
1-11 بررسی تکنیکهای اندازه گیری اعتبار خوشه ها……………………………………………….25
1-12 شاخصهایاعتبارسنجی…………………………………………………………………………….27
1-12-1 شاخص دون (Dunn Index)……………………………………………………………28
1-12-2 شاخص دیویس بولدین (Davies Bouldin Index)…………………………….28
1-12-3 شاخص های اعتبارسنجی ریشة میانگین مربع انحراف از معیار (RMSSDT) و ریشة R (RS)…………………………………………………………………………………………….30
1-12-4 شاخص اعتبار سنجی SD………………………………………………………………..31
1-12-5 شاخص اعتبارسنجی S_Dbw………………………………………………………..32
1-12-6 آزمایش ومقایسه کارایی شاخص هایاعتبار سنجی……………………………..33
1-13 خوشه بندی ترکیبی………………………………………………………………………………….37
1-13-1 ایجاد پراکندگی در خوشه بندی ترکیبی……………………………………………..37
1-13-2 تابع توافقی ………………………………………………………………………………….39
1-13-3 مشکلات پیش روی خوشه بندی ترکیبی……………………………………………40
فصل دوم – ادبیات و پیشینه تحقیق 42
2-1 مقدمه……………………………………………………………………………………………………..43
2-2 خوشه بندی فازی …………………………………………………………………………………..43
2-3 الگوریتم خوشه بندی c میانگین (Fuzzy c-mean)………………………………….45
2-4 الگوریتم PFCM………………………………………………………………………………………….49
2-5 الگوریتم AFCM………………………………………………………………………….51
2-6 الگوریتم FPCM…………………………………………………………………………..52
2-7 الگوریتم خوشه بندی c میانگین برای داده های نویزی………………………………..53
2-8 الگوریتم KFCM……………………………………………………………………………………54
2-9 توابع ارزیابی خوشه ………………………………………………………………………………56
2-9-1 تابع ارزیابی ضریب افراز……………………………………………………………….57
2-9-2 تابع ارزیابی آنتروپی افراز………………………………………………………………57
2-9-3 تابع Fukuyama and Sugeno………………………………………………………………..58
2-9-4 تابع Beni Xie and ……………………………………………………………………………….59
2-9-5 تابع N.Zahid………………………………………………………………………………………….59
2-9-6 تابع M.Ramze Rezaee……………………………………………………………………….60
2-10 خوشه بندی ترکیبی……………………………………………………………………………62
فصلسوم–روشتحقیق 68
3-1 مقدمه ……………………………………………………………………………………………….69
3-2 فرضیات روش پیشنهادی……………………………………………………………………..70
3-3 شرح مفصلی از روش پیشنهادی……………………………………………………………72
3-4 شرح الگوریتم…………………………………………………………………………………….83
فصلچهارم–محاسباتویافتههایتحقیق 85
4-1 مقدمه……………………………………………………………………………………………….86
4-2 نتایج خوشه بندی به روش پیشنهادی…………………………………………………..86
4-3 مقایسه ای با الگوریتم های خوشه بندی پایه ………………………………………..87
4-4 مقایسه با روش های خوشه بندی ترکیبی …………………………………………….90
فصلپنجم–نتیجهگیریوپیشنهادات 92
5-1 جمع بندی…………………………………………………………………………………………….93
5-2 پیشنهادات…………………………………………………………………………………………….95
پیوست 96
منابع و مآخذ 100
فهرستجداول
ـــــــــــــــــــــــــــــــــــــــــ
عنوان صفحه
جدول 1-1: مجموعة علائم بکار رفته در این بخش…………………………………………………….27
جدول2-1 : معیارهای تشابه بر اساس توابع فاصله مختلف…………………………………………..49
جدول 4-1 میزان نرخ خطای روش های مختلف توسط مقایسه ی نتایج با برچسب حقیقی مجموعه داده های استاندارد Iris ، Wine و Glass………………………………………………………………………….91
فهرستتصاویرونمودار
ـــــــــــــــــــــــــــــــــــــــــ
عنوان صفحه
شکل1-1 : نمونه ای از اعمال خوشه بندی با استفاده از معیار فاصله(Distance)……………………5
شکل1-2 : a) در طبقه بندی با استفاده یک سری اطلاعات اولیه داده ها به دسته های معلومی نسبت داده می شوند. b) در خوشه بندی داده ها با توجه به الگوریتم انتخاب شده به خوشه هایی نسبت داده می شوند ………………………………………………………………………………………………… 6
شکل1-3 : تفاوت بین روشهای بالا به پایین با روشهای پایین به بالا ……………………………..14
شکل1-4 : شباهت بین دو خوشه در روش Single-Link برابر است با کمترین فاصلة بین داده های دو خوشه………………………………………………………………………………………………….. 15
شکل1-5 : شباهت بین دو خوشه در روش Complete-Link برابر است با بیشترین فاصلة بین داده های دو خوشه………………………………………………………………………………………………….. 15
شکل1-6 : شباهت بین دو خوشه در روش Average-Link برابر است با میانگین فاصلة بین داده های دو خوشه………………………………………………………………………………………………….. 16
شکل1-7 : شباهت بین دو خوشه در روش Group Average Link برابر است با فاصله بین میانگین نقاط دو خوشه …………………………………………………………………………………………. 17
شکل1-8 : یک همسایگی برای P دارای چگالی نقاط 5……………………………………………….19
شکل 1-9 : p در دسترسِ مستقیمِ چگالیِ q قرار دارد…………………………………………………..20
شکل 1-10 : p در دسترسِ چگالیِ q قرار دارد……………………………………………………………20
شکل 1-11 : p متصلِ چگالیِ q است………………………………………………………………………..20
شکل1-12 : خوشه بندی بر اساس چگالی………………………………………………………………….21
شکل 1-13 : در روش سلسله مراتبی خوشه بندی براساس چگالی OPTICS از ترکیب خوشه های با چگالی زیاد و کوچک خوشه های بزرگتری حاصل می شود…………………………22
شکل1-14: مجموعه داده های بکار رفته برای مقایسة کارایی شاخص های اعتبارسنجی خوشه ها…………………………………………………………………………………………………………………34
شکل1-15 : مقادیر مربوط به شاخص های اعتبار بر روی نتایج حاصل از خوشه بندی داده ها کاملا مجزا ……………………………………………………………………………………………………………..34
شکل 1-16 : مقادیر مربوط به شاخص های اعتبار بر روی نتایج حاصل از خوشه بندی داده ها حلقوی…………………………………………………………………………………………………………………..35
شکل1-17 : دو حالت خوشه بندی درست و نادرست داده های با شکل دلخواه ……………….36
شکل 1-18 : مقادیر مربوط به شاخص های اعتبار بر روی نتایج حاصل از خوشه بندی داده ها با شکل دلخواه ……………………………………………………………………………………………………… 36
شکل1-19 طبقه بندی روشهای ایجاد پراکندگی در خوشه بندی ترکیبی………………………….39
شکل1-20 طبقه بندی توابع توافقی در خوشه بندی ترکیبی…………………………………………..40
شکل 2-1: مجموعه داده پروانه ای…………………………………………………………………………….45
شکل 2-2 : توزیع یک بعدی نمونه ها……………………………………………………………………….47
شکل 2-3 : خوشه بندی کلاسیک نمونه های ورودی………………………………………………….48
شکل2-4 : خوشه بندی فازی نمونه ها………………………………………………………………………48
شکل 3-1 فرایند کلی خوشه بندی ترکیبی فازی…………………………………………………………70
شکل 3-2 مجموعه داده فرضی………………………………………………………………………………..77
شکل 3-3 ماتریس های همبستگی فازی متناظر با ماتریس های عضویت مربوطه…………..79
شکل 3-4 ماتریس استحکام حاصل از ماتریس های همبستگی فازی مرحله 2………………80
شکل 3-5 ماتریس های استحکام حاصل از اجرای الگوریتم روش پیشنهادی در سه تکرار متوالی…………………………………………………………………………………………………………………..81
شکل 3-6 گراف متناظر با تکرار اول از الگوریتم پیشنهادی ………………………………………..81
شکل 3-7 گراف متناظر با تکرار دوم از الگوریتم پیشنهادی ………………………………………..82
شکل 3-8 گراف متناظر با تکرار سوم از الگوریتم پیشنهادی………………………………………..82
شکل4-1 نتیجه ی خوشه بندی به روش پیشنهادی a)نحوه توزیع خوشه ها تا رسیدن به تعداد خوشه تعیین شده b)نمایش داده ها و خوشه بندی نهایی ……………………………………87
شکل 4-2 اعمال الگوریتم kmeans بر روی مجموعه داده نمونه …………………………………..88
شکل 4-3 اعمال الگوریتم FCM بر روی مجموعه داده نمونه……………………………………….88
شکل 4-4 اعمال الگوریتم پیشنهادی بر روی مجموعه داده نمونه ……………………………….88
شکل 4-5 اعمال الگوریتم پیشنهادی بر روی مجموعه داده نمونه ی دیگر …………………..89
شکل 4-6مقایسه ای میان روش spectral و روش پیشنهادی a,b,c )خوشه بندی به روش spectral . d,e,f)خوشه بندی به روش پیشنهادی ……………………………………………………….90
مقدمه ای بر داده کاوی
در دو دهه قبل توانایی های فنی بشر در تولید و جمع آوری داده ها به سرعت افزایش یافته است . عواملی نظیر به خدمتگرفتن کامپیوتر در کسب و کار، علوم ، خدمات دولتی و پیشرفت در وسائل جمعآوری داده، از اسکن کردن متون و تصاویر تا سیستمهایسنجش از دورماهواره ای، در این تغییرات نقش مهمی دارند. بطور کلی استفاده همگانی از وب و اینترنت به عنوان یک سیستم اطلاع رسانی جهانی ما را با حجم وحشتناکی ازداده و اطلاعات مواجه می کند. این رشد انفجاری در داده های ذخیره شده، نیاز مبرمی برای تکنولوژی های جدید و ابزارهای خودکاری ایجاد کرده که به صورت هوشمند به انسان یاری رسانند تا این حجم زیاد داده را به اطلاعات و دانش تبدیل کند.