دانلود پایان نامه ارشد :روش تصمیم گیری دسته جمعی جهت بهبود عملکرد الگوریتم نزدیکترین همسایه |
فصل چهارم 28
روش پیشنهادی برای دستهجمعی کردن الگوریتم نزدیکترین همسایه. 28
4-1- مقدمه. 29
4-2- ایدهی اصلی.. 30
4-3- دستهجمعی کردن مجموعه دستهبندهای وزندار نزدیکترین همسایه. 31
فصل پنجم 39
نتایج آزمایشات پیاده سازی و نتیجهگیری.. 39
5-1- نتایج.. 40
فصل ششم 45
نتیجهگیری 45
فهرست منابع.. 48
- مقدمه
در دنیای امروزی حجم اطلاعات دیجیتالی به صورت روز افزونی در حال افزایش است. در همین راستا، به جهت مدیریت و بررسی علمی این اطلاعات، نیاز به پردازش هوشمندانه و خودکار این اطلاعات بیش از پیش احساس می شود.
یکی از مهم ترین این پردازش ها که در فناوری اطلاعات و ارتباطات مورد نیاز است، دستهبندی خودکار این اطلاعات می باشد. دسته بندی در مسائل متنوعی در فناوری اطلاعات به کار گرفته می شود، در مسائلی مانند امنیت اطلاعات، شناسایی نفوزگری در شبکه، دسته بندی کاربران بر اساس اطلاعات شخصی، پردازش تصویر و در واقع شناسایی هر گونه الگو بر اساس نمونهها و اطلاعات پیشین. این پردازش می تواند دسته[1]ی نمونههای جدید که به مجموعه اطلاعات اضافه می شود را پیش بینی نماید. از این رو در هوش مصنوعی توجه خاصی به توسعه انواع روشهای دستهبندی هوشمند و خودکار شده است.
روشهای دستهبندی
دستهبندی یکی از مهمترین شاخه های یادگیری ماشین[2] است. دستهبندی به پیشبینی برچسب دسته[3] نمونه[4] بدون برچسب، بر اساس مجموعه نمونههای آموزشی برچسبدار (که قبلا به با کمک یک کارشناس دستهبندی شدهاند) گفته میشود. درواقع دستهبندی روشی است که هدف آن، گروهبندی اشیا به تعدادی دسته یا گروه میباشد. در روش های دستهبندی، با استفاده از اطلاعات بدست آمده از مجموعه نمونههای آموزشی، از فضای ویژگیها[5] به مجموعه برچسب دستهها نگاشتی بدست می آید که بر اساس آن، نمونههای بدون برچسب به یکی از دستهها نسبت داده میشود.
در مسائل دستهبندی، هر نمونه توسط یک بردار ویژگی[6]به صورت X=<x1, x2,… xm> معرفی میشود که نشان دهندهی مجموعه مقادیر ویژگیهای نمونهی مربوطه است. بر اساس این بردار، نمونهی X دارای m خصوصیت یا ویژگی است. این ویژگیها میتوانند مقادیر عدد صحیح، اعشاری ویا مقادیر نامی[7]به خود اختصاص بدهند. همچنین این نمونه دارای یک برچسب C است که معرف دستهای است که نمونهی X به آن تعلق دارد.
تفاوت روشها دستهبندی در چگونگی طراحی نگاشت است. در بعضی از آنها با استفاده از دادههای آموزشی مدلی ایجاد میشود که بر اساس آن فضای ویژگیها به قسمتهای مختلف تقسیم میشود که در آن، هر قسمت نشان دهندهی یک دسته است. در این گونه روشهای دستهبندی از مدل برای پیشبینی دستهی نمونه بدون برچسب استفاده شده و از نمونههای آموزشی به طور مستقیم استفاده نمی شود. یک نمونه از این دستهبندها، دستهبندهای احتمالی[8] میباشد. این گونه الگوریتمها، از استنتاج آماری برای پیدا کردن بهترین دسته استفاده میکنند؛ برخلاف سایر دستهبندها که فقط بهترین کلاس را مشخص میکنند الگوریتمهای احتمالی به ازای هر دسته موجود یک احتمال را به عنوان تعلق نمونه به آن مشخص میکنند و کلاس برنده، بر اساس بیشترین احتمال انتخاب میشود. روشهای احتمالی در یادگیری ماشین معمولا با نام الگوریتمهای آماری نیز شناخته میشوند. در گروهی دیگر از روشهای دسته بندی، نمونه براساس خود مجموعه نمونهها و بدون ساختن مدل، به پیشبینی دستهی نمونه مورد نظر میپردازد. به این گونه الگوریتم های دستهبندی، نمونه- بنیاد[9] گفته میشود.
تاکنون الگوریتمهای متفاوتی به عنوان دستهبند ارائه شدهاند. از جملهی آنها میتوان به الگوریتم نزدیک ترین همسایهها[10] [1] ، دستهبند بیز[11][2]، ماشین بردار پشتیبان[3] و شبکه عصبی[12][4] اشاره کرد.
- ارزیابی دستهبند
اولین موضوعی که در مورد هر الگوریتم مورد توجه قرار میگیرد، کارایی و دقت آن الگوریتم است. در هوش مصنوعی، معیارهای متفاوتی وجود دارند که در مسائل مختلف و زیر شاخههای این علم استفاده میشود. در مورد کارایی یک دستهبند، به عنوان یکی از مسائل اصلی هوش مصنوعی، روشهای متنوعی وجود دارد که در این قسمت بررسی شدهاند.
معیار کارایی نظرگرفته شده برای یک دستهبند، ارتباط مستقیمی با کاربرد و ضمینه کار خاص آن دستهبند دارد. بنابراین در مسائل متفاوت، ممکن است معیارهای مختلفی برای اندازهگیری کارایی الگوریتم در نظرگرفته شود. همچنین همان طور که مشخص است، یک دستهبند که بتواند برای همه مسائل موجود بهترین جواب را ارائه دهد، وجود ندارد.
در بررسی آماری کارایی یک دستهبند، از یک مجموعه که شامل تعداد مشخصی نمونهی آموزشی دارای برچسب است استفاده میشود. برای این کار، قسمتی از این نمونهها و یا تمام مجموعه، به عنوان مجموعه آموزشی[13]، در اختیار دستهبند برای آموزش قرار میگیرد. پس از آموزش، دسته بند به وسیلهی زیرمجموعهای از نمونهها، به عنوان نمونههای آزمایشی، محک زده میشود. نمونههای موجود در مجموعهی آزمایشی، بسته به نوع آزمون کارایی، میتواند عضو مجموعه آموزشی بوده و یا متفاوت با آن باشند.
نرخ دستهبندی[14] یا صحت[15] پرکاربردترین و سادهترین معیار اندازهگیری کارایی هر دستهبند است. این معیار برابر است با نسبت تعداد نمونههای درست دستهبندی شده به تعداد کل نمونهها. براساس این تعریف، نرخ خطای دستهبندی از رابطه زیر بدست میآید:
مقادیر دقت[16] و بازخوانی[17] نیز معیارهای مناسبی برای ارزیابی دستهبندها میباشند. که اخیرا برای ارزیابی رقابت[18] بین اشتباه-مثبت[19] و درست-مثبت[20] استفاده میشود. در ادامه این معیارها معرفی میشود.
- معیاردقت : احتمال مثبت بودن نمونههایی که مثبت اعلام شدهاند.
معیار بازخوانی : احتمال مثبت اعلام کردن نمونههای دسته مثبت.
معیار اختصاص[21]: احتمال منفی اعلام کردن نمونههای دسته منفی.
که در این معیارها، دسته مثبت، دسته مورد بررسی است و دسته منفی به سایر دستهها گفته میشود.
فرم در حال بارگذاری ...
[چهارشنبه 1399-10-17] [ 10:32:00 ق.ظ ]
|