روشی جدید در خوشه بندی اطلاعات با استفاده ازترکیب الگوریتم کشورهای استعماری و k-means – پایان نامه
خانم الهه طاهریان فرد، در پایان نامه کارشانسی ارشد خود در دانشگاه شیراز زیر نظر دکتر نیکنام و دکتر روستا، با ترکیب الگوریتم رقابت استعماری و روش k-means، روش جدید و کارآمدی برای خوشه یابی (کلاسترینگ – Clustering)، معرفی کرده است. نتایج حاصل از این کار پژوهشی در قالب چندین مقاله در معتبرترین ژورنالهای مرتبط با این حوزه منتشر شده اند. در ادامه این پست، بخشهای خلاصه شده ای از متن پایان نامه ایشان را برای علاقه مندان وبسایت محاسبات تکاملی منتشر می کنیم.
امروزه، خوشه بندی نقش مهی را در اغلب زمینههای تحقیقاتی مانند مهندسی، پزشکی، زیستشناسی، داده کاوی و… ایفا مینماید. در واقع خوشـه بندی به معنای تقسیم بندی بدون نظارت می باشد؛ با استفاده از آن دادهها به دستههایی که از نظر پارامـترهای مورد علاقه، شباهـت بیشتری به یکدیگر دارند، تقسـیم میگردند. یکی از روشهای معـروف در این زمینه k-means میباشد؛ که علی رغم وابستگی به شرایط اولیه وهمگرائی به نقاط بهیـــنه محلی، تعداد N داده را به k خوشه با سرعت بالا، دسته بندی مینماید. در این رساله جهت رفع مشکلات موجود از روش ترکیبی مبتنی بر الگوریتم رقابت کشــــورهای استعماری و k-means بهره گرفته خواهد شد؛ که علاوه بر رفع مشکلات ذکر شده، مستقل از تعداد متغیرها نیز خواهد بود. در این رساله به منظور اعتبارسنجی، روش پیشنهادی بر روی چندین داده متفاوت مشهور پیاده سازی میگردد و نتــایج با روشهای الگوریتم ژنتیک، مورچگان، اجتماع ذرات، جفت گیری زنبور عسل، آبکاری فولاد و k-means مقایسه خواهد گردید. توانایی بالا و مقاوم بودن این روش بر اساس نتایج مشهود خواهد بود.مقدمه
پردازش داده، یکی از شاخصهای بسیار مهم در دنیای اطلاعات است. خوشه بندی یکی از بهترین روشهایی است که برای کار با دادهها ارائه شده است. خوشه بندی قابلیت ورود به فضای داده و تشخیص ساختارش را امکان پذیر مینماید. لذا به عنوان یکی از ایده آلترین مکانیزمها، برای کار با دنیای عظیم دادهها محسوب میشود.
خوشه بندی، یافتن ساختاری در مجوعهای از دادهها است که طبقه بندی نشدهاند. به بیان دیگر می توان گفت که خوشه بندی قراردادن دادهها در گروههایی است که اعضای هر گروه از زاویه خاصی شبیه یکدیگرند. در نتیجه شباهت بین دادههای درون هر خوشه حداکثر و شباهت بین دادههای درون خوشه های متفاوت حداقل میباشد. معیار شباهت در اینجا، فاصله بوده یعنی نمونههایی که به یکدیگر نزدیکترند در یک خوشه قرار میگیرند. به عنوان نمونه در خوشه بندی اسناد دوری و یا نزدیکی دادهها متناسب با تعداد کلمههای مشترکی که در دو سند وجود دارد و یا در خوشه بندی سبد خرید مشتریان، فاصله بر اساس شباهت خرید تعیین میشود. لذا محاسبه فاصله بین دو داده در خوشه بندی بسیار مهم میباشد؛ زیرا کیفیت نتایج نهایی را دستخوش تغیر قرار خواهد داد.
فاصله که همان معرف عدم تجانس است حرکت در فضای دادهها را میسازد وسبب ایجاد خوشهها میگردد. با محاسبه فاصله بین دو داده میتوان فهمید که چقدر این دو داده به هم نزدیک هستند و بر این اساس در یک خوشه قرار داده میشود. توابع ریاضی مختلفی برای محاسبه فاصله وجود دارند؛ فاصله افلیدسی، فاصله همینگ و….هدف تحقیق
هدف در این تحقیق این است که با بررسی الگوریتمهای موجود در زمینه خوشه بندی، الگوریتمی را که تاحد قابل قبولی بتواند محدودیتهای موجود را پوشش دهد، ارائه گردد. از نمونه محدودیتهای موجود میتوان موارد زیر را برشمرد:
هدف در این تحقیق این است که با بررسی الگوریتمهای موجود در زمینه خوشه بندی، الگوریتمی را که تاحد قابل قبولی بتواند محدودیتهای موجود را پوشش دهد، ارائه گردد. از نمونه محدودیتهای موجود میتوان موارد زیر را برشمرد:
- کارایی برای پایگاه دادههای با حجم بالا
- کشف خوشهها با اشکال مختلف
- عدم حساسیت به ترتیب دادههای ورودی
- قابلیت تفسیر و استفاده
گفتارهای پایان نامه
این پایان نامه بصورت زیر تنظیم شده است.
این پایان نامه بصورت زیر تنظیم شده است.
- در فصل دوم، روشهای موجود جهت خوشه بندی معرفی خواهد گردید. محاسن و معایب آن بررسی میگردد و در نهایت الگوریتم k-means که در این رساله از آن بهره خواهیم گرفت شرح داده خواهد شد.
- در فصل سوم، با تکنیکهای بهینه سازی آشنا خواهیم شد. و کلیه روشهای تکاملی که در این رساله مورد مقایسه قرار گرفتهاند به طور اجمالی تشریح خواهند شد. سپس الگوریتم رقابت کشورهای استعماری که اساس این پایان نامه میباشد به تفصیل توضیح داده خواهد شد. در نهایت این الگوریتم توسط عملگر جهش بهبود داده میشود.
- در فصل چهارم، الگوریتم پیشنهادی که مبتنی بر ترکیب الگوریتم k-means و رقابت کشورهای استعماری میباشد، توصیف میگردد. سپس نتیجه حاصله با الگوریتمهای دیگر مقایسه میشود همچنین توسط روش T-test عملکرد آن ارزیابی میگردد.
- در فصل پنجم، نتیجه گیری و پیشنهادات برای کارهای آینده آورده خواهد شد.
در ادامه، فصل چهارم که در واقع کارر پیشنهادی این پایان نامه میباشد و فصل پنجم نتیجه گیری آورده شده است.4-2 روشهای متفاوت ترکیب الگوریتم پیشنهادی
در این بخش ابتدا به طور اجمالی روشهای موجود تشریح میگردد، سپس به تفصیل در مورد تکنیکهای ترکیب آنها توضیحات لازم ارائه خواهد گردید.
در این بخش ابتدا به طور اجمالی روشهای موجود تشریح میگردد، سپس به تفصیل در مورد تکنیکهای ترکیب آنها توضیحات لازم ارائه خواهد گردید.
4-2-1 خوشه بندی اطلاعات به روش ترکیبی MICA-k
ابتدا جمعیت اولیه به صورت تصادفی تولید میگردد؛ الگوریتم رقابت کشورهای استعماری توسعه یافته بر روی این جمعیت تولید شده، شروع به کار مینماید و تا جایی ادامه مییابد که تنها یک عضو به عنوان بهترین باقی بماند. جواب نهایی، به عنوان مقدار اولیه الگوریتم k-means در نظر گرفــته می-شود. دراین روش به دلیــل انتخاب مناسب مقدار اولیـــه برای الگوریتم k-means، جواب بهتـری حاصـل میگردد. این روش که به اختـصار MICA-k نامیـده میشود، شکل ۴-۱ کد الگوریتم را نشان میدهد.
ابتدا جمعیت اولیه به صورت تصادفی تولید میگردد؛ الگوریتم رقابت کشورهای استعماری توسعه یافته بر روی این جمعیت تولید شده، شروع به کار مینماید و تا جایی ادامه مییابد که تنها یک عضو به عنوان بهترین باقی بماند. جواب نهایی، به عنوان مقدار اولیه الگوریتم k-means در نظر گرفــته می-شود. دراین روش به دلیــل انتخاب مناسب مقدار اولیـــه برای الگوریتم k-means، جواب بهتـری حاصـل میگردد. این روش که به اختـصار MICA-k نامیـده میشود، شکل ۴-۱ کد الگوریتم را نشان میدهد.
4-2-2 خوشه بندی اطلاعات به روش ترکیبی k-MICA
در این روش بعد از تولید جمعیت اولیه به صورت تصادفی، الگوریتم k-means بر روی دادههای موجود اجرا میگردد. بنا به تعداد جمعیت مورد نظر، در تکرارهای متوالی مراکز خوشه بدست خواهد آمد؛ که به عنوان جمعیت اولیه الگوریتم رقابت کشورهای استعماری توسعه یافته در نظر گرفته خواهد شد و با این فرض الگوریتم موجود ادامه مییابد. به اختصار این روش k-MICA نامگذاری میگردد. شکل ۴-۲ فلوچارت مراحل کار را نشان میدهد.
در این روش بعد از تولید جمعیت اولیه به صورت تصادفی، الگوریتم k-means بر روی دادههای موجود اجرا میگردد. بنا به تعداد جمعیت مورد نظر، در تکرارهای متوالی مراکز خوشه بدست خواهد آمد؛ که به عنوان جمعیت اولیه الگوریتم رقابت کشورهای استعماری توسعه یافته در نظر گرفته خواهد شد و با این فرض الگوریتم موجود ادامه مییابد. به اختصار این روش k-MICA نامگذاری میگردد. شکل ۴-۲ فلوچارت مراحل کار را نشان میدهد.
شکل ۴ ۱ کد الگوریتم پیشنهادی MICA-k (برای نمایش شکل در سایز بزرگتر، روی آن کلیک کنید)
شکل ۴ ۲ فلوچارت روش k-MICA (برای نمایش شکل در سایز بزرگتر، روی آن کلیک کنید)
4-2-3 خوشه بندی اطلاعات به روش Hybrid k-MICA
در حالت آخر، الگوریتم رقابت کشورهای استعماری توسعه یافته بر روی جمعیت تصادفی انتخاب شده آغاز میگردد؛ باید متذکر شد که در این روش، قبل از حرکت مستعمره به سمت استعمارگر، الگوریتم k-means روی تمام اعضا جهت بهبود عملکرد اجرا میگردد. این مسئــله باعث میشود امپراطور و مستعمره در موقعیت مناسب تری قرار گیرند. در نهایت الگوریتم بهبود یافته رقابت کشورهای استعماری تایافتن جواب بهینه ادامه خواهد یافت.
در حالت آخر، الگوریتم رقابت کشورهای استعماری توسعه یافته بر روی جمعیت تصادفی انتخاب شده آغاز میگردد؛ باید متذکر شد که در این روش، قبل از حرکت مستعمره به سمت استعمارگر، الگوریتم k-means روی تمام اعضا جهت بهبود عملکرد اجرا میگردد. این مسئــله باعث میشود امپراطور و مستعمره در موقعیت مناسب تری قرار گیرند. در نهایت الگوریتم بهبود یافته رقابت کشورهای استعماری تایافتن جواب بهینه ادامه خواهد یافت.
یک تغیر دیگر که در الگوریتم پیشنهادی انجام گرفته است این میباشد که ضعیفترین امپراطوری بعد از اینکه کل مستعــمرات خود را در روند رقابت از دست داد، خودش نابود نمیگردد؛ بلکه به عنوان مستعمره، قویترین امپراطور در نظر گرفته میشود. روش آخر، مطلوبترین حالت به شمار میآید. در ادامه به تفصیل این روش تشریح خواهد شد.
4-3 خوشه بندی اطلاعات مبنی بر روش ترکیبی پیشنهادی
در این روش کاربرد الگوریتم پیشنهادی که مبتنی بر ترکیب الگوریتم بهبود یافته رقابت کشورهای استعماری و k-means میباشد جهت خوشه بندی اطلاعات توضیح داده خواهد شد. هدف این است که دادههای موجود در خوشههای مناسب دسته بندی شده و در این راستا نیز مراکز خوشه تعیین گردند.
در این روش کاربرد الگوریتم پیشنهادی که مبتنی بر ترکیب الگوریتم بهبود یافته رقابت کشورهای استعماری و k-means میباشد جهت خوشه بندی اطلاعات توضیح داده خواهد شد. هدف این است که دادههای موجود در خوشههای مناسب دسته بندی شده و در این راستا نیز مراکز خوشه تعیین گردند.
شکل ۴ ۳ تقسیم مستعمره بین استعمارگرها.
4-6-1-1 مجموعه داده Iris
این مجموعه در واقع مجموعهای از دادهها میباشد که شامل سه نمونه گل زنبق است؛ که توسط فیشر در سال ۱۹۳۶، برای نشان دادن تکنیکهای خطی تفکیک پذیر معرفی گردید. از این رو به نام مجموعه داده گل زنبق فیشر نیز خوانده میشود. از طرف دیگر، به دلیل اینکه ادگار اندرسون نیز این مجموعه را به دلیل کیفیت تنوع جغرافیایی در شبه جزیره گاسپه، گردآوری کرده است، به مجموعه داده زنبق اندرسون نیز مشهور میباشد.
این مجموعه در واقع مجموعهای از دادهها میباشد که شامل سه نمونه گل زنبق است؛ که توسط فیشر در سال ۱۹۳۶، برای نشان دادن تکنیکهای خطی تفکیک پذیر معرفی گردید. از این رو به نام مجموعه داده گل زنبق فیشر نیز خوانده میشود. از طرف دیگر، به دلیل اینکه ادگار اندرسون نیز این مجموعه را به دلیل کیفیت تنوع جغرافیایی در شبه جزیره گاسپه، گردآوری کرده است، به مجموعه داده زنبق اندرسون نیز مشهور میباشد.
شکل ۴ ۴ نمونههای گلهای زنبق از مجموعه داد هIris.
این مجموعه شامل ۵۰ نمونه از سه نوع گل زنبق با نامهای سیتوسا، وریجینیکا و ورسیکولار میباشد. شاخصههایی که در این مجموعه جهت اندازه گیری مدنظر میباشند؛ پهنای گلبرگ، طول گلبرگ، پهنای کاسبرگ و طول کاسبرگ [۴۹]، [۵۰]، [۵۱].
جدول ۴ ۳ پاسخ الگوریتمهای موجود بر روی مجموعه داده Iris
تابع هزینه
|
||||
حداقل هزینه
|
متوسط هزینه
|
حداکثر هزینه
|
||
96.6554
|
96.6554
|
0
|
||
K-MICA
|
96.68344
|
96.7588
|
0.0359928
|
|
MICA-K
|
96.66691
|
96.7071
|
0.018515
|
|
MICA
|
96.6562
|
96.6664
|
96.6919
|
0.0114455
|
ICA
|
96.6997
|
96.8466
|
97.0059
|
0.1114908
|
PSO
|
96.8942
|
97.2328
|
97.8973
|
0.347168
|
SA
|
97.4573
|
99.957
|
102.01
|
2.018
|
TS
|
97.365977
|
97.868008
|
98.569485
|
0.53
|
GA
|
113.986503
|
125.197025
|
139.778272
|
14.563
|
ACO
|
97.100777
|
97.171546
|
97.808466
|
0.367
|
HBMO
|
96.752047
|
96.95316
|
97.757625
|
0.531
|
K-means
|
97.333
|
106.05
|
120.45
|
14.6311
|
شکل ۴ ۵ مشخصه همگرایی بهترین جواب MICA-k و Hybrid k-MICA برای مجموعه داده Iris.
شکل ۴ ۶ مشخصه همگرایی بهترین جواب k-MICA، MICA و ICA برای مجموعه داده Iris.
شکل 4-7: مشخصه همگرایی بهترین جواب k-means برای مجموعه داده Iris.
نتیجه
امروزه کاربرد داده کاوی در اکثر علوم به طور چشم گیر مشاهده میگردد. واضح است در صورتی که بستر مناسبی جهت استفاده از این علم مهیا نگردد، از تکنولوژی روز و بهره گیری از پیشرفتهای به دست آمده دور خواهیم ماند.
خوشه بندی یکی از ابزار داده کاوی محسوب میگردد لذا سهم به سزای از تحقیقات اخیر معطوف به این روش میباشد. الگوریتـم k-means که جزء روش هـای خوشـه بندی افـرازی به حساب میآید. در نتیجه از آن برای نیل به اهداف این پایان نامه مورد استفاده قرار گرفت. الگوریتم k-means به عنوان یادگیری بدون نظارت میباشد که تعداد خوشهها از قبل تعیین نشدهاند و خوشهها با یکدیگر فصل مشترکی ندارند.
در صورتی که مقدار اولیه برای الگوریتم k-means مناسب انتخاب گردد باز هم امکان همگرایی به نقاط بهینه وجود دارد. لذا با بهره گیری از الگوریـتم رقابت کـشورهای استعماری به عنوان روش بهینه-سازی نوین، این محدودیت مرتفع گردید. قابل توجه است که نسخه اصل الگوریتم رقابت کشورهای استعماری به تنهایی در رفع این مشکل کارساز نبود. بنابراین از ایده روش بهینه سازی تفاضلی استفاده گردید و عملکرد این الگوریتم را بهبود بخشیدیم. در نتیجه احتمال همگرایی به نقاط بهینه کاهش یافت. روند عملگر جهش، قبل از حرکت مستعمره به سمت استعمارگر اتفاق افتد. در صورتی که مستعمره جدید بوجود آمده نسبت به مستعمره قبل وضعیت بهتری را دارا بود جایگزین میگردید و در غیر این صورت همان مستعمره قبل باقی میماند. یکی دیگر از تغیراتی که باعث افزایش کارایی این الگوریتم گردید نحوه اختصاص مستعمـرات به استعمارگر در روند تشکـیل امپراطوری بود. اختصاص مستعمره به استعمارگر بر اساس قدرت امپراطور انجام نگرفت لذا مستعمراتی که قدرت بیشتر را دارا بودند لزوماً به استعمارگر قویتر تخصیص داده نشدند. بلکه مستعمرات به روشی که مرتب گردیده بودند، به ترتیب جز قلمرو استعمارگرها قرار گرفتند. این رویکرد نیز سبب گردید تا پاسخ نهایی الگوریتم روندی رو به رشد را طی نماید.
به این صورت نتایج به دست آمده از ترکیب این دو الگوریتم علاوه بر نوآوری، محدودیتها را پوشش داد. با توجه به مقایسه نتایج و اعتبارسنجی آن به وسیله روش T-test مقاوم بودن و کارایی این روش تضمین گردید.
با توجه به شبیه سازیهای انجام گرفته در اغلب موارد روش آخر بهترین جواب را با حداکثر دقت و سرعت نتیجه میدهد. در این روشهای ترکیبی، علاوه براینکه محدودیت وابستگی به شرایط اولیه تاحدود بسیار زیادی خنثی گردیده است؛ مشکل همگرایی دائمی به پاسخ بهینه محلی نیز تا حد قابل قبولی از بین رفته است.
شبیه سازی بر روی مجموعه دادههای متنوع اجرا گردیده است لذا پاسخهای نهایی به دست آمده گویای این مطلب میباشد که، وابستگی به تعداد نمونهها، تعداد خوشهها و تعداد پارامترها وجود ندارد و الگوریتم ترکیبی عملکرد مناسبی دارد. لذا این الگوریتم را میتوان بر مجموعه دادهها مشابه اعمال نمود و نتیجه مناسب را به دست آورد.
عدم وابستگی الگوریتـم به پارامترهای موجود،، یکــی دیگر از برتریهای روش ارائه شده میباشد. همچنین با توجه به اجرای الگوریتم پیشنهادی روی تمام مجموعه دادهها، مقادیر به دست آمده برای انحراف معیار حاکی ازاین است که، دادههای هر خوشه به نحو مناسبی، توزیع گردیدهاند.
با توجه به مقدار سطح معنی دار بودن در روشT-test، ادعای اینکه پاسخ نهایی به دلیل ماهیت تصادفی مسئله به دست آمده (فرض صفر) رد شد. لذا وابستگی پاسخ نهایی به ماهیت تصادفی مسئله، لغو گردید.
پایان متن
اطلاعات مقاله اصلی منتشر استخراج شده از این پایان نامه
Title: Human Socio-political Evolution and Imperialistic Competitive Algorithm Application in Optimize the Huge-Combinatorial problem
Authors: Taher Niknam, ElaheTaherianFard, NargesPourjafarian, AlirezaRousta
Publication Year: 2011
Journal Title: Engineering ApplicationsofArtificialIntelligence24(2011)306–317
Paper download links: Science Direct (+)
Authors: Taher Niknam, ElaheTaherianFard, NargesPourjafarian, AlirezaRousta
Publication Year: 2011
Journal Title: Engineering ApplicationsofArtificialIntelligence24(2011)306–317
Paper download links: Science Direct (+)
اگر به لینک دانلود فوق دسترسی ندارید، به بخش مقالات سایت مراجعه نمایید.
آشنایی با مولف
- الهه طاهریان فرد
- فارغ التحصیل کارشناسی ارشد دانشگاه شیراز
- اطلاعات تکمیلی در پروفایل علمی ایشان موجود است. این لینک (+) را ببینید.
- تماس با ایمیل نگارنده، جهت کسب اطلاعات بیشتر و اخذ راهنمایی: taherianfard@ieee.org
دانلود فایل پی دی اف این متن
مشاهده فایل پی دی اف متن پایان نامه به صورت آنلاین
____________________________________
دیدگاه خود را ثبت کنید
تمایل دارید در گفتگوها شرکت کنید؟در گفتگو ها شرکت کنید.