(۴-۹)
فلوچارت الگوریتم پیشنهادی در زیر مشاهده می­ شود (شکل(۴-۶)).

شکل(۴-۶): فلوچارت الگوریتم یادگیری Q فازی پیشنهادی

همانگونه که در شکل(۴-۶) نشان داده شده است، سامانه ربات مجتمع متشکل از سه بخش اصلی حسگرها، تصمیم ­گیری و محرک‌ها (یا موتورها) می­باشد. در الگوریتم پیشنهادی ربات در یک حلقه‌ با محیط تعامل دارد. از دید ربات، محیط حس شده به هشت حالت فازی خلاصه می‌شود برای مثال xt=(SL=F,SF=F,SR=N). یک قانون اگر-آنگاه فازی برای هر یک از این هشت حالت فازی وجود دارد. ورودی هر یک از این قوانین یکی از هشت حالت فازی ‌می­باشد. خروجی­های این قوانین یک مقدار ثابت سرعت خطی و شش گزینه پیشنهادی برای زاویه چرخش هستند. یکی از این شش گزینه زاویه چرخش، که دارای بیشترین مقدار q است، توسط یادگیری Q انتخاب می‌شود. در هر حالت فعلی (xt)، سرعت و زاویه چرخش نهایی توسط فازی­زدایی محاسبه می­شوند. سپس، فرامین کنترلی مناسب به موتورها ارسال می­شوند. مقادیر q پس از مشاهده حالت جدید (xt+1) و دریافت سیگنال تشدیدی به روز می­شوند.
مقاله - پروژه
انتخاب مناسب سیگنال تشدیدی (rt) عامل تعیین کننده ­ای در عملکرد کلی یادگیری Q است. سیگنال تشدیدی کمیتی اسکالر است که اغلب با توجه اهداف و محدودیت­های موجود مساله مقدار­دهی می­ شود. در مساله ناوبری ربات مورد نظر در این پژوهش، هدف رسیدن به نقطه‌ای مشخص و محدودیت، حفظ حداقل فاصله مجاز با موانع می­باشد. برای افزایش دقت و کارایی الگوریتم سیگنال تشدیدی به صورت چند مقداری تعریف شده است. مقداردهی به سیگنال تشدیدی براساس مقایسه مقادیر دو کمیت در گام فعلی و بعدی ربات در نظر گرفته شده است، این دو کمیت عبارتند از: اختلاف زاویه ربات نسبت به هدف (Tg) و فاصله ربات تا هدف (Dg). بررسی توامان مقادیر این دو کمیت با توجه به محدودیت دوری از موانع صورت گرفته است. فاصله تا موانع با توجه به بیشینه مقادیر خروجی سه حسگر در نظر گرفته می­ شود و این مقدار بیشینه در سه بازه در فاصله ۰ تا ۱۰۲۳ بررسی می­ شود. کرانه­های این بازه همان پارامترهای توابع عضویت ورودی فازی هستند، که توسط بهینه­ساز به دست آمدند (Thr1=200,Thr2=700). جدول(۴-۲) مقادیر سیگنال تشدیدی را نشان می­دهد.
جدول(‏۴‑۲): مقادیر سیگنال تشدیدی در حالت­های مختلف

 

       & Objectives
Constraints
r=-1 r=0 r=0 r=5  
r=-3 r=-1 r=-1 r=0  
r=-5 r=-3 r=-3 r=-1  

بهینه­سازی
پارامترهای کلیدی یادگیری Q و سامانه استنباط فازی عبارتند از عامل فراموشی γ یادگیری Q (معادله(۳-۲)) و پارامترهای تابع عضویت فازی ورودی lf و ln (شکل(۴-۳)). پارامترهای مذکور توسط الگوریتم بهینه­سازی کلونی زنبور مصنوعی به صورت غیربرخط به دست می­آیند (بلوک دیاگرام شکل(۴-۷)). سپس از مقادیر بهینه شده‌ی این پارامترها در الگوریتم یادگیری Q فازی که در بخش پیش توضیح داده شد به صورت برخط استفاده می­ شود (شکل(۴-۶)).

شکل(۴-۷): بهینه سازی غیربرخط پارامترهای کلیدی یادگیری Q و سامانه استنباط فازی

هدف، بهینه­سازی الگوریتم تصمیم ­گیری پیشنهادی در جهت کمینه نمودن همزمان تعداد گام­های رسیدن تا هدف و تعداد برخوردها با موانع می­باشد. لذا معیار یا تابع هدف فرایند بهینه سازی به صورت معادله(۴-۱۰) تعریف می­ شود:
(۴-۱۰)
که در آن F نسبت تعداد برخورد با موانع به کل گام­های طی شده تا رسیدن به مختصات نقطه هدف (بر حسب درصد) و T نسبت تعداد گام­های طی شده به زمان سپری شده (بر حسب درصد) می­باشند. FC و TC ضرایبی برای نرمالیزه کردن F و T (در بازه ۰ تا ۱) هستند. ضرایب FC و TC بدترین (یعنی بیشترین مقادیر) نتایجی می­باشند که از کمینه­سازی جداگانه F و T حاصل گشته­اند. تابع هدف FT به صورت عکس مجموع نسبت نرمالیزه برخورد با موانع و تعداد گام­های نرمالیزه تعریف شده است، لذا مطلوب بیشینه­سازی آن می­باشد.
برای بهینه‌سازی از محیط زیر (شکل(۴-۸)) استفاده می­ شود. در طراحی محیط برای اجرای الگوریتم بهینه سازی دو ویژگی اصلی در نظر گرفته شدند. یکی اینکه شکل­های هندسی پایه مانند مربع، دایره، مثلث و منحنی مقعر، که هر شکل دیگر می ­تواند با ترکیبی از آنها ساخته شود، در محیط وجود داشته باشند و دیگر اینکه محیط نسبت به خط واصل مستقیم میان ربات و هدف متقارن باشد، تا تضمین شود ربات هر مسیری را که انتخاب کند با موانع مورد نظر مواجه خواهد شد.

شکل(۴-۸): محیط در نظر گرفته شده جهت فرایند بهینه سازی

پارامترهای الگوریتم بهینه سازی کلونی زنبور مصنوعی با چند بار اجرای فرایند بهینه­سازی و توسط سعی و خطا به دست آمده­ و در جدول(۴-۳) ذکر شده اند:
جدول(۴-۳): پارامترهای الگوریتم بهینه سازی

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...