راهنمای ﻧﮕﺎرش ﻣﻘﺎﻟﻪ ﭘﮋوهشی درباره هدایت فازی ربات های خود مختار با استفاده از یادگیری تشدیدی و ...

(۴-۹)
فلوچارت الگوریتم پیشنهادی در زیر مشاهده می شود (شکل(۴-۶)).

شکل(۴-۶): فلوچارت الگوریتم یادگیری Q فازی پیشنهادی

همانگونه که در شکل(۴-۶) نشان داده شده است، سامانه ربات مجتمع متشکل از سه بخش اصلی حسگرها، تصمیم گیری و محرک‌ها (یا موتورها) میباشد. در الگوریتم پیشنهادی ربات در یک حلقه‌ با محیط تعامل دارد. از دید ربات، محیط حس شده به هشت حالت فازی خلاصه می‌شود برای مثال x_t=(S_L=F,S_F=F,S_R=N). یک قانون اگر-آنگاه فازی برای هر یک از این هشت حالت فازی وجود دارد. ورودی هر یک از این قوانین یکی از هشت حالت فازی ‌میباشد. خروجیهای این قوانین یک مقدار ثابت سرعت خطی و شش گزینه پیشنهادی برای زاویه چرخش هستند. یکی از این شش گزینه زاویه چرخش، که دارای بیشترین مقدار q است، توسط یادگیری Q انتخاب می‌شود. در هر حالت فعلی (x_t)، سرعت و زاویه چرخش نهایی توسط فازیزدایی محاسبه میشوند. سپس، فرامین کنترلی مناسب به موتورها ارسال میشوند. مقادیر q پس از مشاهده حالت جدید (x_t+1) و دریافت سیگنال تشدیدی به روز میشوند.

انتخاب مناسب سیگنال تشدیدی (r_t) عامل تعیین کننده ای در عملکرد کلی یادگیری Q است. سیگنال تشدیدی کمیتی اسکالر است که اغلب با توجه اهداف و محدودیتهای موجود مساله مقداردهی می شود. در مساله ناوبری ربات مورد نظر در این پژوهش، هدف رسیدن به نقطه‌ای مشخص و محدودیت، حفظ حداقل فاصله مجاز با موانع میباشد. برای افزایش دقت و کارایی الگوریتم سیگنال تشدیدی به صورت چند مقداری تعریف شده است. مقداردهی به سیگنال تشدیدی براساس مقایسه مقادیر دو کمیت در گام فعلی و بعدی ربات در نظر گرفته شده است، این دو کمیت عبارتند از: اختلاف زاویه ربات نسبت به هدف (Tg) و فاصله ربات تا هدف (Dg). بررسی توامان مقادیر این دو کمیت با توجه به محدودیت دوری از موانع صورت گرفته است. فاصله تا موانع با توجه به بیشینه مقادیر خروجی سه حسگر در نظر گرفته می شود و این مقدار بیشینه در سه بازه در فاصله ۰ تا ۱۰۲۳ بررسی می شود. کرانههای این بازه همان پارامترهای توابع عضویت ورودی فازی هستند، که توسط بهینهساز به دست آمدند (Thr₁=200,Thr₂=700). جدول(۴-۲) مقادیر سیگنال تشدیدی را نشان میدهد.
جدول(‏۴‑۲): مقادیر سیگنال تشدیدی در حالتهای مختلف

			&	Objectives Constraints
r=-1	r=0	r=0	r=5
r=-3	r=-1	r=-1	r=0
r=-5	r=-3	r=-3	r=-1

بهینهسازی
پارامترهای کلیدی یادگیری Q و سامانه استنباط فازی عبارتند از عامل فراموشی γ یادگیری Q (معادله(۳-۲)) و پارامترهای تابع عضویت فازی ورودی lf و ln (شکل(۴-۳)). پارامترهای مذکور توسط الگوریتم بهینهسازی کلونی زنبور مصنوعی به صورت غیربرخط به دست میآیند (بلوک دیاگرام شکل(۴-۷)). سپس از مقادیر بهینه شده‌ی این پارامترها در الگوریتم یادگیری Q فازی که در بخش پیش توضیح داده شد به صورت برخط استفاده می شود (شکل(۴-۶)).

شکل(۴-۷): بهینه سازی غیربرخط پارامترهای کلیدی یادگیری Q و سامانه استنباط فازی

هدف، بهینهسازی الگوریتم تصمیم گیری پیشنهادی در جهت کمینه نمودن همزمان تعداد گامهای رسیدن تا هدف و تعداد برخوردها با موانع میباشد. لذا معیار یا تابع هدف فرایند بهینه سازی به صورت معادله(۴-۱۰) تعریف می شود:
(۴-۱۰)
که در آن F نسبت تعداد برخورد با موانع به کل گامهای طی شده تا رسیدن به مختصات نقطه هدف (بر حسب درصد) و T نسبت تعداد گامهای طی شده به زمان سپری شده (بر حسب درصد) میباشند. F_C و T_C ضرایبی برای نرمالیزه کردن F و T (در بازه ۰ تا ۱) هستند. ضرایب F_C و T_C بدترین (یعنی بیشترین مقادیر) نتایجی میباشند که از کمینهسازی جداگانه F و T حاصل گشتهاند. تابع هدف F_T به صورت عکس مجموع نسبت نرمالیزه برخورد با موانع و تعداد گامهای نرمالیزه تعریف شده است، لذا مطلوب بیشینهسازی آن میباشد.
برای بهینه‌سازی از محیط زیر (شکل(۴-۸)) استفاده می شود. در طراحی محیط برای اجرای الگوریتم بهینه سازی دو ویژگی اصلی در نظر گرفته شدند. یکی اینکه شکلهای هندسی پایه مانند مربع، دایره، مثلث و منحنی مقعر، که هر شکل دیگر می تواند با ترکیبی از آنها ساخته شود، در محیط وجود داشته باشند و دیگر اینکه محیط نسبت به خط واصل مستقیم میان ربات و هدف متقارن باشد، تا تضمین شود ربات هر مسیری را که انتخاب کند با موانع مورد نظر مواجه خواهد شد.

شکل(۴-۸): محیط در نظر گرفته شده جهت فرایند بهینه سازی

پارامترهای الگوریتم بهینه سازی کلونی زنبور مصنوعی با چند بار اجرای فرایند بهینهسازی و توسط سعی و خطا به دست آمده و در جدول(۴-۳) ذکر شده اند:
جدول(۴-۳): پارامترهای الگوریتم بهینه سازی

موضوعات: بدون موضوع لینک ثابت

فرم در حال بارگذاری ...

فید نظر برای این مطلب