ولی درهمی^*

¹، فرزانه نادی¹

، فریناز اعلمی‌یان هرندی²

1- دانشگاه یزد
2- دانشگاه صنعتی اصفهان

چکیده: (1065 مشاهده)

این مقاله روشی جدید در استفاده از داده‌های جمع آوری شده از حرکت تصادفی عامل در محیط برای تنظیم اولیه‌ی پارامترهای یک کنترلگر با ساختار یادگیری تقویتی فازی ارائه می‌دهد. کندی سرعت آموزش و تعداد شکست بالا در زمان آموزش دو چالش مهم در این قبیل ساختارها هستند. مقداردهی اولیه‌ی پارامترهای سیستم فازی می‌تواند راهکار مناسبی برای رفع این چالش‌ها باشد. در این مقاله با تعمیم روش تکرار ارزش گسسته به پیوسته بدون بهره‌گیری از روش‌های مبتنی بر مشتق، پارامترهای سیستم فازی مقدار دهی اولیه می‌شوند. ابتدا با تعامل تصادفی عامل با محیط داده‌های مرتبط جمع‌آوری می‌شود. با توجه به آنکه فضای حالت پیوسته است، داده‌ها به طور مناسب خوشه بندی شده و هر خوشه به عنوان یک حالت لحاظ می‌گردد. آنگاه با تعمیم روش تکرار ارزش استاندارد به پیوسته ماتریس احتمال انتقال حالت-عمل به حالت بعدی و امید پاداش آنی حالت-عمل به حالت بعدی محاسبه می‌شود. با استفاده از نتایج این مرحله پارامترهای ساختار یادگیری تقویتی فازی مقدار دهی اولیه می‌شوند. پس آز آن پارامترهای این ساختار به صورت برخط با روش یادگیری تقویتی تنظیم نهایی می‌گردند. روش ارایه شده "یادگیری تقویتی فازی مبتنی بر تکرار ارزش" نامیده می‌شود و در مسئله‌ی ربات تعقیب کننده‌ی هدف مورد استفاده قرار می‌گیرد. نتایج آزمایش‌ها حاکی از بهبود قابل توجه عملکرد روش ارائه شده در مسئله‌ی ربات تعقیب کننده‌ی هدف است.
این مقاله روشی جدید در استفاده از داده‌های جمع آوری شده از حرکت تصادفی عامل در محیط برای تنظیم اولیه‌ی پارامترهای یک کنترلگر با ساختار یادگیری تقویتی فازی ارائه می‌دهد. کندی سرعت آموزش و تعداد شکست بالا در زمان آموزش دو چالش مهم در این قبیل ساختارها هستند. مقداردهی اولیه‌ی پارامترهای سیستم فازی می‌تواند راهکار مناسبی برای رفع این چالش‌ها باشد. در این مقاله با تعمیم روش تکرار ارزش گسسته به پیوسته بدون بهره‌گیری از روش‌های مبتنی بر مشتق، پارامترهای سیستم فازی مقدار دهی اولیه می‌شوند. ابتدا با تعامل تصادفی عامل با محیط داده‌های مرتبط جمع‌آوری می‌شود. با توجه به آنکه فضای حالت پیوسته است، داده‌ها به طور مناسب خوشه بندی شده و هر خوشه به عنوان یک حالت لحاظ می‌گردد. آنگاه با تعمیم روش تکرار ارزش استاندارد به پیوسته ماتریس احتمال انتقال حالت-عمل به حالت بعدی و امید پاداش آنی حالت-عمل به حالت بعدی محاسبه می‌شود. با استفاده از نتایج این مرحله پارامترهای ساختار یادگیری تقویتی فازی مقدار دهی اولیه می‌شوند. پس آز آن پارامترهای این ساختار به صورت برخط با روش یادگیری تقویتی تنظیم نهایی می‌گردند. روش ارایه شده "یادگیری تقویتی فازی مبتنی بر تکرار ارزش" نامیده می‌شود و در مسئله‌ی ربات تعقیب کننده‌ی هدف مورد استفاده قرار می‌گیرد. نتایج آزمایش‌ها حاکی از بهبود قابل توجه عملکرد روش ارائه شده در مسئله‌ی ربات تعقیب کننده‌ی هدف است.

واژه‌های کلیدی: کنترلگر فازی، یادگیری تقویتی، برنامه‌سازی پویا، خوشه‌بندی، ربات تعقیب کننده‌ی هدف

نوع مطالعه: پژوهشي | موضوع مقاله: تخصصي
دریافت: 1402/9/10 | پذیرش: 1403/3/27 | انتشار الکترونیک پیش از انتشار نهایی: 1403/5/7

ارسال پیام به نویسنده مسئول

بازنشر اطلاعات
	این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.