Journal of Control
مجله کنترل
JoC
Engineering & Technology
http://joc.kntu.ac.ir
1
admin
2008-8345
2538-3752
10.52547/joc
fa
jalali
1390
3
1
gregorian
2011
6
1
5
1
online
1
fulltext
fa
تقریب تابع ارزش عمل با استفاده از شبکه توابع پایه شعاعی برای یادگیری تقویتی
Action Value Function Approximation Based on Radial Basis Function Network for Reinforcement Learning
تخصصي
Special
پژوهشي
Research paper
مشکل تنگنای ابعاد، یکی از چالش هایی است که کاربرد الگوریتم های یادگیری تقویتی گسسته را در مورد مسائل کنترلی واقعی که دارای فضای حالت و عمل بزرگ و یا پیوسته می باشند محدود نموده است. ترکیب روش های آموزشی گسسته با تقریب زننده های تابعی برای حل این مشکل چندی است مورد توجه محققان قرارگرفته است. در همین راستا در این مقاله یک الگوریتم جدید یادگیری تقویتی عصبی (NRL) بر مبنای معماری نقاد- تنها معرفی میگردد. الگوریتم مذکور از ترکیب الگوریتم یادگیری سارسا با شبکه عصبیRBF به عنوان یک تقریب زننده ی تابعی حاصل شده است و ما آن را "یادگیری سارسای عصبی" (NSL) می نامیم. ورودی های شبکه جفت حالت و عمل های مسأله و خروجی آن تابع ارزش عمل تقریب زده شده می باشد. وزن های شبکه به صورت بر خط با توجه به الگوریتم ارائه شده تنظیم میگردند. به عنوان یک شرط لازم همگرایی ما همچنین وجود نقاط ایستای منطبق بر نقاط ثابت الگوریتم "تکرار تقریب ارزش عمل" برای NSLرا اثبات می نماییم. نتایج شبیه سازی ارائه شده در مورد مسائل خودرو در کوهستان و آکروبات حاکی از عملکرد مناسب تر روش ارائه شده از لحاظ سرعت آموزش و کیفیت عملکرد میباشد.
One of the challenges encountered in the application of classical reinforcement learning methods to real-control problems is the curse of dimensiality. In order to overcome this difficulty, hybrid algorithms that combine reinforcement learning with various function approximators have attracted many research interests. In this paper, a novel Neural Reinforcement Learning (NRL) scheme which is based on Sarsa learning and Radial Basis Function (RBF) network is proposed. The RBF network is used to approximate the Action Value Function (AVF) on-line. The inputs of RBF network are state-action pairs of system and its outputs are corresponding approximated AVF. As the necessary condition for the convergence of NSL to the optimal task performance, the existence of stationary points for NSL which coincide with the fixed points of Approximate Action Value Iteration (AAVI) are proved. The validity of the proposed algorithm is tested through simulation examples: mountain car control task, and acrobot problem. Overall results demonstrate that our algorithm can effectively improve convergence speed and the efficiency of experience exploitation.
یادگیری تقویتی عصبی, معماری نقاد-تنها, شبکه عصبی RBF, یادگیری سارسا, نقاط ایستا
Neural reinforcement learning, Critic-only architecture, RBF neural network, Sarsa, stationary points.
50
63
http://joc.kntu.ac.ir/browse.php?a_code=A-10-91-3&slc_lang=fa&sid=1
Vali
Derhami
ولی
درهمی
vderhami@yazduni.ac.ir
1003194753284600204
1003194753284600204
Yes
دانشگاه یزد
Omid
Mehrabi
امید
محرابی
omidmehrabi62@yahoo.com
1003194753284600205
1003194753284600205
No