TY - JOUR T1 - Suboptimal Solution of Nonlinear Graphical Games Using Single Network Approximate Dynamic Programming TT - حل زیربهینه بازی های گرافی دیفرانسیلی غیر خطی با استفاده از برنامه ریزی پویای تقریبی تک-شبکه JF - joc-isice JO - joc-isice VL - 12 IS - 2 UR - http://joc.kntu.ac.ir/article-1-382-fa.html Y1 - 2018 SP - 13 EP - 25 KW - Approximate Dynamic Programming KW - Neural Networks KW - Optimal Control KW - Reinforcement learning N2 - در ایﻦ ﻣﻘﺎﻟﻪ یﮏ اﻟﮕﻮریﺘﻢ یﺎدﮔﯿﺮی ﺑﺮﺧﻂ ﺑﺮﻣﺒﻨﺎی ﺑﺮﻧﺎﻣﻪ ریﺰی ﭘﻮیﺎی ﺗﻘﺮیﺒﯽ ﺗﮏ-ﺷﺒﮑﻪ ﺑﺮای ﺣﻞ ﺗﻘﺮیﺒﯽ ﺑﺎزی ﻫﺎی ﮔﺮاﻓﯽ دیﻔﺮاﻧﺴﯿﻠﯽ زﻣﺎن ﭘﯿﻮﺳﺘﻪ ﻏﯿﺮﺧﻄﯽ ﺑﺎ ﺗﺎﺑﻊ ﻫﺰیﻨﻪ زﻣﺎن ﻧﺎﻣﺤﺪود و دیﻨﺎﻣﯿﮏ ﻣﻌﯿﻦ ﭘﯿﺸﻨﻬﺎد ﺷﺪه اﺳﺖ. در ﺑﺎزی ﻫﺎی ﮔﺮاﻓﯽ دیﻔﺮاﻧﺴﯿﻠﯽ، ﻫﺪف ﻋﺎﻣﻞ ﻫﺎ ردیﺎﺑﯽ ﺣﺎﻟﺖ رﻫﺒﺮ ﺑﻪ ﺻﻮرت ﺑﻬﯿﻨﻪ ﻣﯽ ﺑﺎﺷﺪ، ﺑﻪ ﻃﻮری ﮐﻪ دیﻨﺎﻣﯿﮏ ﺧﻄﺎ و اﻧﺪیﺲ ﻋﻤﻠﮑﺮد ﻫﺮ ﻋﺎﻣﻞ ﺑﺴﺘﮕﯽ ﺑﻪ ﺗﻮﭘﻮﻟﻮژی ﮔﺮاف ﺗﻌﺎﻣﻠﯽ ﺑﺎزی دارد. در اﻟﮕﻮریﺘﻢ ﭘﯿﺸﻨﻬﺎدی، ﻫﺮ ﻋﺎﻣﻞ ﺗﻨﻬﺎ از یﮏ ﺷﺒﮑﻪ ﻋﺼﺒﯽ ﻧﻘﺎد ﺑﺮای ﺗﻘﺮیﺐ ارزش و ﺳﯿﺎﺳﺖ ﮐﻨﺘﺮﻟﯽ ﺑﻬﯿﻨﻪ ﺧﻮد اﺳﺘﻔﺎده ﻣﯽ ﮐﻨﺪ و از ﻗﻮاﻧﯿﻦ ﺗﻨﻈﯿﻢ وزن ﭘﯿﺸﻨﻬﺎد ﺷﺪه ﺑﺮای ﺑﻪ روزرﺳﺎﻧﯽ ﺑﺮﺧﻂ وزن ﻫﺎی ﺷﺒﮑﻪ ﻋﺼﺒﯽ ﻧﻘﺎد ﺧﻮد ﺑﻬﺮه ﻣﯽ ﺟﻮیﺪ. در ایﻦ ﻣﻘﺎﻟﻪ، ﺑﺎ ﻣﻌﺮﻓﯽ ﺳﻮﺋﯿﭻ ﻫﺎی ﭘﺎیﺪار ﺳﺎز ﻣﺤﻠﯽ در ﻗﻮاﻧﯿﻦ ﺗﻨﻈﯿﻢ وزن ﻫﺎی ﺷﺒﮑﻪ ﻋﺼﺒﯽ ﮐﻪ ﭘﺎیﺪاری ﺳﯿﺴﺘﻢ ﺣﻠﻘﻪ ﺑﺴﺘﻪ و ﻫﻤﮕﺮایﯽ ﺑﻪ ﺳﯿﺎﺳﺖ ﻫﺎی ﺗﻌﺎدل ﻧﺶ را ﺗﻀﻤﯿﻦ ﻣﯽ ﮐﻨﻨﺪ، دیﮕﺮ ﻧﯿﺎزی ﺑﻪ ﻣﺠﻤﻮﻋﻪ ﺳﯿﺎﺳﺖ ﻫﺎی ﮐﻨﺘﺮﻟﯽ ﭘﺎیﺪار ﺳﺎز اوﻟﯿﻪ وﺟﻮد ﻧﺪارد. ﺑﻌﻼوه در ایﻦ ﻣﻘﺎﻟﻪ از ﺗﺌﻮری ﻟﯿﺎﭘﺎﻧﻮف ﺑﺮای اﺛﺒﺎت ﭘﺎیﺪاری ﺳﯿﺴﺘﻢ ﺣﻠﻘﻪ ﺑﺴﺘﻪ اﺳﺘﻔﺎده ﻣﯽ ﺷﻮد. در ﭘﺎیﺎن، ﻣﺜﺎل ﺷﺒﯿﻪ ﺳﺎزی، ﻣﻮﺛﺮ ﺑﻮدن اﻟﮕﻮریﺘﻢ ﭘﯿﺸﻨﻬﺎدی را ﻧﺸﺎن ﻣﯽ دﻫﺪ M3 10.29252/joc.12.2.13 ER -