「8」读物
【你通关过《超级马里奥兄弟》么?】有个名叫Viet Nguyen的程序员,虽然自己没过几关,但他调教的AI已破了29关,图为实况。只剩3关没解开了。
程序员用的算法叫PPO,是“近端策略优化”的简称。不熟悉这名字不要紧,当年#dota2#五人团战中打赢TI8冠军OG的OpenAI Five战队,用的就是这种算法。
至于PPO到底是什么,简单地说:AI玩游戏的时候,要通过不停的学习,更新自己的策略。以从前的策略梯度算法,假如新旧策略之间差别太大,就不利于学习。而PPO可以靠多步训练,用小批量更新策略。这样一来,AI学习起来就更见效了。
程序员说,选择PPO之前他也用过另一种AI玩马里奥。那是个“演员-评论家”算法,演员负责表演,评论家评价演员演得好不好。比如踩死蘑菇就被表扬,碰到蘑菇死掉就被批评。但这个方法只过了9关。相比之下,如今PPO表现之精彩超出他的想象。
而AI没打通的那3关,就是3个迷宫:4-4,7-4,8-4。因为有很多条路可走,选错路再回头的成本有点高,所以目前AI还没有通关。
那么问题来了,你不看攻略能过这几关么?[doge]
「9」视频:
你的一生:活在渴望成功的简历中 还是被人称赞的悼词里
——————-完——————-
itotii网 综合整理,感谢支持,转载请注明!
💖【联系我们】人工服务[点击联系]
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
请登录后查看评论内容