¹þ¹þ(haha)ÌåÓý

ÉêÇëÊÔÓÃ
怬
½¹µãÊÖÒÕ
ÒÔÔ­´´ÊÖÒÕϵͳΪ»ù±¾£¬£¬ £¬£¬£¬£¬SenseCoreÉÌÌÀAI´ó×°ÖÃΪ½¹µã»ù×ù£¬£¬ £¬£¬£¬£¬½á¹¹¶àÁìÓò¡¢¶àÆ«ÏòÇ°ÑØÑо¿£¬£¬ £¬£¬£¬£¬
¿ìËÙÂòͨAIÔÚ¸÷¸ö±ÊÖ±³¡¾°ÖеÄÓ¦Ó㬣¬ £¬£¬£¬£¬ÏòÐÐÒµ¸³ÄÜ¡£¡£¡£¡£¡£¡£ ¡£¡£

NeurIPS 2023 Spotlight | ÃæÏòͨÓþöÒ鳡¾°µÄMCTS»ù×¼¿ò¼Ü£ºLightZero

2023-12-05

1.png


ÂÛÎÄÁ´½Ó£ºhttps://arxiv.org/abs/2310.08348

´úÂëµØµã£ºhttps://github.com/opendilab/LightZero


¸ÅÊö


±¾ÎĽ«ÏÈÈÝÃûΪLightZeroµÄͨÓÃËã·¨Benchmark£¬£¬ £¬£¬£¬£¬Ëü¼¯³ÉÁËMCTS/MuZeroËã·¨µÄ¸÷¸öÑÜÉú·ÖÖ§£¬£¬ £¬£¬£¬£¬º­¸ÇÁË9ÖÖËã·¨ºÍ¶ÔÁè¼Ý20ÖÖ¾öÒéÇéÐεÄʵ¼ùÆÀ¹À¡£¡£¡£¡£¡£¡£ ¡£¡£LightZeroÉîÈëÆÊÎöÁËMCTSÒªÁìµÄÉú³¤ÀúÊ·ºÍRLÇéÐεĶàÑùÐÔ£¬£¬ £¬£¬£¬£¬½â¶ÁÁË¿ª·¢Í¨ÓþöÒéËã·¨ÃæÁÙµÄÁù´óÌôÕ½ÐÔά¶È¡£¡£¡£¡£¡£¡£ ¡£¡£


ΪÏàʶ¾öÓÉËã·¨Óëϵͳ¼Ü¹¹µÄ¸ß¶ÈñîºÏÐÔÒý·¢µÄÖÖÖÖÎÊÌ⣬£¬ £¬£¬£¬£¬LightZeroÉè¼ÆÁËÒ»¸öÄ£¿£¿£¿£¿ £¿£¿£¿é»¯µÄѵÁ·Á÷³Ì£¬£¬ £¬£¬£¬£¬ÒÔ±ãÎÞаµØ¶¨ÖƺÍÓÅ»¯ÖÖÖÖMCTSϵÁÐËã·¨×é¼þ¡£¡£¡£¡£¡£¡£ ¡£¡£ÏêϸµØ£¬£¬ £¬£¬£¬£¬LightZero½«ÕâÀàÒªÁìµÄѵÁ·¼Æ»®»®·ÖΪËĸö×ÓÄ£¿£¿£¿£¿ £¿£¿£¿é£ºÊý¾ÝÍøÂçÆ÷£¨Data collector£©¡¢Êý¾ÝÕûÀíÆ÷£¨Data arranger)¡¢ÖÇÄÜÌåѧϰÆ÷£¨Agent learner) ºÍÖÇÄÜÌåÆÀ¹ÀÆ÷£¨Agent evaluator£©£¬£¬ £¬£¬£¬£¬ÖÂÁ¦ÓÚ×ÊÖú¿ª·¢ÕßרעÓÚÇéÐκÍËã·¨µÄÑо¿¡£¡£¡£¡£¡£¡£ ¡£¡£


ÁíÍ⣬£¬ £¬£¬£¬£¬»ùÓÚÔÚ¿ò¼ÜÉè¼ÆºÍ»ù×¼²âÊÔÖз¢Ã÷µÄÂÄÀú£¬£¬ £¬£¬£¬£¬LightZero½øÒ»²½Ì½ÌÖÁ˽«model-based RLµÄÏà¹Ø×îÐÂÒªÁìÓëMCTSÒªÁìÍŽáµÄÓÅÊÆ¡£¡£¡£¡£¡£¡£ ¡£¡£ÀýÈçÒýÈë»ùÓÚself-consistencyµÄ×Ô¼àÊÓѵÁ·ÒªÁì¿ÉÒÔÔÚ²¿·ÖÇéÐÎÉÏÄÜÏÔÖø¼ÓËÙËã·¨ÊÕÁ²ÐÔ£¬£¬ £¬£¬£¬£¬µ«²»µ±µÄʹÓÃÒ²»áÏÔÖøÓ°ÏìÁíÒ»²¿·ÖÇéÐεÄѵÁ·ÎȹÌÐÔ¡£¡£¡£¡£¡£¡£ ¡£¡£×îÖÕ£¬£¬ £¬£¬£¬£¬Ï꾡µÄ»ù×¼²âÊÔºÍʵÑéÅú×¢£¬£¬ £¬£¬£¬£¬LightZeroÖÐÕûºÏ²¢¹¹½¨µÄ×î¼ÑËã·¨±äÌå¾ßÓм«¸ßµÄÊý¾ÝʹÓÃЧÂÊºÍÆÕ±éµÄÓ¦ÓùæÄ£¡£¡£¡£¡£¡£¡£ ¡£¡£


¸ÃÂÛÎĵÄÖ÷ҪТ˳ÈçÏ£º


1. ÍÆ³öÁËLightZero£¬£¬ £¬£¬£¬£¬ÕâÊÇÊ׸öϵͳÐÔÆÀ¹ÀMCTS/MuZeroϵÁÐËã·¨µÄͨÓÃBenchmark¿ò¼Ü¡£¡£¡£¡£¡£¡£ ¡£¡£

2. ÏêÊöÁËÉè¼ÆÍ¨ÓþöÒéË㷨ʱÐèÒªÃæÁÙµÄÒªº¦ÌôÕ½£¬£¬ £¬£¬£¬£¬Îª½â¾öÕâЩÎÊÌ⣬£¬ £¬£¬£¬£¬LightZero¶ÔMCTSËã·¨ºÍϵͳÉè¼Æ¾ÙÐÐÏàʶñ£¬ £¬£¬£¬£¬Éè¼ÆÁËÄ£¿£¿£¿£¿ £¿£¿£¿é»¯µÄѵÁ·Á÷³Ì£¬£¬ £¬£¬£¬£¬ÆäÓÅÒìµÄ¿ÉÀ©Õ¹ÐÔÓÐÖúÓÚ¸ü±ã½ÝµØÉè¼ÆºÍ¼¯³ÉǿʢµÄͨÓþöÒéÖÇÄÜÌå¡£¡£¡£¡£¡£¡£ ¡£¡£

3. չʾÁËLightZeroÖй¹½¨µÄMCTSËã·¨±äÌå¿É×÷ΪһÖÖͨÓÃÐòÁоöÒéÎÊÌâ½â¾ö¼Æ»®µÄǿʢÄÜÁ¦ºÍDZÔÚµÄδÀ´¼ÛÖµ¡£¡£¡£¡£¡£¡£ ¡£¡£


ÒªÁì


ÕâÒ»²¿·Ö£¬£¬ £¬£¬£¬£¬±¾ÎÄÊ×ÏÈ»á¸ÅÊö½â˵LightZero£¬£¬ £¬£¬£¬£¬È»ºóÉîÈëÌÖÂÛÉè¼ÆÍ¨ÓÃMCTSËã·¨½«ÅöÃæÁÙµÄÇéÐÎÌôÕ½£¬£¬ £¬£¬£¬£¬²¢Ìá³öÄ£¿£¿£¿£¿ £¿£¿£¿é»¯µÄѵÁ·Á÷³ÌÉè¼Æ¼Æ»®ºÍ¸ß¶È¿ÉÀ©Õ¹µÄMCTS¹¤¾ßÁ´¡£¡£¡£¡£¡£¡£ ¡£¡£


Benchmark ¼ò½é


2.png

ͼ1£ºLightZero ¸ÅÀÀ¡£¡£¡£¡£¡£¡£ ¡£¡£×ó²à²¿·ÖÃè»æÁËÃÉÌØ¿¨ÂÞÊ÷ËÑË÷£¨MCTS£©µÄÉú³¤Àú³Ì£¬£¬ £¬£¬£¬£¬¶øÓÒ²àÔòչʾÁËÖÖÖÖÇ¿»¯Ñ§Ï°£¨RL£©ÇéÐΡ£¡£¡£¡£¡£¡£ ¡£¡£LightZero Èںϲ¢ÍØÕ¹ÁË MCTS/MuZero ×ÓÁìÓòµÄ×îÐÂÑо¿Ð§¹û£¬£¬ £¬£¬£¬£¬²¢½«ÕâЩЧ¹ûÓÐÓõØÓ¦ÓÃÓÚ¶àÖÖ²î±ðµÄÇéÐÎÖС£¡£¡£¡£¡£¡£ ¡£¡£


Èçͼ1Ëùʾ£¬£¬ £¬£¬£¬£¬LightZeroÊÇÊ׸öËѼ¯ÁËMCTS/MuZeroÁìÓòÏÕЩËùÓÐ×îÐÂË㷨ϣÍûµÄBenchmark²âÊÔÆ½Ì¨¡£¡£¡£¡£¡£¡£ ¡£¡£¸ü׼ȷµØËµ£¬£¬ £¬£¬£¬£¬LightZeroËѼ¯ÁËÔ´×ÔAlphaZero/MuZeroµÄ9ÏîÒªº¦Ëã·¨ºÍÁè¼Ý20ÖÖ¾öÒéÇéÐΣ¬£¬ £¬£¬£¬£¬ÎªÆäÉè¼ÆÁ˱ê×¼»¯µÄѵÁ·ºÍ°²ÅŽӿڣ¬£¬ £¬£¬£¬£¬ÒÔ˳Ӧ¶àÖÖ¾öÒéÇéÐεÄÐèÒª¡£¡£¡£¡£¡£¡£ ¡£¡£


ÓëÔ­ÓÐÆäËûÖÖÖÖ¶¨ÖÆ»¯Ëã·¨¿ò¼ÜÏà±È£¬£¬ £¬£¬£¬£¬LightZeroÌṩÁËÒ»ÖÖͳһµÄÊӽǺÍÓû§½Ó¿Ú¡£¡£¡£¡£¡£¡£ ¡£¡£ÕâÖÖͳһÐÔʹµÃ±ÈÕÕºÍÆÊÎöÖÖÖÖÊÖÒÕ×éºÏ³ÉΪ¿ÉÄÜ£¬£¬ £¬£¬£¬£¬ÎªMCTSÏà¹ØËã·¨ºÍÓ¦ÓõÄÑо¿Ìṩһ¸öǿʢÇÒͨÓõĻù׼ƽ̨¡£¡£¡£¡£¡£¡£ ¡£¡£


ÔõÑùÆÀ¹ÀÒ»¸öͨÓà MCTS Ëã·¨£º6ÖÖÇéÐÎÌôÕ½



3.png

ͼ2£ºMCTS+RLÒªÁìºÍmodel-free RLÒªÁ죨ÀýÈç PPO£©ÔÚÁù¸öÇéÐÎÌôÕ½¼°Êý¾ÝЧÂÊά¶ÈÉϵ͍ÐÔ±ÈÕÕЧ¹û¡£¡£¡£¡£¡£¡£ ¡£¡£LightZeroÖн«Í¨ÓþöÒéÇó½âÆ÷µÄÒªº¦ÄÜÁ¦¾ÙÐÐÁË·ÖÀ࣬£¬ £¬£¬£¬£¬°üÀ¨£º¶àģ̬ÊÓ²ì¿Õ¼ä¡¢ÖØ´óÐж¯¿Õ¼ä¡¢ÇéÐιÌÓÐËæ»úÐÔ¡¢¶ÔÏÈÑé֪ʶµÄÒÀÀµË®Æ½¡¢·ÂÕæ±¾Ç®¡¢Ì½Ë÷ÄѶȺÍÊý¾ÝЧÂÊ¡£¡£¡£¡£¡£¡£ ¡£¡£Í¼ÖеÄÿÌõÇúÏßÌåÏÖÒ»¸öËã·¨ÔÚÕâÁù¸öÖÖ±ðÉÏµÄÆÀ·Ö¡£¡£¡£¡£¡£¡£ ¡£¡£ÆÀ·ÖΪ1ÌåÏÖ¸ÃËã·¨ÔÚ´Ëά¶ÈÉÏÌåÏÖÇ·¼Ñ£¬£¬ £¬£¬£¬£¬Ö»ÊÊÓÃÓÚÓÐÏÞ³¡¾°£¬£¬ £¬£¬£¬£¬¶ø¸ü¸ßµÄÆÀ·ÖÔòÒâζןüÆÕ±éµÄÓ¦ÓùæÄ£ºÍ¸üÓŵÄÐÔÄÜ¡£¡£¡£¡£¡£¡£ ¡£¡£ÌØÊâµØ£¬£¬ £¬£¬£¬£¬model-free RLÒªÁì²»ÒÀÀµ·ÂÕæ£¬£¬ £¬£¬£¬£¬¶ÔÏÈÑé֪ʶµÄÒÀÀµ¶È½ÏС£¡£¡£¡£¡£¡£ ¡£¡£¬£¬ £¬£¬£¬£¬Òò´ËÔÚÕâЩÁìÓòµÃ·Ö½Ï¸ß¡£¡£¡£¡£¡£¡£ ¡£¡£Çë×¢ÖØ£¬£¬ £¬£¬£¬£¬LightZeroÔÚ´ËÉÏÏÂÎÄÖÐÖ¸µÄÊÇÔÚ LightZero ¿ò¼ÜÄÚ£¬£¬ £¬£¬£¬£¬½«ÖÖÖÖÊÖÒպͳ¬²ÎÊýÉèÖþÙÐÐ×îÓÅ×éºÏµÄÌØÊâËã·¨±äÌå¡£¡£¡£¡£¡£¡£ ¡£¡£¹ØÓÚ¶¨ÐÔÆÀ·Ö¹æÔòµÄÏêϸÐÅÏ¢£¬£¬ £¬£¬£¬£¬Çë°Ý¼ûÔ­ÂÛÎĸ½Â¼ D¡£¡£¡£¡£¡£¡£ ¡£¡£


LightZero¶ÔÖÖÖÖRLÇéÐξÙÐÐÁËͳһµÄÆÊÎö£¬£¬ £¬£¬£¬£¬×ܽá³öÉè¼ÆÍ¨ÓøßЧMCTSËã·¨µÄÁù¸öÒªº¦ÌôÕ½£¨Í¼2£©¡£¡£¡£¡£¡£¡£ ¡£¡£ÏêϸÀ´Ëµ£¬£¬ £¬£¬£¬£¬ÕâÁùÖÖÇéÐÎÌôÕ½»®·ÖÊÇ£º


1£©¶àģ̬ÊÓ²ì¿Õ¼ä£¨Multi-modal observation spaces£©£¬£¬ £¬£¬£¬£¬ÐèÒªÖÇÄÜÌåÄܹ»ÌáÈ¡²¢ÓÐÓÃÈںϲî±ðÐÎʽµÄÐÅÏ¢ÈçµÍάÏòÁ¿¡¢ÊÓ¾õͼÏñºÍÖØ´ó½á¹¹»¯ÊÓ²ì¿Õ¼äµÈ¡£¡£¡£¡£¡£¡£ ¡£¡£


2£©ÖØ´óÐж¯¿Õ¼ä£¨Complex action space£©£¬£¬ £¬£¬£¬£¬ÐèÒªÖÇÄÜÌåÄÜÔÚÌìÉú¶àÑù»¯¾öÒéÐźÅÉÏÌåÏÖ¾«²Ê£¬£¬ £¬£¬£¬£¬°üÀ¨ÀëÉ¢Ðж¯Ñ¡Ôñ¡¢Ò»Á¬¿ØÖƺͻìÏý½á¹¹µÄÐж¯¿Õ¼äµÈ¡£¡£¡£¡£¡£¡£ ¡£¡£


3£©ÒÀÀµÏÈÑé֪ʶ£¨Reliance on prior knowledge£©£¬£¬ £¬£¬£¬£¬ÕâÊÇAlphaZeroµÈÒªÁìµÄÒ»¸öÖ÷ÒªÈõµã¡£¡£¡£¡£¡£¡£ ¡£¡£ÕâЩҪÁìʵÖÊÉÏÐèÒªÄܹ»»á¼ûÍêÉÆµÄÄ£ÄâÆ÷ºÍÇéÐεÄÏêϸ¹æÔò¡£¡£¡£¡£¡£¡£ ¡£¡£Ïà·´£¬£¬ £¬£¬£¬£¬MuZero¼°ÅÉÉúÒªÁìͨ¹ýѧϰÇéÐÎÄ£×ÓÀ´Ì滻ģÄâÆ÷ºÍÏà¹ØÏÈÑ飬£¬ £¬£¬£¬£¬½â¾öÁËÕâÒ»ÏÞÖÆ¡£¡£¡£¡£¡£¡£ ¡£¡£


4£©ÇéÐιÌÓÐËæ»úÐÔ£¨Inherent stochasticity£©ÔÚ»ùÓÚÊ÷ËÑË÷µÄÍýÏëÒªÁìÖÐÌá³öÁ˸ùÌìÐÔÌôÕ½¡£¡£¡£¡£¡£¡£ ¡£¡£»£» £»£»£»£ÇéÐζ¯Á¦Ñ§µÄ²»È·¶¨ÐԺͲ¿·Ö¿ÉÊÓ²ìµÄ״̬¿Õ¼ä¶¼¿ÉÄܵ¼ÖÂÍýÏë¹ì¼£µÄ´í룬£¬ £¬£¬£¬£¬±¬·¢´ó×ÚÎÞÓûò³åÍ»µÄËÑË÷Ч¹û¡£¡£¡£¡£¡£¡£ ¡£¡£


5£©Ä£ÄⱾǮ£¨Simulation cost£©ÊÇMCTS-styleÒªÁìµÄʱ¼äÏûºÄµÄÖ÷ҪȪԴ¡£¡£¡£¡£¡£¡£ ¡£¡£Í¬Ê±£¬£¬ £¬£¬£¬£¬ÈôÊÇËã·¨ÔÚÄ£ÄâÀú³ÌÖÐδÄÜ»á¼ûËùÓÐÐëÒªµÄÐж¯£¬£¬ £¬£¬£¬£¬Ëã·¨µÄÐÔÄÜ»á´ó·ùϽµ¡£¡£¡£¡£¡£¡£ ¡£¡£


6£©Ì½Ë÷ÄÑÌ⣨Hard exploration£©ÊÇÒ»¸ö¾­³£±»ºöÊÓµÄÒªº¦ÌôÕ½¡£¡£¡£¡£¡£¡£ ¡£¡£ËäÈ»ËÑË÷Ê÷¿ÉÒÔͨ¹ýïÔ̭̽Ë÷¹æÄ£À´Ìá¸ßЧÂÊ£¬£¬ £¬£¬£¬£¬µ«MCTS-styleµÄÒªÁìÔÚÓдó×Ú·ÇÖÕÖ¹¹ì¼££¨¼´Ã»ÓÐÓÐÓõĽ±ÀøÐźŵĹ켣£©µÄÇéÐÎÖÐÈÝÒ×Óöµ½ÄÑÌ⣬£¬ £¬£¬£¬£¬ÈçÃÔ¹¬µÈ¡£¡£¡£¡£¡£¡£ ¡£¡£


ÔõÑù¼ò»¯Ò»¸öͨÓà MCTS Ëã·¨£ºÄ£¿£¿£¿£¿ £¿£¿£¿é»¯ÑµÁ·Á÷³Ì


4.png

ͼ3£ºLightZeroѵÁ·Á÷³ÌÖеÄËĸö½¹µã×ÓÄ£¿£¿£¿£¿ £¿£¿£¿é¡£¡£¡£¡£¡£¡£ ¡£¡£ÉÏÏÂÎĽ»Á÷Æ÷£¨Context Exchanger£©ÈÏÕæÔÚ¸÷¸ö×ÓÄ£¿£¿£¿£¿ £¿£¿£¿éÖ®¼ä´«ÊäÉèÖá¢Ä£×Ӻ͹켣¡£¡£¡£¡£¡£¡£ ¡£¡£


MCTSϵÁÐÒªÁìËäÈ»ÌåÏÖÓÅÒ죬£¬ £¬£¬£¬£¬µ«×ÅʵÏÖÖØ´óÐÔÒ²Ï൱¸ß£¬£¬ £¬£¬£¬£¬Õâ´ó´óÏÞÖÆÁËÆäÓ¦Óó¡¾°¡£¡£¡£¡£¡£¡£ ¡£¡£ÓëDQN/PPOµÈmodel-free RLËã·¨²î±ð£¬£¬ £¬£¬£¬£¬MCTSÒªÁìÔÚÿ´ÎÖÇÄÜÌå-ÇéÐν»»¥Öж¼ÐèҪʹÓÃËÑË÷Ê÷¾ÙÐжಽģÄâ¡£¡£¡£¡£¡£¡£ ¡£¡£±ðµÄ£¬£¬ £¬£¬£¬£¬ÎªÁËÌáÉýѵÁ·Êý¾ÝÖÊÁ¿£¬£¬ £¬£¬£¬£¬MuZero UnpluggedÒýÈëÁËÊý¾ÝÖØÆÊÎö»úÖÆ£¬£¬ £¬£¬£¬£¬Í¨¹ýʹÓÃÐÂÄ£×ÓÖØÐÂÅÌËã¾ÉÊý¾Ý£¬£¬ £¬£¬£¬£¬ÒÔ»ñȡˢеÄѵÁ·Ä¿µÄ¡£¡£¡£¡£¡£¡£ ¡£¡£È»¶ø£¬£¬ £¬£¬£¬£¬ÕâÁ½ÖÖÊÖÒÕ¶¼ÐèÒª¶à´ÎŲÓÃÄ£ÄâÆ÷»òÉñ¾­ÍøÂ磬£¬ £¬£¬£¬£¬ÔöÌíÁËÂþÑÜʽѵÁ·ºÍÍ¨Ñ¶ÍØÆËµÈ·½ÃæµÄÖØ´óÐÔ¡£¡£¡£¡£¡£¡£ ¡£¡£Òò´Ë£¬£¬ £¬£¬£¬£¬¶ÔËã·¨¾ÙÐм¯³ÉÒÔ¼ò»¯Õû¸ö¿ò¼ÜÊÇÐëÒªµÄ¡£¡£¡£¡£¡£¡£ ¡£¡£


LightZeroÖÐÉè¼ÆµÄѵÁ·Á÷³Ì£¨Èçͼ3Ëùʾ£©°üÀ¨Ëĸö½¹µã×ÓÄ£¿£¿£¿£¿ £¿£¿£¿é¡£¡£¡£¡£¡£¡£ ¡£¡£


  • Ê×ÏÈ£¬£¬ £¬£¬£¬£¬LightZeroͬʱ֧³Öonline RLºÍoffline RLѵÁ·¡£¡£¡£¡£¡£¡£ ¡£¡£Á½ÕßµÄÖ÷񻂿±ðÔÚÓÚÊǽÓÄÉÔÚÏß½»»¥Êý¾ÝÍøÂçÆ÷ÕÕ¾ÉÖ±½ÓʹÓÃÀëÏßÊý¾Ý¼¯¡£¡£¡£¡£¡£¡£ ¡£¡£


  • Æä´Î£¬£¬ £¬£¬£¬£¬LightZero¶ÔÏà¹ØÑµÁ·Á÷³Ì¾ÙÐÐÁËÖØ¹¹£¬£¬ £¬£¬£¬£¬½«ÆäÆÊÎöΪËĸö½¹µã×ÓÄ£¿£¿£¿£¿ £¿£¿£¿é£¬£¬ £¬£¬£¬£¬×ñÕÕ¸ßÄÚ¾Û¡¢µÍñîºÏ£¨high cohesion and low coupling£©µÄÉè¼ÆÔ­Ôò¡£¡£¡£¡£¡£¡£ ¡£¡£


  • Êý¾ÝÍøÂçÆ÷£¨Data collector£©ÈÏÕæÊ¹ÓÃÕ½ÂÔÍøÂçºÍËÑË÷Ê÷¾ÙÐÐÓÐÓõÄÐж¯Ñ¡Ôñ£¬£¬ £¬£¬£¬£¬Í¬Ê±°üÀ¨ÖÖÖÖ̽Ë÷Õ½ÂÔ£¬£¬ £¬£¬£¬£¬ÒÔ¼°Êý¾ÝÔ¤´¦Öóͷ£ºÍ´ò°ü²Ù×÷¡£¡£¡£¡£¡£¡£ ¡£¡£

  • Êý¾ÝÕûÀíÆ÷£¨Data arranger£©ÔÚMCTSÖÐÊÎÑÝ×ÅÒªº¦½ÇÉ«£¬£¬ £¬£¬£¬£¬ËüÄÜÓÐÓõش洢ºÍ×¼±¸ÓÃÓÚѵÁ·µÄÓмÛÖµÊý¾Ý¡£¡£¡£¡£¡£¡£ ¡£¡£´ËÄ£¿£¿£¿£¿ £¿£¿£¿éÉæ¼°µ½Êý¾ÝÖØÆÊÎöÊÖÒÕ£¬£¬ £¬£¬£¬£¬ÓÃÒÔУÕýoff-policy»òÀëÏßÊý¾Ý¡£¡£¡£¡£¡£¡£ ¡£¡£ÓÅÏȼ¶²ÉÑùµÄ¸ÄÁ¼°æÈ·±£ÁËѵÁ·µÄСÅúÁ¿Êý¾Ý¾ßÓÐ×ã¹»µÄ¶àÑùÐԺͽϸߵÄѧϰDZÄÜ¡£¡£¡£¡£¡£¡£ ¡£¡£ÍÌÍÂÁ¿ÏÞÖÆÆ÷ÈÏÕæ¿ØÖÆÌí¼ÓºÍ²ÉÑùÊý¾ÝµÄ±ÈÀý£¬£¬ £¬£¬£¬£¬ÒÔÔÚÀο¿µÄͨѶ´ø¿íÄÚʵÏÖ×îÓŵÄÊý¾ÝʹÓÃЧ¹û¡£¡£¡£¡£¡£¡£ ¡£¡£

  • ÖÇÄÜÌåѧϰÆ÷£¨Agent learner£©ÈÏÕæ¶à¸öÍøÂçµÄѵÁ·£¬£¬ £¬£¬£¬£¬¿ÉÒÔʹÓÃ×Ô¼àÊÓ±íÕ÷ѧϰ£¬£¬ £¬£¬£¬£¬»ùÓÚÄ£×ÓµÄrollout£¬£¬ £¬£¬£¬£¬»ùÓÚÖµÂþÑܵÄÇ¿»¯Ñ§Ï°ºÍ¼ÛÖµº¯Êý¹éÒ»»¯µÈÓÅ»¯ÊÖÒÕ¾ÙÐÐÔöÇ¿¡£¡£¡£¡£¡£¡£ ¡£¡£ÕâЩÊÖÒÕÓÐÖúÓÚÕ½ÂÔµÄÌáÉý£¬£¬ £¬£¬£¬£¬½ø¶øÌá¸ßÖÇÄÜÌåµÄÕûÌåÐÔÄÜ¡£¡£¡£¡£¡£¡£ ¡£¡£

  • ÖÇÄÜÌåÆÀ¹ÀÆ÷£¨Agent evaluator£©ÌṩÖÖÖÖÕë¶ÔÇ¿»¯Ñ§Ï°µÄÆÀ¼ÛÖ¸±êÒÔ¼à¿ØÑµÁ·Àú³Ì²¢ÆÀÔ¤Õ½ÂÔÐÐΪ¡£¡£¡£¡£¡£¡£ ¡£¡£Í¬Ê±£¬£¬ £¬£¬£¬£¬Õâ¸öÄ£¿£¿£¿£¿ £¿£¿£¿é¼¯³ÉÁËһЩģ×ÓÍÆÀíʱ³£Óõļ¼ÇÉ£¬£¬ £¬£¬£¬£¬Èçbeam search£¬£¬ £¬£¬£¬£¬ÒÔÌáÉý²âÊÔÐÔÄÜ¡£¡£¡£¡£¡£¡£ ¡£¡£


LightZero»ùÓÚÉÏÊöÉè¼ÆÌṩһϵÁбê×¼½Ó¿ÚºÍ¹¤¾ß£¬£¬ £¬£¬£¬£¬ÈÃÑо¿Õߺ͹¤³ÌʦÄܸüÓÐÓõؿª·¢Ëã·¨»ò¾ÙÐÐϵͳÓÅ»¯¡£¡£¡£¡£¡£¡£ ¡£¡£ÆäÖУ¬£¬ £¬£¬£¬£¬MCTSµÄ̽Ë÷Õ½ÂÔºÍÌìÏÂÄ£×ÓµÄ¶ÔÆëÎÊÌâÖÁ¹ØÖ÷Òª£¬£¬ £¬£¬£¬£¬½«ÔÚºóÐøÕ½ÚÏêϸ̽ÌÖ¡£¡£¡£¡£¡£¡£ ¡£¡£¹ØÓÚ¶àÏòÁ¿ÇéÐκÍËÑË÷Ê÷µÄ²¢Ðмƻ®Ò²ÊÇÖµµÃÉµÄ»°Ì⣬£¬ £¬£¬£¬£¬Ò»¸ödzÒ׵ıÈÕÕʾÒâͼÈçÏÂËùʾ£¬£¬ £¬£¬£¬£¬ÏêϸµÄÊý¾ÝÁ÷ºÍ¿ªÏúÆÊÎöÇë²Î¿¼Ô­ÂÛÎĸ½Â¼ E¡£¡£¡£¡£¡£¡£ ¡£¡£


5.png

ͼ4£ºÖݪֲî±ð¾öÒéËã·¨ÔÚÊý¾ÝÍøÂçʱµÄ²¢Ðл¯Éè¼Æ¼Æ»®±ÈÕÕͼ¡£¡£¡£¡£¡£¡£ ¡£¡£MCTS ϵÁÐËã·¨ÐèÒªÔ½·¢Éî¶ÈÓÅ»¯µÄ²¢ÐÐÕ½ÂÔ¡£¡£¡£¡£¡£¡£ ¡£¡£


ʵÑé


Benchmark Ч¹û


ΪÁ˲âÊÔ²î±ðËã·¨Ö®¼äµÄÐÔÄܲî±ðºÍLightZeroÖеÄËã·¨±äÌå×÷ΪͨÓþöÒéÇó½âÆ÷µÄÄÜÁ¦£¬£¬ £¬£¬£¬£¬ÊµÑ鲿·ÖÔÚÖÖÖÖÇ¿»¯Ñ§Ï°ÇéÐÎÖоÙÐÐÁËÆÕ±éµÄ±ÈÕÕ¡£¡£¡£¡£¡£¡£ ¡£¡£Ò»¹²ÆÀ¹ÀÁËÏÂÃæÕâЩËã·¨±äÌ壬£¬ £¬£¬£¬£¬°üÀ¨AlphaZero¡¢MuZero¡¢EfficientZero¡¢Sampled MuZero¡¢Stochastic MuZero¡¢Gumbel MuZeroºÍLightZeroÖÐ×ÛºÏˢеÄËã·¨±äÌå¡£¡£¡£¡£¡£¡£ ¡£¡£ÏÂÃæµÄ²¿·ÖչʾÁËÆäÖÐһЩBenchmarkЧ¹û×÷ΪÀý×Ó¡£¡£¡£¡£¡£¡£ ¡£¡£ÓйØÇéÐκÍËã·¨µÄÏêϸÉèÖ㬣¬ £¬£¬£¬£¬¸üÏ꾡ÖÜÈ«µÄ BenchmarkЧ¹ûºÍÏà¹ØÆÊÎö£¬£¬ £¬£¬£¬£¬Çë²ÎÔÄÂÛÎĵĸ½Â¼ B¡¢C¡¢G¡£¡£¡£¡£¡£¡£ ¡£¡£


6.png

ͼ5£ºÍ¼Ê¾ÎªÔÚÁù´ó´ú±íÐÔAtari ÇéÐÎÏ£¨Í¼ÏñÊäÈ룩£¬£¬ £¬£¬£¬£¬LightZero¼¯³ÉµÄÖÖÖÖËã·¨µÄÐÔÄܱÈÕÕ¡£¡£¡£¡£¡£¡£ ¡£¡£ºá×ø±ê´úÉñÉ«¿ö°ì·¨£¨Env Steps£©£¬£¬ £¬£¬£¬£¬×Ý×ø±êÌåÏÖÔÚ20¸ö episode ÖÐµÄÆ½¾ùÊÕÒæ£¨Return£©¡£¡£¡£¡£¡£¡£ ¡£¡£ÔÚ´ËÉÏÏÂÎÄÖУ¬£¬ £¬£¬£¬£¬MuZero w/ SSL´ú±í¼ÓÈëÁË×Ô¼àÊÓËðʧµÄԭʼ MuZero Ëã·¨¡£¡£¡£¡£¡£¡£ ¡£¡£EfficientZeroÔòָͨ¹ý×Ô¼àÊÓËðʧ¼°value_prefixÔöÇ¿µÄMuZeroËã·¨¡£¡£¡£¡£¡£¡£ ¡£¡£Sampled EfficientZeroÔòÔÚEfficientZeroµÄ»ù´¡ÉÏÒýÈëÁËÓë²ÉÑùÏà¹ØµÄË¢ÐÂÊÖÒÕ¡£¡£¡£¡£¡£¡£ ¡£¡£


7.png

ͼ6£ºÍ¼Ê¾ÎªAlphaZeroÓëMuZeroÔÚConnect4ºÍGomokuÖеÄÐÔÄܽÏÁ¿¡£¡£¡£¡£¡£¡£ ¡£¡£AlphaZeroÏà±ÈÓÚMuZeroÌåÏÖ³öÏÔÖøµÄÑù±¾Ð§ÂÊÓÅÊÆ£¬£¬ £¬£¬£¬£¬ËµÃ÷ÔÚÇéÐÎÄ£ÄâÆ÷¿ÉÖ±½ÓʹÓÃʱ£¬£¬ £¬£¬£¬£¬AlphaZero½«ÓÐÏÔ×ÅÓÅÊÆ¡£¡£¡£¡£¡£¡£ ¡£¡£È»¶ø£¬£¬ £¬£¬£¬£¬¼´±ãÔÚÎÞÄ£ÄâÆ÷µÄÇéÐÎÏ£¬£¬ £¬£¬£¬£¬MuZeroÈԿɱ¬·¢Ï൱µÄЧ¹û£¬£¬ £¬£¬£¬£¬Õâ³ä·ÖÌåÏÖÁËÆäÆÕ±éµÄ˳ӦÐÔ¡£¡£¡£¡£¡£¡£ ¡£¡£


8.png

ͼ7£ºÉϲ¿£ºÍ¼Ê¾ÎªSampled EfficientZeroÔÚÒ»Á¬Ðж¯¿Õ¼äÇéÐÎÖУ¬£¬ £¬£¬£¬£¬½ÓÄɲî±ðÕ½ÂÔ½¨Ä£ÊÖÒÕµÄÐÔÄܽÏÁ¿¡£¡£¡£¡£¡£¡£ ¡£¡£Ï²¿£ºÍ¼Ê¾Îª¸ÃËã·¨ÔÚMuJoCoÒ»Á¬Ðж¯¿Õ¼äÇéÐÎÖУ¬£¬ £¬£¬£¬£¬Ó¦ÓÃÖÖÖÖÕ½ÂÔ½¨Ä£ÒªÁìµÄÐÔÄܽÏÁ¿¡£¡£¡£¡£¡£¡£ ¡£¡£Ëæ×ÅÐж¯¿Õ¼ä³ß´çµÄÔöÌí£¬£¬ £¬£¬£¬£¬Ç°Õߣ¨Ò»Á¬¿Õ¼äÀëÉ¢»¯°æ±¾£©ÌåÏÖÖð½¥Ï½µ£¬£¬ £¬£¬£¬£¬´ËºóÕßÌåÏÖÔòÏà¶ÔÎȹ̡£¡£¡£¡£¡£¡£ ¡£¡£


9.png

ͼ8£ºÍ¼Ê¾ÎªÔÚ²î±ðÄ£ÄⱾǮÏ£¬£¬ £¬£¬£¬£¬Gumbel MuZeroºÍMuZeroµÄÐÔÄܽÏÁ¿¡£¡£¡£¡£¡£¡£ ¡£¡£ÔÚÄ£Äâ´ÎÊýÓÐÏÞʱ£¬£¬ £¬£¬£¬£¬Gumbel MuZeroÏà¹ØÓÚMuZero ÌåÏÖ³öÏÔÖøµÄÐÔÄÜÓÅÊÆ£¬£¬ £¬£¬£¬£¬Í»ÏÔÁËÆäÔÚÉè¼ÆµÍʱÑÓMCTSÖÇÄÜÌåÉϵÄDZÁ¦¡£¡£¡£¡£¡£¡£ ¡£¡£Õë¶ÔGomoku£¨ÆåÅ̳ߴç=6£©£¬£¬ £¬£¬£¬£¬ÆÀ¹ÀÁËsim={20, 10}£»£» £»£»£»£»Õë¶ÔLunarLander-v2£¬£¬ £¬£¬£¬£¬ÆÀ¹ÀÁËsim={20, 10, 5}£»£» £»£»£»£»Õë¶ÔAtari Games£¬£¬ £¬£¬£¬£¬ÆÀ¹ÀÁËsim={50, 16, 2}¡£¡£¡£¡£¡£¡£ ¡£¡£


10.png

ͼ9£ºÍ¼Ê¾ÎªÔÚ²î±ðËæ»úÐÔÆ·¼¶£¨num_chances=2 ºÍ 5£©µÄ2048ÇéÐÎÖУ¬£¬ £¬£¬£¬£¬Stochastic MuZeroºÍMuZeroµÄÐÔÄܽÏÁ¿¡£¡£¡£¡£¡£¡£ ¡£¡£ÔÚÇéÐεÄ×´Ì¬×ªÒÆ±£´æÏÔÖøËæ»úÐÔµÄÇéÐÎÖУ¬£¬ £¬£¬£¬£¬Stochastic MuZeroÂÔ³¬MuZero¡£¡£¡£¡£¡£¡£ ¡£¡£È»¶ø£¬£¬ £¬£¬£¬£¬Ëæ×ÅËæ»úÐÔÆ·¼¶µÄÉý¸ß£¬£¬ £¬£¬£¬£¬Stochastic MuZeroµÄÐÔÄÜÒ²×îÏÈÊÜÏÞ¡£¡£¡£¡£¡£¡£ ¡£¡£


11.png

ͼ10£º×óͼ£ºÍ¼Ê¾ÎªÔÚMiniGrid-KeyCorridorS3R3-v0ÇéÐÎÖУ¬£¬ £¬£¬£¬£¬²î±ð̽Ë÷Õ½ÂÔµÄÐÔÄܽÏÁ¿£¨ÍøÂç½×¶ÎµÄ»Ø±¨£©¡£¡£¡£¡£¡£¡£ ¡£¡£Ê¹Ó̼̮æÐÄ»úÖÆÌ½Ë÷״̬¿Õ¼äµÄIntrinsicExplorationÕ½ÂÔÌåÏÖ³ö½Ï¸ßµÄÑù±¾Ð§ÂÊ¡£¡£¡£¡£¡£¡£ ¡£¡£ÓÒͼ£ºÍ¼Ê¾ÎªÍ¬ÑùÇéÐÎÖУ¬£¬ £¬£¬£¬£¬LightZeroʵÑéµÄËã·¨µÄÐÔÄܽÏÁ¿¡£¡£¡£¡£¡£¡£ ¡£¡£ÔÚÌØÕ÷Ϊ¸ßάÏòÁ¿ÊӲ켰ϣº±½±ÀøµÄÇéÐÎÖУ¬£¬ £¬£¬£¬£¬×Ô¼àÊÓѧϰËðʧÓÐÖúÓÚÄ£×Ó¶ÔÆë£¬£¬ £¬£¬£¬£¬µ«Õ¹Íûvalue_prefix ¿ÉÄÜ´øÀ´ÌôÕ½£¬£¬ £¬£¬£¬£¬¶ÔѧϰÔì³É×è°­¡£¡£¡£¡£¡£¡£ ¡£¡£


12.png

ͼ11£ºÍ¼Ê¾ÎªÔÚ¶àÖÇÄÜÌå¶Ô¿¹ºÍЭ×÷ÇéÐÎGoBiggerµÄT2P2ºÍT2P3³¡¾°ÖУ¬£¬ £¬£¬£¬£¬MuZeroºÍEfficientZero£¨¾ùÔÚ×ÔÁ¦Ñ§Ï°Ä£Ê½Ï¾ÙÐÐѵÁ·£©µÄÐÔÄܽÏÁ¿¡£¡£¡£¡£¡£¡£ ¡£¡£Á½ÖÖËã·¨ÔÚÓëÄÚÖûúеÈ˶Ôսʱ¾ùÄÜÎȹÌÊÕÁ²£¬£¬ £¬£¬£¬£¬ÆäÑù±¾Ð§ÂÊÌåÏÖ³öÏÔÖøÓÅÊÆ£¬£¬ £¬£¬£¬£¬Ïà¹ØÓÚÆäËû·Ç MCTSÒªÁìÌáÉýÁËÔ¼Áù±¶¡£¡£¡£¡£¡£¡£ ¡£¡£


13.png

ͼ12£º×Ô¼àÊÓÒ»ÖÂÐÔËðʧÔÚ²î±ðÇéÐÎÖеÄÓ°Ï죬£¬ £¬£¬£¬£¬Éæ¼°µ½ÖÖÖÖÀàÐ͵ÄÊӲ졣¡£¡£¡£¡£¡£ ¡£¡£´Ó×óµ½ÓÒ£¬£¬ £¬£¬£¬£¬ÐÔÄܽÏÁ¿Éæ¼°µ½±ê׼ͼÏñÊäÈë¡¢½ô´ÕÏòÁ¿ÊäÈëºÍÆåÅÌͼÏñÊäÈ룬£¬ £¬£¬£¬£¬Ë¼Á¿ÁËÓкÍûÓÐÒ»ÖÂÐÔËðʧµÄÇéÐΡ£¡£¡£¡£¡£¡£ ¡£¡£ÊµÑéÏÔʾ£¬£¬ £¬£¬£¬£¬Ò»ÖÂÐÔËðʧ¹ØÓÚ±ê׼ͼÏñÊäÈëÀ´ËµÊÇÖÁ¹ØÖ÷ÒªµÄ¡£¡£¡£¡£¡£¡£ ¡£¡£



Òªº¦½áÂÛºÍ˼Ë÷


ͨ¹ý¶ÔLightZeroµÄͳһÉè¼ÆºÍBenchmarkЧ¹ûµÄÑо¿£¬£¬ £¬£¬£¬£¬µÃ³öÁËһЩ¹ØÓÚÖÖÖÖËã·¨ÓÅÈõµãµÄÒªº¦½áÂÛ£¬£¬ £¬£¬£¬£¬ÕâЩ½áÂÛÓÐÖúÓÚÖÜÈ«Ã÷È·ÕâЩËã·¨µÄÐÔÄܺÍDZÔÚÓ¦Óᣡ£¡£¡£¡£¡£ ¡£¡£


01£ºÔÚÆåÅÌÓÎÏ·ÇéÐÎÖУ¬£¬ £¬£¬£¬£¬AlphaZeroµÄÑù±¾Ð§ÂÊÏÔÖøÓÅÓÚMuZero¡£¡£¡£¡£¡£¡£ ¡£¡£ÕâÅú×¢ÈôÊÇÇéÐÎÄ£ÄâÆ÷¿ÉÓ㬣¬ £¬£¬£¬£¬Ö±½ÓʹÓÃAlphaZeroÊÇ×î¼ÑÍÆ¼ö¼Æ»®¡£¡£¡£¡£¡£¡£ ¡£¡£È»¶ø£¬£¬ £¬£¬£¬£¬×ÝÈ»ÔÚûÓÐÄ£ÄâÆ÷µÄÇéÐÎÏ£¬£¬ £¬£¬£¬£¬ÔÚÂÄÀú×ã¹»µÄѵÁ·²½ÊýÖ®ºóMuZeroÒ²¿ÉÒÔÈ¡µÃÖª×ãµÄЧ¹û¡£¡£¡£¡£¡£¡£ ¡£¡£


02£º×Ô¼àÊÓѧϰËðʧ£¨SSL£©ÔÚ´ó´ó¶¼É漰ͼÏñÊäÈëµÄAtariÇéÐÎÖÐÏÔÖøÌáÉýÁËÐÔÄÜ¡£¡£¡£¡£¡£¡£ ¡£¡£Èçͼ5Ëùʾ£¬£¬ £¬£¬£¬£¬Å䱸SSLµÄMuZeroÔÚ MsPacmanÇéÐÎÖÐÓëԭʼµÄMuZeroÌåÏÖÏà¶ÔµÈ£¬£¬ £¬£¬£¬£¬µ«ÔÚÆäËûÎå¸öÇéÐÎÖÐÔòÓâÔ½ÁËMuZero¡£¡£¡£¡£¡£¡£ ¡£¡£ÕâһЧ¹ûÍ»ÏÔÁËSSLÔÚÌá¸ßÌìÏÂÄ£×Ó¶ÔÆëÄÜÁ¦ºÍ¼ÓËÙͼÏñÊäÈëÇéÐÎѧϰÀú³ÌÖеÄÖ÷Òª×÷Óᣡ£¡£¡£¡£¡£ ¡£¡£


03£ºÑ¡ÔñÕ¹Íûvalue_prefix¶ø²»ÊÇreward²¢²»¿ÉʼÖÕ°ü¹ÜÐÔÄܵÄÌáÉý¡£¡£¡£¡£¡£¡£ ¡£¡£ÀýÈ磬£¬ £¬£¬£¬£¬ÔÚͼ5ÖУ¬£¬ £¬£¬£¬£¬EfficientZero½öÔÚMsPacmanºÍBreakoutÇéÐÎÖÐÁè¼ÝÁËÅ䱸SSLµÄMuZero£¬£¬ £¬£¬£¬£¬¶øÔÚÆäËûÇéÐÎÖеÄÌåÏÖÓëÆäÏ൱¡£¡£¡£¡£¡£¡£ ¡£¡£¸üÏêϸµØËµ£¬£¬ £¬£¬£¬£¬Èçͼ12Ëùʾ£¬£¬ £¬£¬£¬£¬ÔÚÏ£º±½±ÀøÇéÐÎÖУ¬£¬ £¬£¬£¬£¬EfficientZeroµÄÐÔÄÜÏÔÖøµÍÓÚÅ䱸SSLµÄMuZero¡£¡£¡£¡£¡£¡£ ¡£¡£Òò´Ë£¬£¬ £¬£¬£¬£¬ÔÚ¾öÒéÊÇ·ñÕ¹Íû value_prefixʱ£¬£¬ £¬£¬£¬£¬Ó¦³ä·Ö˼Á¿ÇéÐεĽ±Àøº¯ÊýÌØÕ÷¡£¡£¡£¡£¡£¡£ ¡£¡£


04£ºÔÚ´ó´ó¶¼AtariÇéÐκ;ßÓÐÖØ´ó½á¹¹»¯ÊÓ²ì¿Õ¼äµÄÇéÐÎÖУ¨ÈçGoBigger£©£¬£¬ £¬£¬£¬£¬Å䱸SSLµÄMuZeroºÍ EfficientZeroµÄÌåÏÖÏ൱¡£¡£¡£¡£¡£¡£ ¡£¡£ÕâÒ»ÊÓ²ìЧ¹ûÅú×¢£¬£¬ £¬£¬£¬£¬¾ßÓÐÖØ´ó½á¹¹ÊÓ²ìµÄÇéÐοÉÒÔ´Ó±íÕ÷ѧϰºÍ±ÈÕÕѧϰÊÖÒÕÖÐÊÜÒæ£¬£¬ £¬£¬£¬£¬´Ó¶øÌá¸ßÑù±¾Ð§Âʺͳ°ôÐÔ¡£¡£¡£¡£¡£¡£ ¡£¡£


05£ºÔÚÀëÉ¢Ðж¯¿Õ¼äÖУ¬£¬ £¬£¬£¬£¬Sampled EfficientZeroµÄÌåÏÖÓëÐж¯¿Õ¼äά¶ÈÇ×½üÏà¹Ø¡£¡£¡£¡£¡£¡£ ¡£¡£ÀýÈ磬£¬ £¬£¬£¬£¬Sampled EfficientZeroÔÚBreakout£¨Ðж¯¿Õ¼äά¶ÈΪ4£©ÖеÄÌåÏÖÓëEfficientZeroÏ൱£¬£¬ £¬£¬£¬£¬µ«ÔÚMsPacman£¨Î¬¶ÈΪ9£©ÖеÄÌåÏÖÔòÓÐËùϽµ¡£¡£¡£¡£¡£¡£ ¡£¡£


06£ºÅ䱸¸ß˹սÂÔÌåÏÖµÄSampled EfficientZero ÔÚÒ»Á¬Ðж¯¿Õ¼äÖÐÌåÏÖ³ö¸üºÃµÄ¿ÉÀ©Õ¹ÐÔ¡£¡£¡£¡£¡£¡£ ¡£¡£¸ß˹°æ±¾ÔڹŰåÒ»Á¬¿ØÖƺÍMuJoCoÇéÐÎÖÐÌåÏÖÓÅÒ죬£¬ £¬£¬£¬£¬¶øÀëÉ¢»¯°æ±¾Ôò½öÊÊÓÃÓڽϵÍάµÄÒ»Á¬Ðж¯¿Õ¼ä¡£¡£¡£¡£¡£¡£ ¡£¡£


07£ºµ±Ä£Äâ´ÎÊýÓÐÏÞʱ£¬£¬ £¬£¬£¬£¬Gumbel MuZeroÏÔ×ÅÓÅÓÚMuZero£¬£¬ £¬£¬£¬£¬ÕâÕ¹ÏÖÁËÆäÔÚÉè¼ÆµÍʱ¼ä±¾Ç®µÄÃÉÌØ¿¨ÂåÊ÷ËÑË÷£¨MCTS£©ÖÇÄÜÌå·½ÃæµÄDZÁ¦¡£¡£¡£¡£¡£¡£ ¡£¡£


08£ºÔÚ¾ßÓÐËæ»ú״̬ת»»»ò²¿·Ö¿ÉÊÓ²ì״̬µÄÇéÐÎÖУ¨ÈçûÓеþÖ¡µÄAtari£©£¬£¬ £¬£¬£¬£¬Stochastic MuZero¿ÉÒÔʵÏÖ±ÈMuZero¸üÓÅÒìµÄÐÔÄÜ¡£¡£¡£¡£¡£¡£ ¡£¡£


09£ºÓйØMCTSϵÁÐËã·¨Ìá³öµÄË¢ÐÂÊÖÒÕ£¬£¬ £¬£¬£¬£¬Èç EfficientZeroÖеÄ×Ô¼àÊÓËðʧ£¬£¬ £¬£¬£¬£¬Sampled MuZeroÖеIJÉÑùÊÖÒÕ£¬£¬ £¬£¬£¬£¬Gumbel MuZeroÖÐʹÓÃMCTSËÑË÷ÐÅÏ¢µÄÅÌËãˢУ¬£¬ £¬£¬£¬£¬ÒÔ¼°Stochastic MuZeroÖеÄÇéÐÎËæ»úÐÔ½¨Ä££¬£¬ £¬£¬£¬£¬ÕâЩҪÁì¶¼¿ÉÒÔ¿´×÷ÊÇÏ໥Õý½»µÄ£¬£¬ £¬£¬£¬£¬Ö®¼äµÄ×ÌÈźÜÊÇС¡£¡£¡£¡£¡£¡£ ¡£¡£LightZeroÕýÔÚÒ»Á¬Ì½Ë÷ÔõÑù½«ÕâЩ¼¼ÇɸßЧÇÒ²å¼þ»¯µØ¼¯³ÉÔÚÒ»Æð£¬£¬ £¬£¬£¬£¬ÒÔÉè¼Æ³öͨÓõľöÒéËã·¨¡£¡£¡£¡£¡£¡£ ¡£¡£


10: Èçͼ12Ëùʾ£¬£¬ £¬£¬£¬£¬¹ØÓÚ±ê׼ͼÏñÊäÈ룬£¬ £¬£¬£¬£¬Ò»ÖÂÐÔËðʧÏÔµÃÖÁ¹ØÖ÷Òª¡£¡£¡£¡£¡£¡£ ¡£¡£ÈôÊÇÎÞÊÓÒ»ÖÂÐÔËðʧ£¬£¬ £¬£¬£¬£¬Ä£×ÓÐÔÄÜ»áÏÔÖøÏ»¬£¬£¬ £¬£¬£¬£¬ÕâÕ¹ÏÖÁËѧϰÕë¶Ô¸ßάÊäÈëµÄ¶¯Ì¬Ä£×ÓµÄÌôÕ½ÐÔ¡£¡£¡£¡£¡£¡£ ¡£¡£È»¶ø£¬£¬ £¬£¬£¬£¬¹ØÓÚLunarLanderÕâÑùµÄÏòÁ¿ÊäÈëÇéÐΣ¬£¬ £¬£¬£¬£¬Ò»ÖÂÐÔËðʧֻÌṩÁËÉÔ΢µÄÓÅÊÆ£¬£¬ £¬£¬£¬£¬ÕâÌåÏÖÔÚ½ô´ÕµÄÏòÁ¿ÊÓ²ìÉÏʵÑédynamic modelѧϰÏà¶Ô½ÏΪ¼òÆÓ¡£¡£¡£¡£¡£¡£ ¡£¡£ÔÚÌØ¶¨µÄ¶þάÊäÈëÇéÐΣ¬£¬ £¬£¬£¬£¬Èç¾®×ÖÓÎÏ·£¨TicTacToe£©£¬£¬ £¬£¬£¬£¬Ò»ÖÂÐÔËðʧÒÀÈ»½Ï´ó£¬£¬ £¬£¬£¬£¬Í¹ÏÔ³öÔÚDZÔÚ״̬Êä³ö¼äʵÏÖÒ»ÖÂÐÔµÄÄѶȡ£¡£¡£¡£¡£¡£ ¡£¡£±ðµÄ£¬£¬ £¬£¬£¬£¬ÈôÊÇÔÚÒ»ÖÂÐÔËðʧÖÐʹÓò»Êʵ±µÄ³¬²ÎÊý£¬£¬ £¬£¬£¬£¬¿ÉÄܻᵼÖÂѵÁ·ÎÞ·¨ÊÕÁ²¡£¡£¡£¡£¡£¡£ ¡£¡£×ÛºÏÀ´¿´£¬£¬ £¬£¬£¬£¬LightZeroÖеÄʵÑéÅú×¢£¬£¬ £¬£¬£¬£¬Ò»ÖÂÐÔËðʧµÄÓÐÓÃÐԸ߶ÈÒÀÀµÓÚÌØ¶¨µÄÊÓ²ìÊôÐÔ¡£¡£¡£¡£¡£¡£ ¡£¡£¹ØÓÚÆåÅÌÓÎÏ·£¬£¬ £¬£¬£¬£¬Î´À´µÄÑо¿Æ«ÏòӦ˼Á¿Ì½Ë÷Êʵ±µÄËðʧº¯Êý£¬£¬ £¬£¬£¬£¬ÒÔÈ·±£ÑµÁ·Àú³ÌÖÐµÄ¶ÔÆëÐÔ¡£¡£¡£¡£¡£¡£ ¡£¡£


Hugging Face Model Zoo for LightZero


ÁíÍ⣬£¬ £¬£¬£¬£¬ÎªÁ˽øÒ»²½ÍØÕ¹¾öÒéÖÇÄÜËã·¨ºÍÄ£×ÓµÄÓ¦ÓùæÄ££¬£¬ £¬£¬£¬£¬LightZeroÏîĿҲÒѾ­ÔÚHugging Face Model Zoo ÖÐÉèÁ¢ÁËרÃŵÄÄ£×ӿռ䣺Hugging Face Model Zoo for LightZero¡£¡£¡£¡£¡£¡£ ¡£¡£Õâ¸öרÃÅΪLightZero´òÔìµÄÄ£×Ó¿âÜöÝÍ£¬£¬ £¬£¬£¬£¬Ö¼ÔÚΪÑо¿ÕߺͿª·¢ÕßÌṩһ¸ö¹²Ïí¡¢½»Á÷Ñо¿Ð§¹û£¬£¬ £¬£¬£¬£¬²¢¾ÙÐпìËÙ½ÓÈëºÍʵÑéµÄÄ£×ÓÆ½Ì¨£¬£¬ £¬£¬£¬£¬ÆäÖаüÀ¨ÁË×îÇ°ÑØMCTSϵÁÐË㷨ģ×Ó£¬£¬ £¬£¬£¬£¬²¢Õë¶ÔÌØ¶¨Ó¦Óó¡¾°¾ÙÐÐÓÅ»¯¡£¡£¡£¡£¡£¡£ ¡£¡£ÖÂÁ¦ÓÚÈÃÑо¿ÕßÄÜÔÚÒ»¸ö±ê×¼»¯µÄÇéÐÎÏ¿ìËÙ¸´ÏÖ¡¢²âÊÔ×îеĻùÓÚMCTSµÄ¾öÒéÖÇÄÜËã·¨£¬£¬ £¬£¬£¬£¬²¢¾ÙÐÐÉî¶ÈµÄ½ÏÁ¿ºÍÆÀ¹À¡£¡£¡£¡£¡£¡£ ¡£¡£


Hugging Face Model Zoo for LightZero¿Õ¼ä£º

https://huggingface.co/OpenDILabCommunity


ÌØÉ«¹¦Ð§ºÍ×ÊÔ´


  • ԤѵÁ·Ä£×Ó£ºÌṩһϵÁÐԤѵÁ·ºÃµÄLightZeroÄ£×Ó£¬£¬ £¬£¬£¬£¬ÁýÕÖÁË´Ó»ù´¡µ½¸ß¼¶µÄÖÖÖÖËã·¨±äÌ壬£¬ £¬£¬£¬£¬¿ÉÒÔÖ±½Ó±»¿ìËÙÏÂÔØºÍ°²ÅÅ¡£¡£¡£¡£¡£¡£ ¡£¡£

  • ÉèÖÃÖÎÀí£ºÃ¿¸öÄ£×Ó¶¼ÌṩÁËÏêϸµÄÉèÖÃÎļþ£¬£¬ £¬£¬£¬£¬°üÀ¨ÁËÇéÐÎÉèÖá¢ÍøÂç¼Ü¹¹ºÍѵÁ·²ÎÊýµÈ£¬£¬ £¬£¬£¬£¬È·±£ÁËʵÑéµÄ¿ÉÖØ¸´ÐÔ¡£¡£¡£¡£¡£¡£ ¡£¡£

  • ѵÁ·ºÍÆÀ¹À¹¤¾ß£º¼¯³ÉÁ˱ã½ÝµÄѵÁ·ºÍÆÀ¹À½Ó¿Ú£¬£¬ £¬£¬£¬£¬Ñо¿Õß¿ÉÒÔÇáËɵØÔÚ×Ô¼ºµÄÊý¾Ý¼¯ÉÏѵÁ·Ä£×Ó£¬£¬ £¬£¬£¬£¬»òÔÚ±ê×¼²âÊÔ¼¯ÉÏÆÀ¹ÀÄ£×ÓµÄÐÔÄÜ¡£¡£¡£¡£¡£¡£ ¡£¡£

  • ÎĵµºÍ½Ì³Ì£ºÌṩÁ˸»ºñµÄÎĵµ×ÊÔ´ºÍ½Ì³Ì£¬£¬ £¬£¬£¬£¬×ÊÖúÓû§Ã÷È·ºÍʹÓÃÕâЩģ×Ó£¬£¬ £¬£¬£¬£¬ÎÞÂÛÊÇÐÂÊÖÕÕ¾ÉÓÐÂÄÀúµÄÑо¿Õß¶¼ÄÜ¿ìËÙÉÏÊÖ¡£¡£¡£¡£¡£¡£ ¡£¡£

  • ÉçÇøÖ§³Ö£ºÍ¨¹ýÓëHugging FaceÉçÇøµÄϸÃÜÏàÖú£¬£¬ £¬£¬£¬£¬Óû§¿ÉÒÔ»ñÈ¡µ½×îеÄÏà¹Ø×ÊѶ£¬£¬ £¬£¬£¬£¬¼ÓÈëÉçÇøÌÖÂÛ£¬£¬ £¬£¬£¬£¬»òÖ±½ÓÏòÄ£×Ó¿âТ˳×Ô¼ºµÄÄ£×Ó¡£¡£¡£¡£¡£¡£ ¡£¡£


Model Card ÓëʹÓÃʾÀý


ΪÁË×ÊÖú¿ª·¢Õ߸üºÃµØÊ¹ÓÃÏà¹Ø¹¤¾ß£¬£¬ £¬£¬£¬£¬Í¼13չʾÁËÒ»¸öµä·¶µÄ "ÇéÐÎ-Ëã·¨" CartPole-v0-MuZeroµÄ Model Card ½çÃæ£¬£¬ £¬£¬£¬£¬ÆäÖаüÀ¨ÁËÄ£×ÓÐÎò£¬£¬ £¬£¬£¬£¬Ä£×ÓʹÓ㬣¬ £¬£¬£¬£¬Ä£×ÓÐÅÏ¢£¬£¬ £¬£¬£¬£¬ÇéÐΣ¬£¬ £¬£¬£¬£¬ÆÀ¹ÀäÖȾÊÓÆµµÈ5´ó²¿·Ö¡£¡£¡£¡£¡£¡£ ¡£¡£


14.pngͼ13£ºHugging Face Model Zoo for LightZero ÖÐÒ»¸öµä·¶Ê¾ÀýCartPole-v0-MuZero µÄModel Card½çÃæ¡£¡£¡£¡£¡£¡£ ¡£¡£°üÀ¨ÁËÄ£×ÓÐÎò¡¢Ä£×ÓʹÓá¢Ä£×ÓÐÅÏ¢¡¢ÇéÐΡ¢ÆÀ¹ÀäÖȾÊÓÆµµÈ5´ó²¿·Ö¡£¡£¡£¡£¡£¡£ ¡£¡£


×ܽáÓëδÀ´ÊÂÇé


LightZeroÊÇÒ»¸öÄ£¿£¿£¿£¿ £¿£¿£¿é»¯ÕûºÏÁËÖÖÖÖMCTSÏà¹ØÇ¿»¯Ñ§Ï°ÒªÁìµÄͳһËã·¨»ù×¼¿ò¼Ü¡£¡£¡£¡£¡£¡£ ¡£¡£LightZeroϵͳÐÔµØÆÊÎö²¢Ó¦¶ÔÁ˽«MCTS×÷ΪͨÓÃÇÒ¸ßЧ¾öÒéÇó½âÆ÷°²ÅÅÀú³ÌÖеÄÌôÕ½ºÍ»úÔµ¡£¡£¡£¡£¡£¡£ ¡£¡£Í¨¹ýÄ£¿£¿£¿£¿ £¿£¿£¿é»¯µÄϵͳÉè¼Æ¡¢Ï꾡ÖÜÈ«µÄ»ù×¼²âÊÔ£¬£¬ £¬£¬£¬£¬Õ¹ÏÖÁËLightZero×÷Ϊһ¸ö¿ÉÀ©Õ¹¡¢¸ßЧµÄ¾öÒéÎÊÌ⹤¾ß¹ØÓÚÑо¿ÉçÇøµÄÖØ´óDZÁ¦¡£¡£¡£¡£¡£¡£ ¡£¡£


Ö»¹ÜLightZeroչʾÁËÆä±äÌåËã·¨ÔÚÖÖÖÖ»ù×¼²âÊÔÇéÐÎÖеľ«²ÊÐÔÄÜ£¬£¬ £¬£¬£¬£¬µ«Ä³Ð©¾ÖÏÞÐÔÈÔÐè±»¹Ø×¢¡£¡£¡£¡£¡£¡£ ¡£¡£Ê×ÏÈ£¬£¬ £¬£¬£¬£¬Ö»¹ÜÕâÖÖÄ£¿£¿£¿£¿ £¿£¿£¿é»¯µÄÉè¼ÆÏÔÖøÔöÇ¿ÁËMCTSϵÁÐËã·¨µÄͨÓÃÐÔºÍÀ©Õ¹ÐÔ£¬£¬ £¬£¬£¬£¬µ«¹ØÓÚÄ³Ð©ÌØ¶¨µÄ¾öÒéÇéÐÎÈÔÐèÒª²¿·Ö¶¨ÖÆ»¯µÄµ÷½â¡£¡£¡£¡£¡£¡£ ¡£¡£Æä´Î£¬£¬ £¬£¬£¬£¬ÓÉÓÚMCTSËã·¨µÄÄÚÔÚÏÞÖÆ£¬£¬ £¬£¬£¬£¬ÔÚ´¦Öóͷ£Ä³Ð©ÖØ´ó£¨ÓÈÆäÊÇËæ»úÐÔÇ¿£©µÄÇéÐÎʱ¿ÉÄÜÓöµ½ÌôÕ½¡£¡£¡£¡£¡£¡£ ¡£¡£×îºó£¬£¬ £¬£¬£¬£¬MCTSµÄ¸ßÊÖÒÕÃż÷¿ÉÄÜ»á¸øÊ״νӴ¥Ïà¹ØÊÖÒÕµÄÈË´øÀ´À§ÈÅ¡£¡£¡£¡£¡£¡£ ¡£¡£Î´À´µÄˢн«»á¹Ø×¢Ìá¸ß LightZero¿ò¼Ü½Ó¿ÚµÄÒ×ÓÃÐÔ£¬£¬ £¬£¬£¬£¬¸»ºñÏà¹ØµÄÎĵµºÍÀý×Ó£¬£¬ £¬£¬£¬£¬²¢¹¹½¨Ò»¸öµÄ»îÔ¾Óû§Éú̬ÉçÇø¡£¡£¡£¡£¡£¡£ ¡£¡£


Ö»¹Ü±£´æÉÏÊöÌôÕ½£¬£¬ £¬£¬£¬£¬µ«¹ØÓÚδÀ´MCTSϵÁÐËã·¨ÊÖÒÕµÄÉú³¤£¬£¬ £¬£¬£¬£¬ÈÔ³äÂúÎÞÏÞ¿ÉÄÜ£¬£¬ £¬£¬£¬£¬ÕâÀïÁгöÁËһЩδÀ´µÄÀ©Õ¹Æ«Ïò£º


  • À©´óÓ¦ÓÃÁìÓò£ºÆÚÍû¸ü¶àµÄÑо¿ÕߺͿª·¢Õß½«LightZeroÓ¦ÓÃÓÚ¸üÆÕ±éµÄʵ¼ùÁìÓò£¬£¬ £¬£¬£¬£¬°üÀ¨µ«²»ÏÞÓÚ×ÔÈ»ÓïÑÔ´¦Öóͷ££¬£¬ £¬£¬£¬£¬×Ô¶¯¼ÝÊ»£¬£¬ £¬£¬£¬£¬ÒÔ¼°ÖØ´óϵͳµÄ¿ØÖƺÍÓÅ»¯¡£¡£¡£¡£¡£¡£ ¡£¡£


  • Ëã·¨ÓÅ»¯£º½Ó´ýÉçÇøÐ¢Ë³ÐµÄ̽Ë÷ºÍÓÅ»¯Õ½ÂÔ£¬£¬ £¬£¬£¬£¬ÒÔ½øÒ»²½ÌáÉýMCTSϵÁÐËã·¨µÄÔËÐÐЧÂÊÒÔ¼õСǽÖÓʱ¼ä¿ªÏú¡£¡£¡£¡£¡£¡£ ¡£¡£


  • ÓëÆäËûÇ°ÑØÊÖÒÕµÄÕûºÏ£ºMCTSϵÁÐËã·¨ºÍÆäËû»úÐµÑ§Ï°Ç°ÑØÆ«ÏòµÄÈÔȻ͎áÊ®·ÖÖ÷Òª¡£¡£¡£¡£¡£¡£ ¡£¡£ÆäÖÐ×îÖµµÃ¹Ø×¢µÄÁ½¸öÁìÓòÊÇ£ºMCTSÓë´óÐÍÓïÑÔÄ£×Ó£¨LLM£©µÄÍŽᣬ£¬ £¬£¬£¬£¬ÔõÑùѧϰ¸üǿʢµÄÌìÏÂÄ£×ÓÀ´Ê¹ÓÃMCTS¾ÙÐÐÍýÏë¡£¡£¡£¡£¡£¡£ ¡£¡£


ÐÅÍÐͨ¹ýÕâЩÆð¾¢£¬£¬ £¬£¬£¬£¬ÓÐÍû½øÒ»²½Íƶ¯MCTSºÍÏà¹ØÇ¿»¯Ñ§Ï°ÊÖÒÕµÄÉú³¤£¬£¬ £¬£¬£¬£¬ÎªÏÖʵ¾öÒéÎÊÌâµÄ½â¾öÌṩ¸üǿʢµÄ¹¤¾ß¡£¡£¡£¡£¡£¡£ ¡£¡£

LightZeroÏà¹Ø»ù׼ʵÑéºÍѵÁ·¿ò¼ÜÒÑÍêÈ«¿ªÔ´£¬£¬ £¬£¬£¬£¬¿É»á¼ûGitHub¿ÍÕ»Éó²é¸ü¶àÐÅÏ¢£º
https://github.com/opendilab/LightZero
²úÆ·ÊÔÓÃ
Ìîд´Ë¼òÆÓ±í¸ñ£¬£¬ £¬£¬£¬£¬ÎÒÃǽ«¾¡¿ìÁªÏµÄú£¡
ÉÌÎñÏàÖú
400 900 5986
ÖÜÒ»ÖÁÖÜÎå 9:00-12:00£¬£¬ £¬£¬£¬£¬13:00-18:00
ÏàÖúͬ°éÕÐļ
¡¾ÍøÕ¾µØÍ¼¡¿¡¾sitemap¡¿