AlphaZero制胜解读通用强化学习算法自我对弈_[#第一枪]

发布时间：2021-06-07 17:22:53 阅读：次来源：鞍座厂家

雷锋网：雷锋字幕组出品系列短视频《 2 分钟论文》，带大家用碎片时间阅览前沿技术，了解 AI 领域的最新研究成果。

本期论文：用通用强化学习算法自我对弈，掌握国际象棋和将棋

Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm

? 观看论文解读大概需要 6 分钟

回顾AlphaZero

回望2017，DeepMind的AlphaGo是不可跳过的关键词。在这一年，AlphaGo没有止步不前，还实现了惊人的飞跃。

在打败几乎所有高段位围棋专业选手后，谷歌DeepMind现在开始进军象棋领域。12月，DeepMind在NIPS大会期间发布了AlpahZero，这是一个通用棋类AI，不仅轻松击败了最强国际象棋AI和将棋AI，训练34小时的AlphaZero也胜过了训练72小时的AlphaGo Zero。

AlphaZero 完全无需人工特征、无需任何人类棋谱、甚至无需任何特定优化，只需要几个小时的训练时间，就可以超越此前最好的算法甚至人类世界冠军，这是算法和计算资源的胜利，更是人类的顶尖研究成果。

完全自主练习的AlphaZero

AlphaZero是以神经网络和强化学习为基础的，在给定比赛规则后，完全通过自主练习进行训练。

这不同于让AlphaGo Zero下围棋，AlphaZero涉及到全新的算法，它和AlphaGo Zero区别在于：第一，象棋的规则是不对称的，比如，卒只能向前移动，国王和王后一侧的王车易位不同，这意味着基于神经网络的技术效率会变差；第二，落子时，算法不仅要预测二进制的输赢几率，还可能出现平局，这也要考虑在内。实际上，有时平局是能实现的最好结果。AlphaZero对之前的算法有诸多改进。

要想理解AlphaZero的制胜方式，这里简要介绍一下ENO评分，ENO评分是一个评估选手技术水平的数字。目前Magnus Karlssen是ENO评分最高的人类选手，分数在2800左右。几年前，他在维也纳蒙住眼睛同时对战10名选手并赢得了多数比赛。而Stockfish是目前最好的围棋引擎之一，ELO评分超过3300分。两者间500 ELO点数的差距意味着Stockfish和Magnus Karlssen比赛，100场能赢95场。需要注意的是，规则规定相差400点就会取消比赛。

算法对决：AlphaZero VS Stockfish

AlphaZero 和 Stockfish进行了100场比赛。AlphaZero 赢 28场，平72场，输0场。AlphaZero与Stockfish的对弈过程中，每一步棋都有60秒进行思考，因为两种算法每走一步最多需要10秒时间，所以时间完全够用。在硬件配置同为含4个Tenzer处理器的机器的情况下，

AlphaZero仅仅花了4个小时的学习就拿了个大满贯。

需要注意，Stockfish采用的不是机器学习，而是手写算法。人们喜欢类比电脑游戏中的AI，但它们没有做任何类型的学习。最让人称道的是，AlphaZero是一种更通用的算法，还能以极高的水准玩将棋，也就是所谓的日本象棋。这才是最有趣的。因为所用的是通用学习算法，能够在不投入显著人力的情况下完成任务，所以相比Stockfish，AlphaZero实用性更强。

论文花絮

关于论文还有两个更有趣的花絮：一是该算法得出的所有领域知识，都是明确给出的；二是有人可能认为随着计算机和运算能力的提高，我们所要做的只是提高算法的强度，增加更多要评估的点。我们注意到AlphaZero能稳定击败Stockfish的关键在于，也许在于AI等效直觉，也就是AlphaZero能够确认少量的有效走法并且专注其中。

雷锋网本篇视频解释运用了大量材料，里面有Danny Okink大师和国际象棋大师Daniel Ranch的有趣分析，以及YouTube频道、网络围棋等高质量材料。DeepMind告诉我们，这只是论文的最初版本，所以现在我们先做一个初步观察，也许在最终论文完成后，再制作第二段视频反映最新结果。

的学霸们还请自行阅读论文以获得更多细节

论文原址：arxiv.org/pdf/1712.01815.pdf

来源 /TwoMinute Papers

翻译 /安妍

校对/凡江

整理 /孙云