AlphaGo到底是怎么赢的_sql

其实，Alphago之所以在下棋的时候“聪明”得像一个人，就是因为它拥有几项类似于人类大脑的功能，从而可以模仿人类下棋的步骤。

首先，它拥有一个数据库，里面有十几万份人类6-9段职业棋手的对弈棋谱。Alphago从中模仿人类常见的落子方式，根据谷歌透露的数据，模仿的准确率达到了57%。也就是说，单单这一项功能，就可以使Alphago在一步的选择上有57%的概率与人类高等级职业棋手相同。这是“模仿大脑”。

其次，它可以自己与自己对弈，根据选择“模仿大脑”计算出的下一步落子的不同选择，不停往下落子，直到分出胜负为止，根据结果反馈“模仿大脑”，从而优化棋路，这是“学习大脑”。如果两台Alphago对弈，有一台直接使用来源于“模仿大脑”的落子选择，另一台选择经过“学习大脑”优化的棋路，后者的获胜概率达到80%。

最后，它还有一个“局面判断大脑”，用以判断当下局势的赢面，准确率也接近80%。

Alphago拥有了这几项功能后，就可以实现上面提到过的人类下棋的模式了：

一步，根据棋局，快速使用“模仿大脑”选出一步棋（往往也是多种选择）；

第二步，每一种选择，都使用“局面判断大脑”，判断落子后的局面，再往后模拟一步。

将基于模仿人类选择出来的多种可能性都计算过之后，Alphago会选择那种赢面最大的方式。

这也是一种在有限范围以内的理性解法，模拟了人类的习惯，很多很“傻”的下法就会自动被排除。它的学习迭代方式，和人类相似，就像人类碰到了火觉得疼，所以不再碰火，或者吃到食物觉得美味，所以下一次也会再吃一样，都是由经验的反馈所驱动的。

韩国职业棋手李世石（이세돌）。

2016年3月，AlphaGo挑战世界冠军韩国职业棋手李世石（이세돌）九段。AlphaGo使用谷歌位于美国的云计算服务器，并通过光缆网络连接到韩国。

比赛的地点为韩国首尔四季酒店；赛制为五番棋，分别于2016年3月9日、10日、12日、13日和15日进行；规则为中国围棋规则，黑棋贴3又3/4子；用时为每方2小时，3次1分钟读秒。

DeepMind团队在YouTube上全球直播并由美籍职业棋手迈克·雷蒙（Michael Redmond）九段担任英语解说，而中国很多视频网站也采用YouTube的直播信号进行直播，并加上自己的解说。DeepMind团队成员台湾业余6段围棋棋手黄士杰博士代表AlphaGo在棋盘上落子。

比赛获胜者将获得100万美元的奖金。如果AlphaGo获胜，奖金将捐赠给围棋组织和慈善机构，包括联合国儿童基金会。李世石有15万美元的出场费，且每赢一盘棋会再得2万美元的奖金。

2016年3月9日、10日和12日的三局对战均为AlphaGo获胜，而13日的对战则为李世石获胜，15日的最终局则又是AlphaGo获胜。因此对弈结果为AlphaGo 4:1战胜了李世石。这次比赛在网络上引发了人们对此次比赛和人工智能的广泛讨论。

扩展资料：

算法

AlphaGo使用蒙特卡洛树搜索（Monte Carlo tree search），借助估值网络（value network）与走棋网络（policy network）这两种深度神经网络，通过估值网络来评估大量选点，并通过走棋网络选择落点。

AlphaGo最初通过模仿人类玩家，尝试匹配职业棋手的过往棋局，其数据库中约含3000万步棋着。后来它达到了一定的熟练程度，它开始和自己对弈大量棋局，使用强化学习进一步改善它。

围棋无法仅通过寻找最佳棋步来解决；游戏一盘平均约有150步，每一步平均约有200种可选的下法，这意味着有太多需要解决的可能性。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/10095779.html

AlphaGo到底是怎么赢的

发表评论

评论列表（0条）