AlphaGo到底是怎么赢的

AlphaGo到底是怎么赢的,第1张

其实,Alphago之所以在下棋的时候“聪明”得像一个人,就是因为它拥有几项类似于人类大脑的功能,从而可以模仿人类下棋的步骤。

首先,它拥有一个数据库,里面有十几万份人类6-9段职业棋手的对弈棋谱。Alphago从中模仿人类常见的落子方式,根据谷歌透露的数据,模仿的准确率达到了57%。也就是说,单单这一项功能,就可以使Alphago在一步的选择上有57%的概率与人类高等级职业棋手相同。这是“模仿大脑”。

其次,它可以自己与自己对弈,根据选择“模仿大脑”计算出的下一步落子的不同选择,不停往下落子,直到分出胜负为止,根据结果反馈“模仿大脑”,从而优化棋路,这是“学习大脑”。如果两台Alphago对弈,有一台直接使用来源于“模仿大脑”的落子选择,另一台选择经过“学习大脑”优化的棋路,后者的获胜概率达到80%。

最后,它还有一个“局面判断大脑”,用以判断当下局势的赢面,准确率也接近80%。

Alphago拥有了这几项功能后,就可以实现上面提到过的人类下棋的模式了:

一步,根据棋局,快速使用“模仿大脑”选出一步棋(往往也是多种选择);

第二步,每一种选择,都使用“局面判断大脑”,判断落子后的局面,再往后模拟一步。

将基于模仿人类选择出来的多种可能性都计算过之后,Alphago会选择那种赢面最大的方式。

这也是一种在有限范围以内的理性解法,模拟了人类的习惯,很多很“傻”的下法就会自动被排除。它的学习迭代方式,和人类相似,就像人类碰到了火觉得疼,所以不再碰火,或者吃到食物觉得美味,所以下一次也会再吃一样,都是由经验的反馈所驱动的。

韩国职业棋手李世石(이세돌)。

2016年3月,AlphaGo挑战世界冠军韩国职业棋手李世石(이세돌)九段。AlphaGo使用谷歌位于美国的云计算服务器,并通过光缆网络连接到韩国。

比赛的地点为韩国首尔四季酒店;赛制为五番棋,分别于2016年3月9日、10日、12日、13日和15日进行;规则为中国围棋规则,黑棋贴3又3/4子;用时为每方2小时,3次1分钟读秒。

DeepMind团队在YouTube上全球直播并由美籍职业棋手迈克·雷蒙(Michael Redmond)九段担任英语解说,而中国很多视频网站也采用YouTube的直播信号进行直播,并加上自己的解说。DeepMind团队成员台湾业余6段围棋棋手黄士杰博士代表AlphaGo在棋盘上落子。

比赛获胜者将获得100万美元的奖金。如果AlphaGo获胜,奖金将捐赠给围棋组织和慈善机构,包括联合国儿童基金会。李世石有15万美元的出场费,且每赢一盘棋会再得2万美元的奖金。

2016年3月9日、10日和12日的三局对战均为AlphaGo获胜,而13日的对战则为李世石获胜,15日的最终局则又是AlphaGo获胜。因此对弈结果为AlphaGo 4:1战胜了李世石。这次比赛在网络上引发了人们对此次比赛和人工智能的广泛讨论。

扩展资料:

算法

AlphaGo使用蒙特卡洛树搜索(Monte Carlo tree search),借助估值网络(value network)与走棋网络(policy network)这两种深度神经网络,通过估值网络来评估大量选点,并通过走棋网络选择落点。

AlphaGo最初通过模仿人类玩家,尝试匹配职业棋手的过往棋局,其数据库中约含3000万步棋着。后来它达到了一定的熟练程度,它开始和自己对弈大量棋局,使用强化学习进一步改善它。

围棋无法仅通过寻找最佳棋步来解决;游戏一盘平均约有150步,每一步平均约有200种可选的下法,这意味着有太多需要解决的可能性。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/10095779.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-05
下一篇 2023-05-05

发表评论

登录后才能评论

评论列表(0条)

保存