首先,它拥有一个数据库,里面有十几万份人类6-9段职业棋手的对弈棋谱。Alphago从中模仿人类常见的落子方式,根据谷歌透露的数据,模仿的准确率达到了57%。也就是说,单单这一项功能,就可以使Alphago在一步的选择上有57%的概率与人类高等级职业棋手相同。这是“模仿大脑”。
其次,它可以自己与自己对弈,根据选择“模仿大脑”计算出的下一步落子的不同选择,不停往下落子,直到分出胜负为止,根据结果反馈“模仿大脑”,从而优化棋路,这是“学习大脑”。如果两台Alphago对弈,有一台直接使用来源于“模仿大脑”的落子选择,另一台选择经过“学习大脑”优化的棋路,后者的获胜概率达到80%。
最后,它还有一个“局面判断大脑”,用以判断当下局势的赢面,准确率也接近80%。
Alphago拥有了这几项功能后,就可以实现上面提到过的人类下棋的模式了:
一步,根据棋局,快速使用“模仿大脑”选出一步棋(往往也是多种选择);
第二步,每一种选择,都使用“局面判断大脑”,判断落子后的局面,再往后模拟一步。
将基于模仿人类选择出来的多种可能性都计算过之后,Alphago会选择那种赢面最大的方式。
这也是一种在有限范围以内的理性解法,模拟了人类的习惯,很多很“傻”的下法就会自动被排除。它的学习迭代方式,和人类相似,就像人类碰到了火觉得疼,所以不再碰火,或者吃到食物觉得美味,所以下一次也会再吃一样,都是由经验的反馈所驱动的。
韩国职业棋手李世石(이세돌)。
2016年3月,AlphaGo挑战世界冠军韩国职业棋手李世石(이세돌)九段。AlphaGo使用谷歌位于美国的云计算服务器,并通过光缆网络连接到韩国。
比赛的地点为韩国首尔四季酒店;赛制为五番棋,分别于2016年3月9日、10日、12日、13日和15日进行;规则为中国围棋规则,黑棋贴3又3/4子;用时为每方2小时,3次1分钟读秒。
DeepMind团队在YouTube上全球直播并由美籍职业棋手迈克·雷蒙(Michael Redmond)九段担任英语解说,而中国很多视频网站也采用YouTube的直播信号进行直播,并加上自己的解说。DeepMind团队成员台湾业余6段围棋棋手黄士杰博士代表AlphaGo在棋盘上落子。
比赛获胜者将获得100万美元的奖金。如果AlphaGo获胜,奖金将捐赠给围棋组织和慈善机构,包括联合国儿童基金会。李世石有15万美元的出场费,且每赢一盘棋会再得2万美元的奖金。
2016年3月9日、10日和12日的三局对战均为AlphaGo获胜,而13日的对战则为李世石获胜,15日的最终局则又是AlphaGo获胜。因此对弈结果为AlphaGo 4:1战胜了李世石。这次比赛在网络上引发了人们对此次比赛和人工智能的广泛讨论。
扩展资料:
算法
AlphaGo使用蒙特卡洛树搜索(Monte Carlo tree search),借助估值网络(value network)与走棋网络(policy network)这两种深度神经网络,通过估值网络来评估大量选点,并通过走棋网络选择落点。
AlphaGo最初通过模仿人类玩家,尝试匹配职业棋手的过往棋局,其数据库中约含3000万步棋着。后来它达到了一定的熟练程度,它开始和自己对弈大量棋局,使用强化学习进一步改善它。
围棋无法仅通过寻找最佳棋步来解决;游戏一盘平均约有150步,每一步平均约有200种可选的下法,这意味着有太多需要解决的可能性。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)