汉山

标题: 发明人首次复盘人机大战看看阿法狗是怎么赢的（图） [打印本页]

作者: 疯疯颠颠 时间: 2016-3-30 15:10
标题: 发明人首次复盘人机大战看看阿法狗是怎么赢的（图）

2016年03月30日 07:26
　　来源：钛媒体作者：张伟楠

　　钛媒体注：“谷李”世纪大战硝烟散尽，由此引发的机器学习与人工智能的热潮不减反增。日前，AlphaGo （中文俗称“阿尔法狗”）项目负责人，有着阿尔法狗之父之称的大卫·席尔瓦（David Silver）回到英国伦敦，在母校伦敦大学学院（UniversityCollege London，UCL）一场私密会上复盘了人工智能围棋系统AlphaGo与李世石的5番棋大战，在场的听众被禁止拍照。这也是赛后，阿尔法狗团队的首次半公开复盘。

　　UCL计算机系是全英计算机排名第一的学院。在UCL计算机系攻读博士学位的中国留学生张伟楠全程参与了这次分享会，并且在会后与席尔瓦进行了面对面的交流。钛媒体独家约稿张伟楠，根据席尔瓦的分享及会后与席尔瓦的交流，写作此文，席尔瓦也透露了AlphaGo的下一步可能动向以及应用前景。席尔瓦透露，AlphaGo的最新版本自我估分在4500左右，远远超出积分3625的柯洁，实力水平大约在13段左右，人类选手中已然无敌。

　　

　　张伟楠与阿尔法狗之父席尔瓦在交流

　　两周前的那场人机大战，AlphaGo出人意料地获得了压倒性的胜利，4:1战胜了李世石。棋局进程激烈精彩之处，不亚于那些人类棋手创造的历史名局。

　　3月24晶，回到UCL大学，席尔瓦在复盘中详细讲述了AlphaGo背后的技术原理以及谷李5场比赛的分析。

　　获得历史性的胜利之后，外界十分关心AlphaGo的下一步和未来，席尔瓦透露，在《Nature》那篇文章引发广泛关注和轰动之后，AlphaGo团队还将再写一篇论文，与外界分享AlphaGo与李世石比赛中的技术进步。

　　席尔瓦还表示，DeepMind一直希望能够为开发者社区做贡献，他们之前也公布了DQN项目（deep－q-network）的代码——基于深度强化学习的游戏平台。未来他们可能会公布AlphaGo的代码，只要能找到一个合适的方案，但是目前还没有找到。

　　投入20个人的团队，花费大量的财力去做围棋对弈，对谷歌来说意味着什么？下一步会如何延伸到其他产业领域？

　　席尔瓦透露，DeepMind今后的着眼点是和人们日常生活息息相关，并可以改变世界的应用，比如精准医疗、家用机器人以及智能手机助手。

　　AlphaGo之父十年磨一剑

　　似乎在一夜之间，机器选手战胜了人类最顶尖围棋选手。但是，对于席尔瓦来说，人工智能围棋耗时十几年，最终不过是水到渠成。

　　作为AlphaGo的幕后团队的技术主管，也是谷歌DeepMind团队最重要的科学家之一，席尔瓦还身兼UCL大学的教职，是该校计算机系的教授，教授“强化学习”的课程。

　　席尔瓦是在加拿大阿伯塔大学获得博士学位，师从世界上首屈一指的“强化学习”大师理查德·萨顿（Richard S.Sutton）研究强化学习算法，后来在另一座科技圣殿美国麻省理工学院从事博士后研究。

　　在攻读博士以及博士后工作期间，席尔瓦一直致力于强化学习在围棋人工智能上的研究。到英国UCL大学计算机系执教以后，他还经常拿围棋作为授课的应用实例。

　

作者: 疯疯颠颠 时间: 2016-3-30 15:11
　席尔瓦的课程开始听的人并非很多。三年前，我曾上过他的课程。有一次因故迟到了20分钟，当时的教室里仍然可以找到座位。现在，随着他加入到Deepmind团队，尤其是他掌舵AlphaGo项目名声大噪，他的课程也开始广受欢迎，迟到的人基本上只能站着听课了。

　　加入DeepMind之前，席尔瓦即已开始和CEO戴密斯·哈萨比斯（Demis Hassabis）共同研究强化学习。哈萨比斯在UCL拿到了神经学博士学位。两个人都痴迷于游戏，哈撒比斯少年时曾经是英国国际象棋队队长，在13岁便已经获得国际象棋大师的头衔，青年时自创游戏公司，而席尔瓦则长期对围棋情有独钟。

　　2014年初，在被谷歌收购之前，DeepMind即开始与UCL洽谈，希望能买断席尔瓦的工作时间。这样可以保留他在大学的教职的同时，还可以让他在DeepMind全心工作。

　　加盟DeepMind之后，席尔瓦成立了20个人的AlphaGo团队，专门研究围棋人工智能。汇集整个团队的力量，他要求在技术研发的每一个环节上都追求极致。AlphaGo团队成员就透露，有的智能模块在谷歌团队看来已经很完美了，但是席尔瓦却仍认为不及格，离完美还差很远。

　　长期专注于人工智能与围棋项目，在技术方面追求极致，再加上势大财雄的谷歌的团队配合，最终成就了AlphaGo的骤然爆发。

　　复盘谷李大战

　　复盘是职业围棋选手经常做的一件事，他们相信总结过去一盘棋的经验和教训，可以提高自己的棋艺。

　　AlphaGo团队也做了复盘，通过几张幻灯片的形式，席尔瓦复盘了这5场比赛的胜负关键处，而在场的听众被禁止拍照。

　　第一盘的胜负关键处是，AlphaGo执白棋第102手打入黑空，职业高手们普遍认为这是一招险招，看上去李世石对此也早有准备。事后看，棋局的进程却是李世石应对有误，进入到了AlphaGo的计算步调中。再下了几手棋之后，AlphaGo已经优势明显。

　　第二盘棋的开局不久，AlphaGo就下出了职业棋手们普遍认为不妥的一手棋。席尔瓦称其为反人类（unhuman）一手——第37手5路肩冲。观战的多数职业高手认为这不太成立，超出了职业高手们正常的行棋逻辑。

　　随后的进程，这手棋的价值逐渐闪现，李世石又一次输得毫无脾气。

　　席尔瓦解释道：“多数评论员都第一时间批评这一步棋，从来没有人在这样的情况下走出如此一着。在胜负已定之后，一些专业人士重新思考这一步，他们改口称自己很可能也会走这一着。”

　　而在AlphaGo看来，当时只是一步很正常的走子选择而已。

　　对于第一盘棋和第二盘棋，许多职业围棋选手以及媒体分析都认为，AlphaGo逆转取胜，但是在AlphaGo自身的价值网络所做的实时胜率分析看来，自己始终处于领先。在AlphaGo获胜的4盘中，AlphaGo系统自有的胜率评估始终都是领先李世石，从头到尾压制直到最终获胜。

　　第三盘和第五盘，AlphaGo 都是在棋局刚开始不久，就已经取得了明显优势并持续提高胜率直到终局。与职业棋手根据经验所做的胜负判断不同，AlphaGo的自有胜率评估是基于一个价值模块，做出对棋局胜负的预计。

　　这两种判断截然不同。当第五盘右下角的争夺错综复杂时，AlphaGo选择脱先，转而落子在其他位置。不少职业棋手认为，AlphaGo在此犯错并落后了，但AlphaGo的选择却是依据全局最优估计而做出的。

　　以几局的成败论，AlphaGo的这种判断似乎更为准确。突破了职业棋手对围棋的传统的理解范畴，不再局限于棋手多年培养出来的围棋直觉和套路定式，会选择探索职业棋手正常不愿意考虑的招数。AlphaGo在人类棋谱学习的基础上，还进行了大量的自我对弈，从而研究出了一些人类从未涉及到的走法。

　　“神之一手”的背后

　　AlphaGo系统并非无懈可击，但是，漏洞并不是所谓的模仿棋、打劫等等。它的漏洞体现在李世石赢得比赛的第四盘棋，AlphaGo取得巨大进步的价值模块出现了瑕疵，这也是AlphaGo在5局棋中唯一的一次漏洞，也是唯一的一盘失利。

　　在第四盘棋中，开局之后很快就几陷绝境中的李世石，弈出了被来自中国的世界冠军古力成为“神之一手”的白78手，凌空一挖。坚韧如山的对手突然倒下，AlphaGo变得不知所措，连续出现低级昏招，这也成就了AlphaGo有记载的公开的第一局失利。

　　对于AlphaGo的异常表现，各路观战的职业高手充满了猜测。即使是观赛的哈撒比斯和席尔瓦也都不知道究竟发生了什么。

　　事后的分析显示，在李世石下出第78手之前，AlphaGo自有的胜率评估一直认为自己领先，评估的胜率高达70%。在第78手之后，AlphaGo评估的胜率急转直下，被李世石遥遥领先，之后再也没有缩短差距。

　　为什么AlphaGo面对李世石的第78手表现如此差，是因为它没有想到李世石的这手棋吗？

　　席尔瓦揭晓了这一秘密。AlphaGo的计算体系中，的确曾经评估过这手棋，只是在AlphaGo的评估中，李世石走那一子的概率大概是万分之一，最终，它没有想到李世石会这样走，也就没有计算李世石这样走之后如何应对。

　　赛后，获胜的李世石则说，这一手在他看来是唯一的选择。

　　AlphaGo背后的蒙特卡洛树搜索依赖的策略网络，是根据人类对弈棋谱数据训练出来的模型，它很难去预测白78手这样的所谓手筋妙招，也就很难判断基于这一步继续往下搜索之后的胜负状态。

　　这就是AlphaGo在这5盘对局中表现出的唯一破绽，也是目前人类智慧还领先于AlphaGo背后的大数据驱动的通用人工智能（Data-driven Artificial General Intelligence）的地方。

　　人工智能已然无敌？

　　在此次大赛之前，多数来自职业围棋界的棋手包括李世石自己都认为，李世石会轻松取胜。但是，DeepMind团队却信心满满。另一位DeepMind团队的主力成员也曾经在UCL介绍AlphaGo的进展，在展望与李世石的比赛时，他曾就笃定地预言，AlphaGo会赢。

　　当有人问及从去年10月战胜梵麾，到今年3月对阵李世石，半年时间当中， AlphaGo究竟有哪些方面的提升时，席尔瓦简要回答说：“我们在系统的每一个模型上尽可能推进效果极致，尤其在价值网络上获得了很大的提升。训练价值网络的目标胜率除了通过自我对弈的结果外，我们还使用了搜索策略去尽可能逼近理论的胜率。”

　　直观地说，3月版本的AlphaGo比半年前的水平大概是让4子——让对方先占据4个星位！

　　在战胜李世石之后，中国、韩国、日本许多的职业棋手，包括李世石本人都希望能够再与AlphaGo一战。

　　按照等级分排名，AlphaGo仅次于中国的世界冠军柯洁，排名世界第二。而席尔瓦透露，AlphaGo的最新版本自我估分在4500左右，远远超出现在3600多的柯洁，实力水平大约在13段左右，人类选手中已然无敌！

　　AlphaGo为什么会有这么强劲的表现？在讲座当中，席尔瓦部分地复述和解释了今年1月《Nature》上发表的论文，讲述了人工智能的基本原理以及AlphaGo的技术框架。

　　对于人工智能来说，围棋游戏的难度在于，决策空间实在太大。决策（Decision Making）是人工智能的关键要素，使得机器能够在人类的世界中发挥作用。

　　在围棋以及任何游戏中，一次决策往往使得游戏更新到了一个新的局面，于是影响到了接下来的决策，一直到最终游戏的胜负。人工智能的关键就是在决策空间中搜索达到最大效益的路径，最终体现在当前决策中。

　　围棋棋盘上棋子可能的组合方式的数量就有10的170次方之多，超过宇宙原子总数。在近乎无穷的决策空间中，去暴力搜索出当前棋盘的下一步最优走子是绝对不可能的事情。

　

欢迎光临汉山 (http://www.hanshan.info/)