设为首页收藏本站

汉山

 找回密码
 立即注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

搜索
热搜: 活动 交友 discuz
查看: 950|回复: 1
打印 上一主题 下一主题

发明人首次复盘人机大战 看看阿法狗是怎么赢的(图)

[复制链接]
跳转到指定楼层
楼主
发表于 2016-3-30 15:10:33 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

2016年03月30日 07:26
  来源:钛媒体 作者:张伟楠



  钛媒体注:“谷李”世纪大战硝烟散尽,由此引发的机器学习与人工智能的热潮不减反增。日前,AlphaGo (中文俗称“阿尔法狗”)项目负责人,有着阿尔法狗之父之称的大卫·席尔瓦(David Silver)回到英国伦敦,在母校伦敦大学学院(UniversityCollege London,UCL)一场私密会上复盘了人工智能围棋系统AlphaGo与李世石的5番棋大战,在场的听众被禁止拍照。这也是赛后,阿尔法狗团队的首次半公开复盘。

  UCL计算机系是全英计算机排名第一的学院。在UCL计算机系攻读博士学位的中国留学生张伟楠全程参与了这次分享会,并且在会后与席尔瓦进行了面对面的交流。钛媒体独家约稿张伟楠,根据席尔瓦的分享及会后与席尔瓦的交流,写作此文,席尔瓦也透露了AlphaGo的下一步可能动向以及应用前景。席尔瓦透露,AlphaGo的最新版本自我估分在4500左右,远远超出积分3625的柯洁,实力水平大约在13段左右,人类选手中已然无敌。

  

  张伟楠与阿尔法狗之父席尔瓦在交流

  两周前的那场人机大战,AlphaGo出人意料地获得了压倒性的胜利,4:1战胜了李世石。棋局进程激烈精彩之处,不亚于那些人类棋手创造的历史名局。

  3月24晶,回到UCL大学,席尔瓦在复盘中详细讲述了AlphaGo背后的技术原理以及谷李5场比赛的分析。

  获得历史性的胜利之后,外界十分关心AlphaGo的下一步和未来,席尔瓦透露,在《Nature》那篇文章引发广泛关注和轰动之后,AlphaGo团队还将再写一篇论文,与外界分享AlphaGo与李世石比赛中的技术进步。

  席尔瓦还表示,DeepMind一直希望能够为开发者社区做贡献,他们之前也公布了DQN项目(deep-q-network)的代码——基于深度强化学习的游戏平台。未来他们可能会公布AlphaGo的代码,只要能找到一个合适的方案,但是目前还没有找到。

  投入20个人的团队,花费大量的财力去做围棋对弈,对谷歌来说意味着什么?下一步会如何延伸到其他产业领域?

  席尔瓦透露,DeepMind今后的着眼点是和人们日常生活息息相关,并可以改变世界的应用,比如精准医疗、家用机器人以及智能手机助手。

  AlphaGo之父十年磨一剑

  似乎在一夜之间,机器选手战胜了人类最顶尖围棋选手。但是,对于席尔瓦来说,人工智能围棋耗时十几年,最终不过是水到渠成。

  作为AlphaGo的幕后团队的技术主管,也是谷歌DeepMind团队最重要的科学家之一,席尔瓦还身兼UCL大学的教职,是该校计算机系的教授,教授“强化学习”的课程。

  席尔瓦是在加拿大阿伯塔大学获得博士学位,师从世界上首屈一指的“强化学习”大师理查德·萨顿(Richard S.Sutton)研究强化学习算法,后来在另一座科技圣殿美国麻省理工学院从事博士后研究。

  在攻读博士以及博士后工作期间,席尔瓦一直致力于强化学习在围棋人工智能上的研究。到英国UCL大学计算机系执教以后,他还经常拿围棋作为授课的应用实例。

 

分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友 微信微信
收藏收藏 分享分享
沙发
 楼主| 发表于 2016-3-30 15:11:14 | 只看该作者
 席尔瓦的课程开始听的人并非很多。三年前,我曾上过他的课程。有一次因故迟到了20分钟,当时的教室里仍然可以找到座位。现在,随着他加入到Deepmind团队,尤其是他掌舵AlphaGo项目名声大噪,他的课程也开始广受欢迎,迟到的人基本上只能站着听课了。

  加入DeepMind之前,席尔瓦即已开始和CEO戴密斯·哈萨比斯(Demis Hassabis)共同研究强化学习。哈萨比斯在UCL拿到了神经学博士学位。两个人都痴迷于游戏,哈撒比斯少年时曾经是英国国际象棋队队长,在13岁便已经获得国际象棋大师的头衔,青年时自创游戏公司,而席尔瓦则长期对围棋情有独钟。

  2014年初,在被谷歌收购之前,DeepMind即开始与UCL洽谈,希望能买断席尔瓦的工作时间。这样可以保留他在大学的教职的同时,还可以让他在DeepMind全心工作。

  加盟DeepMind之后,席尔瓦成立了20个人的AlphaGo团队,专门研究围棋人工智能。汇集整个团队的力量,他要求在技术研发的每一个环节上都追求极致。AlphaGo团队成员就透露,有的智能模块在谷歌团队看来已经很完美了,但是席尔瓦却仍认为不及格,离完美还差很远。

  长期专注于人工智能与围棋项目,在技术方面追求极致,再加上势大财雄的谷歌的团队配合,最终成就了AlphaGo的骤然爆发。

  复盘谷李大战

  复盘是职业围棋选手经常做的一件事,他们相信总结过去一盘棋的经验和教训,可以提高自己的棋艺。

  AlphaGo团队也做了复盘,通过几张幻灯片的形式,席尔瓦复盘了这5场比赛的胜负关键处,而在场的听众被禁止拍照。

  第一盘的胜负关键处是,AlphaGo执白棋第102手打入黑空,职业高手们普遍认为这是一招险招,看上去李世石对此也早有准备。事后看,棋局的进程却是李世石应对有误,进入到了AlphaGo的计算步调中。再下了几手棋之后,AlphaGo已经优势明显。

  第二盘棋的开局不久,AlphaGo就下出了职业棋手们普遍认为不妥的一手棋。席尔瓦称其为反人类(unhuman)一手——第37手5路肩冲。观战的多数职业高手认为这不太成立,超出了职业高手们正常的行棋逻辑。

  随后的进程,这手棋的价值逐渐闪现,李世石又一次输得毫无脾气。

  席尔瓦解释道:“多数评论员都第一时间批评这一步棋,从来没有人在这样的情况下走出如此一着。在胜负已定之后,一些专业人士重新思考这一步,他们改口称自己很可能也会走这一着。”

  而在AlphaGo看来,当时只是一步很正常的走子选择而已。

  对于第一盘棋和第二盘棋,许多职业围棋选手以及媒体分析都认为,AlphaGo逆转取胜,但是在AlphaGo自身的价值网络所做的实时胜率分析看来,自己始终处于领先。在AlphaGo获胜的4盘中,AlphaGo系统自有的胜率评估始终都是领先李世石,从头到尾压制直到最终获胜。

  第三盘和第五盘,AlphaGo 都是在棋局刚开始不久,就已经取得了明显优势并持续提高胜率直到终局。与职业棋手根据经验所做的胜负判断不同,AlphaGo的自有胜率评估是基于一个价值模块,做出对棋局胜负的预计。

  这两种判断截然不同。当第五盘右下角的争夺错综复杂时,AlphaGo选择脱先,转而落子在其他位置。不少职业棋手认为,AlphaGo在此犯错并落后了,但AlphaGo的选择却是依据全局最优估计而做出的。

  以几局的成败论,AlphaGo的这种判断似乎更为准确。突破了职业棋手对围棋的传统的理解范畴,不再局限于棋手多年培养出来的围棋直觉和套路定式,会选择探索职业棋手正常不愿意考虑的招数。AlphaGo在人类棋谱学习的基础上,还进行了大量的自我对弈,从而研究出了一些人类从未涉及到的走法。

  “神之一手”的背后

  AlphaGo系统并非无懈可击,但是,漏洞并不是所谓的模仿棋、打劫等等。它的漏洞体现在李世石赢得比赛的第四盘棋,AlphaGo取得巨大进步的价值模块出现了瑕疵,这也是AlphaGo在5局棋中唯一的一次漏洞,也是唯一的一盘失利。

  在第四盘棋中,开局之后很快就几陷绝境中的李世石,弈出了被来自中国的世界冠军古力成为“神之一手”的白78手,凌空一挖。坚韧如山的对手突然倒下,AlphaGo变得不知所措,连续出现低级昏招,这也成就了AlphaGo有记载的公开的第一局失利。

  对于AlphaGo的异常表现,各路观战的职业高手充满了猜测。即使是观赛的哈撒比斯和席尔瓦也都不知道究竟发生了什么。

  事后的分析显示,在李世石下出第78手之前,AlphaGo自有的胜率评估一直认为自己领先,评估的胜率高达70%。在第78手之后,AlphaGo评估的胜率急转直下,被李世石遥遥领先,之后再也没有缩短差距。

  为什么AlphaGo面对李世石的第78手表现如此差,是因为它没有想到李世石的这手棋吗?

  席尔瓦揭晓了这一秘密。AlphaGo的计算体系中,的确曾经评估过这手棋,只是在AlphaGo的评估中,李世石走那一子的概率大概是万分之一,最终,它没有想到李世石会这样走,也就没有计算李世石这样走之后如何应对。

  赛后,获胜的李世石则说,这一手在他看来是唯一的选择。

  AlphaGo背后的蒙特卡洛树搜索依赖的策略网络,是根据人类对弈棋谱数据训练出来的模型,它很难去预测白78手这样的所谓手筋妙招,也就很难判断基于这一步继续往下搜索之后的胜负状态。

  这就是AlphaGo在这5盘对局中表现出的唯一破绽,也是目前人类智慧还领先于AlphaGo背后的大数据驱动的通用人工智能(Data-driven Artificial General Intelligence)的地方。

  人工智能已然无敌?

  在此次大赛之前,多数来自职业围棋界的棋手包括李世石自己都认为,李世石会轻松取胜。但是,DeepMind团队却信心满满。另一位DeepMind团队的主力成员也曾经在UCL介绍AlphaGo的进展,在展望与李世石的比赛时,他曾就笃定地预言,AlphaGo会赢。

  当有人问及从去年10月战胜梵麾,到今年3月对阵李世石,半年时间当中, AlphaGo究竟有哪些方面的提升时,席尔瓦简要回答说:“我们在系统的每一个模型上尽可能推进效果极致,尤其在价值网络上获得了很大的提升。训练价值网络的目标胜率除了通过自我对弈的结果外,我们还使用了搜索策略去尽可能逼近理论的胜率。”

  直观地说,3月版本的AlphaGo比半年前的水平大概是让4子——让对方先占据4个星位!

  在战胜李世石之后,中国、韩国、日本许多的职业棋手,包括李世石本人都希望能够再与AlphaGo一战。

  按照等级分排名,AlphaGo仅次于中国的世界冠军柯洁,排名世界第二。而席尔瓦透露,AlphaGo的最新版本自我估分在4500左右,远远超出现在3600多的柯洁,实力水平大约在13段左右,人类选手中已然无敌!

  AlphaGo为什么会有这么强劲的表现?在讲座当中,席尔瓦部分地复述和解释了今年1月《Nature》上发表的论文,讲述了人工智能的基本原理以及AlphaGo的技术框架。

  对于人工智能来说,围棋游戏的难度在于,决策空间实在太大。决策(Decision Making)是人工智能的关键要素,使得机器能够在人类的世界中发挥作用。

  在围棋以及任何游戏中,一次决策往往使得游戏更新到了一个新的局面,于是影响到了接下来的决策,一直到最终游戏的胜负。人工智能的关键就是在决策空间中搜索达到最大效益的路径,最终体现在当前决策中。

  围棋棋盘上棋子可能的组合方式的数量就有10的170次方之多,超过宇宙原子总数。在近乎无穷的决策空间中,去暴力搜索出当前棋盘的下一步最优走子是绝对不可能的事情。


 
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|汉山网    

GMT-5, 2025-10-21 14:36 , Processed in 0.062931 second(s), 22 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表