CAAI热门点评丨马少平:深蓝、沃森与AlphaGo

2017-01-12 中国人工智能学会 中国人工智能学会

小编按

从Master60局不败的记录到公布其就是AlphaGo升级版,围棋界这颗重磅炸弹引起的余波至今未停,我们特别邀请了学会的一些学者和老师共同对此次人机对弈分享一些独到见解,本篇为中国人工智能学会副理事长马少平教的精彩长评,欢迎同好者一起讨论。


在2016年3月份,正当李世石与AlphaGo进行人机大战的时候,我曾经写过一篇“人工智能的里程碑:从深蓝到AlphaGo”,自从1997年深蓝战胜卡斯帕罗夫之后,随着计算机硬件水平的提高,计算机象棋(包括国际象棋和中国象棋)水平有了很大的提高,达到了可以战胜人类最高棋手的水平。但是,长期以来,在计算机围棋上进展却十分缓慢,在2006年引入了蒙特卡洛树搜索方法之后,也只能达到业余5段的水平。所以AlphaGo战胜韩国棋手李世石,确实是人工智能发展历程上的一个里程碑式的事件。


从人工智能研究的角度来说,计算机围棋战胜人类高水平棋手是一个标志,说明在某些方面,现有的人工智能技术可以达到怎样的高度,所以当时我曾经认为人机再战的意思已经不大,就如同当年深蓝战胜卡斯帕罗夫之后,IBM随即马放南山,即便卡斯帕罗夫提出再战深蓝,IBM也不再理会。当年的深蓝还是一个专用设备,IBM甚至为了提高计算速度,而研制了专用的芯片(据说该芯片只能用于下国际象棋)。但是万事开头难,随着计算机计算能力的提高,今天即便在普通计算机上,也可以达到甚至超过当年深蓝的水平。以至于在国际象棋比赛中,出现过棋手借去厕所的机会,让计算机帮忙出招的丑闻,在现在的国际象棋比赛中,已经明确禁止利用各种计算设备,据说赛场也对网络进行屏蔽,以防止有人作弊。



图1. 深蓝对卡斯帕罗夫的比赛现场


就在2016年即将过去的时候,在网络上突然出现一个名为Master的计算机围棋程序,在网上快棋赛中,连胜包括中日韩三国高手在内的人类棋手,取得连胜60场的辉煌战绩。事后得知Master就是AlphaGo的升级版。


为什么AlphaGo会重出江湖呢?我想可以从AlphaGo与深蓝的不同来考虑。深蓝采用的是α-β搜索框架,加上大量的人类知识,在技术上已经没有什么发展空间。而AlphaGo采用的是蒙特卡洛树搜索框架,加上深度学习和深度强化学习。在这样一个框架下,深度学习,尤其是深度强化学习在计算机围棋上的天花板究竟有多高?还是一个未知数,从技术的角度来说,还有很大的研究空间,我想这是AlphaGo重出江湖的重要原因,围棋在这里只是作为一个应用对象,目的还是研究强化学习等方法。


顺便在这里说一下,有人认为AlphaGo的成功是深度学习的胜利,我认为这一看法是片面的。具体来说,蒙特卡洛树搜索引入到计算机围棋中,是一个很大的飞跃,深度学习和强化学习的引入,是又一次飞跃。因此AlphaGo的成功是蒙特卡洛树搜索加深度学习的胜利。如果再上升一个层次来考虑,则是人工智能中传统的符号主义加连接主义的成功。如果再进一步上升一个层次,则是理性加感性的成功。因此,在今天深度学习大热的情况下,不能忽视传统方法的作用。传统方法与深度学习具有互补性,应该加强这方面的研究,而不是一窝蜂式的涌向深度学习。


 
图2. 韩国棋手李世石对战AlphaGo


那么这次的Master与去年3月份的AlphaGo有什么不同呢(为了叙述方便,下文中AlphaGo特指去年3月的版本,Master特指现在的版本)?到目前为止,DeepMind公司还没有透露出任何信息,只能从表面现象去分析、猜测。我并不懂围棋,为了了解Master的特点,在网上看了不少专业棋手对Master棋谱的分析,一个突出的感受是,Master常常会走出一些超出职业棋手想象的惊人之步,很多高手连呼看不懂,但又找不出其破绽。古力在其微博上说,Master的出现“已经彻底颠覆了我们棋手对局势原有的掌控、判断”,柯洁也评论说Master“给我们棋手带来的震撼”。虽然AlphaGo也有出乎职业棋手意外的着法,但是这次Master这样的走法更多,更出乎意外。鉴于此,我曾经给出一个猜测:“AlphaGo训练时用到了16万人类棋谱,加上自己左右互搏产生的3000万棋谱,以及人类总结的几万个模式。而这次的Master很可能是从0开始学习得到的结果(指没有利用任何人类棋谱和知识,依靠基于强化学习的左右互搏进行学习),在蒙特卡洛搜索树的框架下,加上深度强化学习方法,是可以做得到的。这也是为什么Master让职业棋手感觉到被颠覆的原因,因为没有任何人类的影响。AlphaGo在去年3月时虽然惊人的走法,但好像没有这次多,也没有这次大胆,因为3月的AlphaGo利用了16万的人类棋谱和数万个人类总结的模式”。虽然事后DeepMind公司说Master还是用了人类棋谱,但是很可能更加加强了基于强化学习的左右互搏的成分,弱化了人类棋谱的作用。事实上,DeepMind公司也确实在试探从0学习的系统,虽然还没有推出。


在我的“人工智能导论”课上,学生要完成一个大作业,就是实现一个简单的下棋程序,最初几年,学生基本是采用α-β剪枝的方法,要自己总结很多模式出来,后来渐渐的采用蒙特卡洛树搜索方法的同学逐年增加,到现在基本没有同学用α-β剪枝方法了,也不再需要人为总结什么模式了,基本都是从0开始,而且水平也是逐年提高,绝大多数同学都难于战胜自己的程序。当然,大作业的棋类比较简单,远远无法跟围棋比,但是越来越不依赖于人类棋谱、知识,应该是一个发展趋势,围棋也应该可以实现,可能还需要更强大的计算平台的支持。关于大作业,我曾在2013年的博客中有过简单的总结,表明过类似的看法,有兴趣的读者可以参见《由大作业想到的》这篇博客http://blog.sina.com.cn/s/blog_73040b820101bwrl.html。


深蓝、沃森和AlphaGo都可以算是人工智能发展史上里程碑式的事件,那么他们之间有哪些相同与不同呢?


关于相同点,我想可以总结为一句话:在一个特定领域,利用人类提供的数据或者知识,采用已有的技术,战胜该领域最高水平的人类。


深蓝是一个国际象棋程序,采用的是60年代就提出的α-β剪枝算法,IBM公司聘请了若干个国际象棋特级大师总结下棋的模式和知识,用于对局面的评估。最终于1997年战胜了连续10年国际象棋世界冠军卡斯帕罗夫。


沃森是IBM为了纪念公司成立100周年研发的一个问答系统,其名称是为了纪念IBM公司的创始人ThomasJ.Watson先生。2011年在美国最受欢迎的智力竞猜电视节目《危险边缘》中,沃森击败该节目历史上两位最成功的选手肯-詹宁斯和布拉德-鲁特,成为《危险边缘》节目新的王者。在沃森系统中,共采用了100多项与自然语言处理、知识问答相关的技术,利用《危险边缘》节目创始以来40多年的问题与答案进行训练,存储了大量图书、新闻和电影剧本资料、辞海、文选和《世界图书百科全书》等数百万份资料,在3秒内可以给出一个问题的答案。

 

图3. 沃森参加电视节目《危险边缘》,中间是沃森,两边是肯-詹宁斯和布拉德-鲁特


AlphaGo在蒙特卡洛树搜索的框架下,利用深度学习和强化学习技术进行训练和评估,其中用到了人类棋手以往的16万盘棋谱,以及AlphaGo自己左右互搏产生的3000万盘棋谱,并用到了人类总结的几万个模式,综合运用这些技术,实现了高水平的围棋程序,并于2016年3月以4:1的成绩战胜了韩国围棋职业高手李世石。这些技术也并不是新技术,但是DeepMind公司有所创新,主要包括两个方面,一个是发展了强化学习技术,二是将传统的搜索技术与深度学习在围棋这个平台上,很好地结合在一起,实现了理性与感性的良好融合。这可能是AlphaGo成功的关键所在。


这是他们共同的部分,那么这三个系统有哪些不同呢?三个系统完全是三个不同的领域,不同点自然很多,下面只从技术是否通用,以及通用程度方面展开讨论。


深蓝采用的α-β剪枝算法是专门用于双人博弈问题的算法,虽然也有人将该方法用于其他方面,比如故障诊断的测试点选择,但应用面是非常有限的,是一个非常专用的算法。也曾听有人介绍说IBM会把相关方法用于风险投资,但事后也没有听到相关消息。这也可能是IBM不再继续投入开展研究的原因吧?


AlphaGo则有很大的不同,深度学习是个通用方法,已经在很多领域得到很好的应用,强化学习也具有一定的通用性,并且DeepMind对其有所发展和创新,在围棋这个平台上可以继续开展研究,也可以推广到其他领域。但是围棋这类博弈游戏有一个特点,其最终的胜负可以自动判断,不需要人类标注,这就为系统自身的左右互搏、强化学习提供了很大的便利条件,如果在其他领域应用,需要定义合适的优化条件才可行。


在三个里程碑式的事件中,我认为最具通用性的是沃森,它采用了100多项与自然语言处理、知识问答相关的技术,这些技术可以在很多应用领域发挥作用,不仅仅是用于问答,IBM公司把相关技术称之为认知计算。IBM公司以此为契机,成立了沃森集团,专注于认知计算的研究和应用,已经在医疗健康领域取得了很好的成果。


因此,从通用性和商用性的角度来说,三个系统中排名第一的是沃森,其系统只要结合相关领域的数据,可以很快进行商用转化,提供服务;其次是AlphaGo,直接转换到其他领域,提供商用服务的可能性不大,但其技术可以应用于其他领域;排在最后的就是深蓝了,向其他领域转化的可能性很小。


AlphaGo(包括Master)的出现,对于围棋有什么影响呢?有人认为这会毁了围棋,人类根本就战胜不了机器,再学习围棋还有什么意义呢?我认为这种看法是不正确的。AlphaGo的出现,说明人类对围棋的认识远远不够,在计算机的辅助下研究围棋,必将对围棋有新的认识,就如同当年吴清源先生的出现一样,即将开启围棋的新天地。


其实围棋界也有类似的认识。职业棋手古力说,“我深深地感受到围棋的神秘,似乎‘大师’(指Master)给我们打开一道围棋的神秘之门。不论胜负,人类与人工智能共同探索围棋世界的大幕即将拉开,新一次的围棋革命正在进行着”。职业棋手排名第一的柯洁也提到,“人类数千年的实战演练进化,计算机却告诉我们人类全是错的。我觉得,甚至没有一个人沾到围棋真理的边。但我想说,从现在开始,我们棋手将结合计算机,迈进全新的领域、达到全新的境界。新的风暴即将来袭,我将尽我所有的智慧终极一战!”


从科学发展史上来看,每次危机的出现,都预示着新的革命即将开始,比如数学上的几次悖论的出现,都孕育出新的数学方法,极大地推进了数学的发展。我们期待着AlphaGo能开放出来,可以让棋手们自由地与它对弈,甚至可以像围棋复盘一样,和计算机一起探索可能的走法,胜负已经不是关键,重要的是发展新的围棋理论,让围棋走向一个新天地。

 


马少平 

清华大学计算机系教授,博士生导师,中国人工智能学会副理事长,中国中文信息学会副理事长。主要研究方向为智能信息处理,包括文本信息检索、网络用户行为分析、个性化推荐、社交媒体分析等。


觉得不错,分享给更多人看到

中国人工智能学会 微信二维码

中国人工智能学会 微信二维码

数据

阅读 4141
点赞 49
更新 1月14日 1:20