AlphaGo工程师Silver评第二场“37手棋”神来之笔

编辑：YOTO VR　发布时间： 2016-3-15 13:20:00 　　文章来源：百度百家

网络营销

对于挤进首尔四季酒店六楼的观众们来说AlphaGo的“这一子”没有任何意义。但是这个谷歌的机器却持有完全不同的看法，它明知道“这一子”在人类看来是没有意义的，但还是走了“这一子”，因为它看到过很多人类都未曾尝试过的下法。

“这一子”究竟指的是什么？

本周在韩国首尔四季酒店内举行了一场意义非凡的围棋比赛，一名顶尖的世界级围棋选手李世石和谷歌人工智能计算机系统AlphaGo之间展开了一场具有划时代意义的对决。AlphaGo在这场五局比赛的第二场下出了令所有人都震惊的一子，李世石也不例外。身为一名非常有才华的专业围棋选手的评论员说“这是一手棋下得非常奇怪”，另一位评论员则说:“我认为这是一个错误”。李世石此时离开赛场申请休息，回来后还用了将近15分钟才做出回应。

身为三届欧洲围棋冠军的樊麾于去年十月份五局连败于AlphaGo。 “这不是一个人类会采取的落子方式，我从来没见过人类会走一步，”他说，但是他仍以“非常漂亮，非常漂亮”来描述这一手棋。

事实上，“出其不意”的AlphaGo取得了该局比赛的胜利，并一鼓作气赢下了第三局，最终以3：0的成绩获得本场比赛的最终胜利。第四局中李世石扳回一局，相当大程度上挽回了人类的骄傲。

这场比赛展现出了现代人工智能的神秘力量，它不仅仅可以驱动一个机器去玩这个古老复杂的消遣游戏，而且还在前所未有的程度上重塑了谷歌的服务——这种情况也同样适用于脸书、微软、Twitter、Tesla 和SpaceX等公司。在第二场比赛之后，樊麾雄辩地描述这一手棋的美丽和重要性。作为AlphaGo团队的顾问,樊麾用过去五个月不断和这个机器对弈，他已经逐渐意识到这个机器的强大。但是另一个选手却比樊麾能更好的理解这一手棋，它就是AlphaGo。

我当然不可能去问AlphaGo关于这一手棋的问题，但是我做了我认为最有意义的方式：我问了David Silver, 一个参与创建AlphaGo的人。

很难确定应该要相信谁

Silver是位于伦敦的人工智能实验室DeepMind的一个研究员(DeepMind于2014年早期被谷歌收购)。他参与创建AlphaGo的团队在比赛之前就抵达韩国配置这台机器——所有工作里面最重要的就是互联网连接——四季酒店内的互联网连接。并且在之后的日子里，他们要确认AlphaGo的系统在每场比赛之前都处于良好的工作秩序之中。

但他们大多数时间其实都是在观看比赛——像许多其他人一样。DeepMind研究人员Aja Huang一直在比赛现场听从AlphaGo的指令，帮它落子。其他的研究人员，包括Silver在内，大多数时间都在观看比赛。比赛期间AlphaGo是靠自己运行的。

但这并不意味着Silver可以在比赛过程中松一口气。“我简直不能描述出来这是一件多么让人紧张的事情，” Silver在第三场比赛之前告诉我。在比赛期间，他坐在AlphaGo “控制室”里面观看着电脑屏幕监控系统的底层基础架构是否在正常运行，屏幕上会不断更新系统对结果的预测，并且直播大厅尽头的房间里传来的各种比赛解说。 “很难确定应该相信谁,”他说。 “你一面听着评论员的解说，另一面看着AlphaGo的结果预测。并且评论员的意见并没有达成一致。”

对于第二场比赛中的第37手棋，Silver和其他人一样并不知道这其中的“秘密”。但是这局比赛结束之后，这一手棋受到了广泛的赞扬，所以他回到了控制室做了一些挖掘工作。

和自己对弈

为了能够理解他发现了什么，你一定要先知道AlphaGo 是如何工作的。这个系统使用了深度学习网络——近似人脑神经网络的软硬件网络。基本上，深度神经网络可以通过分析大量的数据学习如何执行任务，比如说如果你提供足够的火烈鸟照片给神经网络，它可以识别火烈鸟（有点儿像人类一样）。并且如果你给它提供足够多围棋大师们的“棋招”，它也可以学会下围棋，并且可以下的很好。但这仅是一个开始。通过使用神经网络来构建一个会下围棋的系统，然后用深度学习匹配自己这个系统。通过自己与自己的对弈，找寻出最有利的成功战术，这个系统可以显著地提升自己的能力。这叫做强化学习。

“AlphaGo学习发掘自创新的战术，它通过数百次的的围棋AlphaGo-AlphaGo对弈，对抗自己并逐渐提升，” Silver在今年早些时候DeepMind第一次透露训练方法的时候表示。

在那之后团队选择更进一步，他们将那些AlphaGo和自己对弈的数据也输入到神经网络中，希望让它进一步精进战术。基本上，这种训练和“树搜索”（通过遍历检验潜在的结果，一种更为传统和系统的方式）配合，它能够估计不同落子所能够导致的获胜的可能性。

所以，最终，这个系统不仅从人类的经验中学习，还从自我对弈产生的多版本数据集中学习。这也是AlphaGo会下出37手那样棋的原因。

万分之一的可能性

Silver在控制室里可以看到AlphaGo在落第37子之前所做的精确计算。依靠其基于数以百万人类经验上的广泛训练，这个机器其实计算了人类会在一场比赛中走出这样的特定的一步的可能性。“这是引导它做出落子决定的方法，” Silver说。对于第37子，AlphaGo算出人类会如此落子的可能性是万分之一。换句话说，AlphaGo知道这一步并不是大多数专业的围棋选手会选择的。

但是，依靠它的自我对弈所产生的数据，AlphaGo对第37子有着不同的认知角度。它意识到，即使没有专业的选手会选择这一步，这一步也很可能将会是非常成功的一步。“它自己发现了这个，” Silver 说， “通过它自己的反思和分析过程。”

反思是一个合适的词吗？你可以来判断。但樊麾对了，虽然这一举动是非人类的，但仍然是非常漂亮的。

免责声明：本文来源于百度百家,本文仅代表作者个人观点，与网赢中国无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

有意与本网合作者请与《网赢中国》联系。未经《网赢中国》书面授权，请勿转载或建立镜像，否则即为侵权。

网络营销

更多网络营销资讯