人工智能击败围棋冠军-从围棋冠军到欧洲冠军,这是怎么做到的?
从昨天夜里到今天,你的朋友圈是不是被谷歌的人工智能击败围棋冠军这条消息刷屏了?就在谷歌发表《自然》杂志的封面文章后, Facebook人工智能实验室相关人员随即呛声:恭喜谷歌,但这是我们先做到的。
从两个科技巨头对人工智能击败围棋冠军的重视程度上,可以判断,这是人工智能发展史上了不起的挑战。那么人工智能在人机对战中赢得胜利究竟有多重要,可能得从人工智能的发展说起了。
Alpha Go是如何做到战胜欧洲冠军的?
先来看看谷歌的人工智能是怎么击败围棋冠军的。根据1月28日《自然》杂志的封面文章介绍,谷歌DeepMind公司设计的AlphaGo在没有任何让子的情况下以5:0 完胜欧洲冠军、职业围棋二段樊麾。
DeepMind团队表示,Alpha Go的关键在于使用人工智能中的深度神经网络。在Alpha Go中有两种不同的神经网络,第一种叫做政策网络(policy network),用来预测下一步;第二种叫做价值网络(value network),用来预测棋盘上不同的分布会带来什么不同的结果。
“简单来说,DeepMind是通过让机器学习做到的。按照以往的方法,人工智能是外界输入一个信息,计算机通过输入信息与已有的信息联系,得出一个结论,是一种递归的方式。但现在DeepMind的做法是,我不告诉机器哪种算法能得到高分,而是训练它,通过学习和分析结果来判断最优策略。这个过程已经开始类似小孩子学习知识的一种方式了。”复旦大学计算机与工程学院副教授邱锡鹏告诉澎湃新闻()。
再通俗一点的说法就是,DeepMind先用已有的围棋技巧来训练AI,称为监督学习(supervised learning),然后让AI和自己对弈,通过深度学习让其掌握如何赢得围棋比赛的技巧。
英国围棋协会财务主管,也是樊麾与AlphaGo比赛的裁判托比·曼宁(Toby Manning)目睹了整个对弈过程。在接受国外媒体采访时,他表示:“你甚至很难区分哪一方是人类人工智能击败围棋冠军,哪一方是计算机。在之前的很多软件中,计算机下的很多步可能都很理性,但突然就会变得毫无头绪,而在这场比赛中,几乎看不到计算机与人类的区别。一个区别是时间的分配方式:樊麾下每一步所花的时间都要比AlphaGo更久,而AlphaGo的棋路也不像人类棋手那样富有进攻性。它会非常冷静地落子,而非积极地侵略领地或提子。”
地平线机器人公司CEO余凯在自己的朋友圈称,深度学习领域里的各种进步,让其兴奋不已。因为从简单多层神经网络在语音识别的突破(2011),到对空间展开的卷积神经网络在图像识别领域的突破(2012),再到递归神经网络在序列学习领域(OCR,语音,机器翻译,NLP)的进展(2014),再到基于深度神经网络的增强学习在计算机博弈和控制领域的突破性进展(2016),这个过程人类只用了5年时间。
人工智能战胜围棋冠军是一件里程碑式的事件。
为什么这事如此重要?
理解了Alpha Go的人工智能后,再来看看为什么战胜围棋冠军是一件里程碑式的事件。
棋类游戏一直被视为顶级人类智力的试金石。人工智能与人类棋手的对抗一直在上演。1989年开始人工智能击败围棋冠军,IBM的“深蓝”(deep blue)就常常能击败国际象棋大师了, 8年后的1997年,深蓝首次打败世界第一的国际象棋棋手加里 · 卡斯帕罗夫,开始统治国际象棋领域。2006 年,成为了人类在国际象棋的绝唱,因为自此之后,人类再没有战胜过最顶尖的人工智能国际象棋选手。
不同于国际象棋,围棋每回合的可能性更多,共有 250 种可能,一盘棋可以长达 150 回合。同时,围棋有 3^361 种局面,而可观测到的宇宙,原子数量才 10^80。用人工智能战胜围棋专业选手,按照技术的发展速度,一般认为至少需要10年才能实现。
“为什么我们要致力计算机围棋?因为这是一个需要学习、模式识别、问题解决和规划等技能组合在一起的技能。也是一个测试新的想法,机器学习、推理和规划的好方法。”Facebook人工智能实验室主任Yann LeCun在自己的Facebook账号上表示。
Facebook人工智能研究所研究员田渊栋在其知乎账号上指出,围棋难的地方在于它的估值函数非常不平滑,差一个子盘面就可能天翻地覆,同时状态空间大,也没有全局的结构。这两点加起来,迫使目前计算机只能用穷举法并且因此进展缓慢。
目前,田渊栋在Facebook负责黑暗森林(DarkForest)项目,也是一个围棋对弈项目。这个程序已更新到第三个版本,并在KGS服务器上运营了一个多月,并取得了成人组第五的排名。这个排名意味着它已经成为全美国最好的前100名选手之一,也步入了世界最顶尖围棋机器人之列。
赢了欧洲冠军樊麾后,Alpha Go下一步的目标是在3月份挑战围棋世界冠军李世石。
对于这场世纪大对决,DeepMind公司创立者之一德米斯·哈萨比斯(Demis Hassabis)表示很有信心。他在接受《自然》杂志采访时称:“AlphaGo很可能在围棋这一领域超越最顶尖的人类,我非常期待看到它在围棋的规则之内创造出新的东西。这是我亲手打造的系统,自然对它怀有很深的感情,尤其考虑到我们打造它的方式——它会不断学习,从某种意义上说我们是在不断‘训练’它,它下棋的方式也很像人类。你在写一段普通的程序时,可能对所有细节都了如指掌,事先安排好了一切,但AlphaGo不一样,它会自己学习提高,这种能力是很了不起的。”
关于AlphaGo的未来应用,哈萨比斯说:“最终,我们想要将这些技术应用到真实世界的重要问题中。因为我们用的方法是通用的,我们希望有一天,它们能延伸得更广,帮助解决最紧迫的社会问题,从医药诊断到环境模型。”
按照哈萨比斯的描述,这项技术在 Google 的首个用途将是开发更好的个人助理软件。这样的个人助理能够从用户在线行为中学习用户偏好,并对产品和事件作出更符合直觉的建议。利用人工智能来做私人助理,这与Facebook首席执行官马克·扎克伯格之前的想法又不谋而合了。