人工智能革命 豆瓣-腾讯研究院研究员刘璐:拥抱人工智能革命从碎片化向复杂化演进
Executive editor of Backchannel @ Conde Nast, formerly of Medium
编译:徐思彦 腾讯研究院研究员
刘 璐 腾讯研究院助理研究员
虽然语音识别、读唇和图像识别技术已经取得了显著的成就,但这并不意味着它们是一种伟大的、全能的人工智能的基石。对人工智能的部署主要有两个方向:一是利用计算机强大的运算性能对大量数据进行分析,从无限的方案中帮人们选出最优。其二是利用计算机网络模拟人类神经网络,让计算机模仿人类思考,而计算能力又高于人类。2016年的阿尔法狗人机大战属于后者。而这次胜利仅仅只是一个开端。种种迹象表明我们将很快从这些单薄、碎片化的智能转向更丰富和更复杂的智能。
▼▼▼
拥抱人工智能革命
从碎片化向复杂化演进
如果你努力期待并且了解到我们所说的“智能”,它一定不只是解决某个问题,而是大量的难题。一个成功的人工智能代理能够展示迁移学习能力,及一定程度的敏捷性和推理能力。一个深度学习所驱动的世界就要到来了,我们没有其他选择,只能双倍押注,奔赴这未来。
- 01 -
2016年底,白宫发布了一项关于人工智能和经济发展的耸人听闻的报告。报告首先指出“我们预计,机器会继续在很多项工作上达到并超过人工所能达到的水平”,它还警告了大量的工作机会的丢失。
然而,为了应对这一威胁,政府提出了一个看起来很荒谬的倡议:我们应该加大对人工智能的投资。人工智能对于生产力和美国的竞争优势的风险如此之高,以至于我们没有其它的选择,只能够再对它双倍押注。
这种方法不仅是有道理的,还是唯一明智的做法。当然,我们会担忧(这是无可厚非的)成千上万的工作会被无人汽车和无人卡车所颠覆,但我们还有大量的需求需要机器学习来帮助满足。我们的医疗系统仍然有重大缺陷,智能代理能够在更多的地方,向更多的人推广便宜且高质量的医疗服务。
另外,我们的教育基础设施仍不足以使学生应对迫在眉睫的经济巨变,而人工智能系统能够在教师资源不足的地方发挥作用。通过开发更智能的设备,我们或许能够减少对能源的依赖,正如谷歌下属的DeepMind公司为其母公司的能源节约使用所作的贡献。这些都是不容忽视的机遇。
更重要的是,我们必须超越对当前工作威胁的狭隘考虑,因为今天以谷歌为代表的人工智能领导者正在为一个更有野心的前景——也就是普遍的人工智能奠定基础,这在从前只是白日梦。
探究人工智能的前沿就需要观察机器学习系统是如何经常地在狭窄、特定的领域超越人类。今年,大多数令人瞩目的人工智能与人类之间的对决都出自于谷歌。今年三月份,全世界最顶尖的围棋手在与DeepMind发开的AlphaGo的对抗赛中遭遇惨败。DeepMind研究者还开发了一款能够读懂视频的唇语的系统,其精准度远远超过了人类所能及。数星期前,谷歌的计算机科学家与医疗研究者合作发布了一项算法,它能够像眼科专家一样基于眼睛的图像检测出糖尿病视网膜病变。目前,很多公司都在追求通过医疗扫描的自动化分析来协助医生的大目标,这项技术朝着这个大目标迈向了一步。
同样的,在去年秋天,微软公布了一个系统,它能够以比专业速记员更高的精确度来转录人类语言。语音识别是Cortana、Alexa 和Siri等系统的基础,而这项任务中的人类表现匹配则是几十年来的目标。对于微软的首席语音科学家Huang XD来说,“对个人来说,这就像是一个梦想在三十年后终于实现了一样”。
但是,2016年人工智能对战人类的胜利仅仅只是一个开端。种种迹象表明我们将很快从这些单薄、碎片化的智能转向更丰富和更复杂的智能。虽然距离真正普遍的人工智能至少还有几十年的时间,但随着这些系统的应用范围不断扩大,社会将会见证巨大的改变。这就是为什么白宫(至少在奥巴马在任期间)并没有回避人工智能。我们正在发展着一种可能改造全人类行动的巨大力量。
忽视这一趋势——不尽全力去理解它、塑造它、操控它——很可能是一个国家最大的错误。
- 02 -
上述成功的人工智能的例子中,选择的工具是深度学习:它的特性是能够实现一个更普遍的人工智能。
虽然在过去的几十年间,我们已经能够训练人工智能来完成一些工作,专家们还是要艰辛地为每一个应用来亲手设计很多特定的技术。例如,帮助人工智能识别影像的数年的辛苦工作对于识别语音的问题毫无帮助。换言之,我们必须要一遍又一遍地帮人工智能咀嚼食物。
过去四年的经验告诉我们,现在大部分辛苦的咀嚼工作都是无用的。实际上,有一个关键的算法(包括很多小的变型)可以通过调整自身的结构,直接根据你所提供的大规模的数据来解决问题。其结果不仅是表现更佳的系统,还有更快的实验。“以前我们千辛万苦却停滞不前的大量工作,现在只用6个月就能够基本完成了”,谷歌副总裁、工程师Fernando Pereira说。
虽然语音识别、读唇和图像识别技术已经取得了显著的成就,但这并不意味着它们是一种伟大的、全能的人工智能的基石。这就像是你的孩子在英语、编织袜子筒、躲避球和计算三角形斜边等学科上都得了A。你却很有可能在想,这个孩子能够将这些领域联系起来而成为一个批判思考者吗?同理,深度学习真的在挑战人类智慧的道路上吗?
“我们现在看到的系统的应用范围都非常狭窄,主要原因是因为它们非常实用”,Ilya Sutskever,OpenAI的合伙创始人、研究中心主任认为,“好的翻译十分有用,好的癌症扫描也十分有用,因此人们都在追求这些。”
但他补充到,虽然现在的系统看起来狭窄,但我们“已经开始看到了普遍化的种子了”。原因在于基础技术都是在一个概念上的反复重复。“这些想法都能够相互结合,就像是黏土一样。如果你糅合和匹配它们,就能够使它们发挥作用。”
通过糅合和匹配目前狭窄的系统,我们将会实现一种更大、更广阔,而且更智能的东西。
- 03 -
谷歌的翻译研究作为一个较早出现且有吸引力的案例,展现了未来的更高端的智能可能的模样。在9月份,谷歌发布了一个重大的谷歌翻译的性能更新,使用了一个名叫谷歌网络翻译的系统(GNMT)。谷歌的Pereira称这次跨越为“我从没想过会在我工作生涯里能够看到的东西。”
“我们一直在稳步前进,”他补充,“这不是一个平稳的进步。这是重大突破。”
随着新的谷歌翻译一门一门地拓展语言,一些谷歌工作者决心更进一步。他们在思考能否建立一个单独的翻译系统能够同时处理多门语言,而且还有可能展现迁移学习能力——一个人类智能的标志。迁移学习指的是能够应用一门技巧(如弹钢琴)来加速其它技能的掌握的能力,例如指挥管弦乐队或学习其它的乐器。
显而易见,了解音乐基础能够帮助一个钢琴师学习尤克里里,但这并不是语言翻译的原理。在谷歌神经网络翻译,一个深度学习系统必须吸收百万的德译音翻译,并自学将德语的“红色狗”翻译成英语。而另一个单独的系统则独立学习如何反方向翻译,从英语转换成德语。同样的,法语译英语,英语译法语,韩语译日语等,任何两组语言都使用其独立的体系,就像是每一次都发明了新的翻译。为了支持100种语言之间的翻译,你可能需要训练10000个独立的系统。这非常耗时。
这些研究者想要知道他们能够为多种语言建立一个单一的模型,而不是许多一次性的系统。首先,它可能会更有效率。而且当所有的词汇和语言在一个单独的体系内相互碰撞,可能会产生一些有趣的东西。
他们从一个小的点出发,训练了一个针对葡萄牙语和英语、英语和西班牙语的神经网络。到目前为止,一切都进展顺利:这个单独的多语言系统几乎和最先进的的GNMT在英语和西班牙语或葡萄牙语之间的翻译表现得一样出色。接着,他们想:如果没有看过任何一个葡萄牙语和西班牙语间的翻译的例子,这个算法能否实现西班牙语和葡萄牙语之间的翻译呢?
正如他们在11月份所发布的,他们获得的结果是“相当好的质量”,虽不是完美得令人震惊,但对于一个新手来说还算不错。但当他们将一小组葡萄牙译西班牙语的语句组合输入进系统(像是开胃菜一样的数据),这个系统突然变得和GNMT的葡萄牙—西班牙翻译模型一样好了。这对于其它的语言也是有效的。正如谷歌的程序员在报告中所述,“就我们所知,这是第一次在机器翻译领域出现了真正意义上的迁移学习。”
我们很容易忽视使其不同寻常的原因。这个神经网络使用间接的信息自学了一个基本的新技能。它几乎没有学过葡萄牙语和西班牙语翻译,但它却能完成这项工作。在这个系统深处,程序员似乎看到了词汇共同的本质,意义的精髓。
谷歌的Pereira这样解释:“这个模型有一个共通层适用于任何语言之间的翻译,这个共通层代表了独立于语言的、文本的大部分含义,”他说,“这是我们前所未见的。”
当然,这个算法的推理能力非常有限。它不知道企鹅是一种鸟,或者巴黎在法国。但是它预示着即将到来的事物:一个新兴的智能,它能够基于不完全的例子而在认知方面有巨大跨越。如果深度学习尚未能在你所关心的领域上击败你,再等等,它早晚会战胜你。
- 04 -
训练一个系统来做很多事情就是开发一个普遍的智能的工作,激活这些过程是人工智能推动者现在的核心关注点。在这个月初,由Elon Musk和 Sam Altman构建的研究团队OpenAI发布了Universe——一个能够训练智能系统的环境。它不仅能够完成一项工作,还能够在来回穿梭以完成不同的任务。
正如合伙创始人Sustkever所说的,“如果你努力期待并且了解到我们所说的‘智能’,它一定不只是解决某个问题,而是大量的难题。但是好的、智能的总代理人到底指的是什么意思呢?现在还没有完全显而易见的答案。”
因而他和他的研究团队设计了Universe来帮助其他人测量人工智能代理的问题解决能力。它包括了一千个雅达利(编者注:Atari 知名游戏开发商)游戏,Flash游戏,和浏览器任务。如果将你在搭建的各种人工智能输入进Universe这个训练场,它会配备人类所使用的同样的工具来控制一台电脑:一个观察行动的屏幕,一个虚拟的键盘和鼠标。
其目标在于让人工智能学习如何控制一个Universe环境,例如第三代银河飞将,然后快速将这一经验用于下一个环境的学习,可能是另外一个游戏,例如粘粘世界,或者其它的完全不同环境的,例如Wolfram Mathematica(科学计算软件)。一个成功的人工智能代理能够展示迁移学习能力,及一定程度的敏捷性和推理能力。
这一方法并不是史无前例的。在2013年,DeepMind发布了一个基于深度学习的算法,它在接受测试的过程中独立发现了如何成功通关7个中的6个雅达利游戏。在三个游戏(Breakout, Enduro, Pong)中,它比一个人类专业玩家表现得更好。Universe展现了放大版的DeepMind的成功故事。
随着Universe的发展,接受训练的人工智能能够开始学习大量电脑相关的有用技能。毕竟,它本质上是通往一个当前办公室任务的入口。Universe环境的多样性甚至能允许智能代理学习一些很难收集到的广阔世界的知识。
从一个Flash和雅达利游戏冠军到一个能够改善医疗质量的代理人还有相当的鸿沟,但那是因为我们的智能系统还在“幼儿园”。在过去许多年,人工智能甚至还没有达到这一步。目前它正在走向一年级、中学人工智能革命 豆瓣,和最终的高等阶段。
当然,结果是不确定的,而且也是非常让人不安的。但我们现在有一个选择。我们可以尝试拒绝这个我们既无法控制也无法预测的朦胧的未来,并且逃避科技所带来的无法预料的、可能带来巨大不安的风险。或者我们可以积极地引导它创造最大的社会收益,努力推动我们所期待的未来。
在这点上我和白宫的立场是一致的。一个深度学习所驱动的世界就要到来了人工智能革命 豆瓣,我们不妨直接奔赴这未来。