我的人工智能贾维斯-芮勇：微软亚洲研究院常务副院长芮勇担任国际多媒体权威学刊

发布时间：2023-06-29 09:20 浏览次数：次作者：佚名

我的人工智能贾维斯_贾维斯x托尼18人工_红米note智能人工语音

C新智元推荐

我的人工智能贾维斯_红米note智能人工语音_贾维斯x托尼18人工

贾维斯x托尼18人工_我的人工智能贾维斯_红米note智能人工语音

芮勇博士现任微软亚洲研究院常务副院长。在此之前，芮勇博士在美国微软总部工作了7年，先后担任微软亚太研发集团首任战略总监、研发总监，以及微软亚洲工程院副院长及微软亚太研发集团中国创新孵化部总经理。芮勇在微软的17年涵盖了企业研发的四大支柱：战略制定、基础科研、创新孵化及产品开发。芮勇是国际电气电子工程学会会士（IEEE Fellow）、国际模式识别学会会士（IAPR Fellow）、国际光学工程学会会士（SPIE Fellow）和国际计算机协会杰出科学家（ACM Distinguished Scientist）。芮勇担任国际多媒体权威学刊IEEE Multimedia Magazine主编，他还是许多一流国际会议的组织委员会和程序委员会主席。

微软亚洲研究院的人工智能2015

人工智能的春天又回来了。

近几年，大数据、机器学习和云计算等新兴技术的发展让人工智能的影响力日益壮大，业界关于人工智能的讨论和尝试也非常多样。身为在计算机领域探索多年的研究人员，我认为这一现象非常鼓舞人心，我们诚然生活在一个“技术的黄金时代”。

人工智能的英文是Artificial Intelligence，简称AI。1956年，在达特茅斯学院举行的一次会议上正式确立了人工智能（Artificial Intelligence）的名称，以及研究领域和任务。这次会议影响深远，该会议的组织者包括马文·明斯基（Marvin Minsky）和约翰·麦卡锡（John McCarthy）等人，他们和这次会议的其他与会者们一起成为了人工智能最早的一批研究先驱。

我的人工智能贾维斯_贾维斯x托尼18人工_红米note智能人工语音

今年是2016年，距离达特茅斯会议已经过去了整整60年。中国古代纪年法中，用十天干和十二地支相组合，60年便是一个轮回，称为六十甲子。人工智能在诞生之后经历了黄金年代，经历了20世纪70年代中后期的低谷，经历了短暂的繁荣，也经历了人工智能的寒冬。如今，人工智能再次回春，六十甲子一轮回我的人工智能贾维斯，因此对于我们来说，2016年更是人工智能技术的一个新的开端，我最大的心愿便是在2016年这个新轮回开始的第一年，能看到划时代的研究进展和突破。

如今，人工智能已经不是一个仅属于研究机构和学者们的概念，而是逐步进入我们的生活，这些技术大多数时候默默地站在幕后，悄无声息地改善着人们的计算体验。过去的2015年，在微软众多对外发布的产品和服务中，我们都能找到人工智能的影子，这也离不开微软亚洲研究院在计算机基础研究领域日复一日的耕耘，用一次又一次的研究突破，用开放的心态积极与社会各界展开合作，一起共同推动整个计算机行业的技术进步与革新。

人机交互的第一入口：语音识别

人工智能都可以帮助人做些什么呢？长久以来，语言一直都是人与人之间交流的障碍，那么能否让人工智能充当人与人之间的翻译呢？微软推出的Skype Translator 实时语音翻译系统就成功满足了这一类需求。

贾维斯x托尼18人工_红米note智能人工语音_我的人工智能贾维斯

早在2012年10月25日，在由微软亚洲研究院主办的第十四届“二十一世纪的计算大会”现场，我们首次公开演示了微软实时语音翻译技术。时任微软研究院全球负责人的Rick Rashid在用英语演讲时，现场的国内观众们却借助了神奇的实时语音翻译工具，听到了用Rashid的原音讲述的汉语普通话。当时的语音识别系统在演示中实现了小于7％的误差率，几乎与真人做字对字笔录时的水平相当。

这次展示很明确地预示了深层神经网络语音识别和实时语音翻译时代的到来。随后，这一技术原型便迅速被转化成产品，成功应用到了Skype Translator中。在微软亚洲研究院的团队和美国的同事们的密切合作下，2015年4月，Skype Translator 实时语音翻译的中文预览版登录中国，让英文和中文普通话之间的实时语音对话变为现实。

在Skype Translator上我们可以看到深度学习技术对语音识别准确度毋庸置疑地提升。如今在较为理想的环境中，语音识别的准确度已经在95%以上，与人类的识别能力相差无几。但对于语音识别领域的研究来说，仍有一些亟待解决的问题。当计算机处于较为嘈杂的环境，或是麦克风收音效果较弱的情况下，识别准确度便大大降低。

一个被称为“鸡尾酒会效应”的问题能够很好地描述这种情况。如果我们正在参加一场鸡尾酒会，和七八个人同时交谈，那么如果我们想主要听某一个人的发言时，我们人类就能自动过滤其他人的发言，让我们的注意力集中在这个人的发言内容上。可是当计算机处于这种环境下时，面对多个声音交织的情况，想要辨别出特定某人的声音并识别出来还是十分困难的。

其实，语音识别只是一个开始。计算机把人类的语音识别出来，将音频信号转化成文字信号的这个过程必然意义重大，但这并不代表计算机真正理解了这句话的意思。因此语音识别的下一步便是对语义的理解。我所提到的这个语义理解可能比我们通常所说的自然语言理解层次更高一些、难度更大一些。因为面对同一句话，如“我想静静”或者“他要请我吃饭”，不同的语调、语气、重音都会带来不一样的理解。因此我说的语言理解是包括从语音到语义，直至理解句子的言外之意这一整套过程的，这在技术实现上还有一条很长的路要走。

说起语音识别，其实不仅是微软，行业内各大公司都会把它放在一个首要的基础位置上。如果说实现人工智能是我们的最终目标，那么语音识别技术很可能就是人工智能的一个关键入口。为什么我会这么说呢？对于技术公司来说，成为平台型公司一直是努力的目标。例如，操作系统就是一个很好的平台。时下我们也能看到一些很好的平台，如电商平台、搜索平台，还有人与人之间交流的平台等，与之对应的国内有BAT，国外的微软、谷歌、Facebook、亚马逊，都拥有自己的核心平台。那么下一个平台会是什么呢？

我认为，人工智能时代，一个人工智能助手将会成为一个很好的平台，就像《星球大战》中的BB-8，或者钢铁侠中的贾维斯（Jarvis）。人们与人工智能助手最常见的交互方式就包括语言的交互。那么想要做好人工智能助手，语音识别和自然语言处理可能就会成为这个平台入口的核心。

借一双慧眼：计算机视觉

近年来，深层神经网络的复兴为计算机带来的革命突破不仅是语音识别，还有计算机视觉。人类所获取的外部信息70%都来自于视觉，人类与周围世界的沟通和交互极其依赖图像。当计算机也能“睁开双眼”看懂世界，计算机离智能也就更近了一步。

那么，目前计算机视觉系统有多精确呢？2015年1月，微软亚洲研究院的一个四人计算视觉小组成员在ImageNet计算视觉识别挑战赛中便实现里程碑式突破，计算机识别物体的能力首次超过人眼，系统错误率已经低至4.94%。而在此前同样的实验中，人眼辨识的错误率大概为5.1%。

ImageNet计算机视觉挑战赛由来自全球顶尖高校和公司的研究员组织举办，近年来已经成为计算机视觉领域的标杆，其比赛结果总能十分直观地反映出计算机视觉这一热门领域中各研究机构的研究进展和突破。在ImageNet比赛中成功登顶并超越人类，在计算机视觉研究上意义重大。

当然研究员们并不仅以超越人类的识别能力为目标。到了2015年12月，在微软亚洲研究院首席研究员孙剑的带领下，这个四人研究小组再次做出突破，以绝对优势获得图像分类、图像定位及图像检测全部三个主要项目的冠军，该系统识别错误率已经低至3.57%。同一时刻，他们在另一项图像识别挑战赛MS COCO（Microsoft Common Objects in Context，常见物体图像识别）中同样成功登顶，在图像检测和图像分割项目上击败了来自学界、企业和研究机构的众多参赛者。

这两个挑战赛的侧重点各有不同：ImageNet 倾向于评测识别图像中显著物体的能力，而MS COCO倾向于评测识别复杂场景中各类物体的能力。能同时在两个世界级的比赛中获得冠军，足以说明研究组的技术突破是通用的，那么是何种技术让他们在计算机视觉领域中的研究屡获突破呢？

我的人工智能贾维斯_贾维斯x托尼18人工_红米note智能人工语音

红米note智能人工语音_我的人工智能贾维斯_贾维斯x托尼18人工

答案是研究员们构建了一个152层的深层残差网络（Deep Residual Networks），他们还使用了一个全新的“残差学习”原则来指导神经网络结构的设计。残差学习最重要的突破在于重构了学习的过程，并重新定向了深层神经网络中的信息流。残差学习很好地解决了此前深层神经网络层级与准确度之间的矛盾。这个深层残差网络显示出了非常强的通用性，藉由此次的突破，相信会有更多的研究人员们能够从中汲取灵感。

贾维斯x托尼18人工_我的人工智能贾维斯_红米note智能人工语音

聚沙成塔：牛津计划，开放的人工智能技术平台

假设我们现在有一位开发人员，他想开发出一个健身类的应用，他有很多新奇的想法，想要开发出很多有趣的功能放进自己的应用中，如从照片中识别出用户，或者理解锻炼者的语音指令。但是这些多样的功能都只能通过复杂先进的机器学习来实现，而这位开发人员却没有实现它们所需的时间或资源。在这个时候，如果有一个这样的智能平台把这些技术开放出来就会非常高效。

微软在人工智能、语音识别、计算机视觉上投入巨大，并已经在相关领域取得了很多优秀的研究成果，我们也非常想把一些核心技术放在这样一个智能平台上，使得第三方的开发者更容易站在巨人的肩膀上，而不再是从零开始，他们可以更专注于他们想开发的应用，而人工智能的核心技术就直接从我们的平台上使用就可以了。现在我们开放出了这样的一个平台，我们称为Project Oxford，牛津计划。

我的人工智能贾维斯_红米note智能人工语音_贾维斯x托尼18人工

微软牛津计划是由一系列基于云的机器学习相关的API、SDK和相关服务等组成，自2015年4月推出以来，这个平台目前已经涵盖了很多人工智能的方向，包括视觉、语音和语言等。在视觉方面，我们有对图形的理解、分析和处理。有对人脸的识别、检测、验证等，甚至包括人脸面部情绪的分析。此外还有视频中的人脸追踪、运动检测等。在语音方面，有语音识别、声纹识别。在语言方面，有拼写检查、语言理解等功能。

2015年，有一个火爆全球的“颜龄”测试应用叫“How-old.net”，它会基于你上传的照片，利用人脸定位技术检测照片中人脸的特征点，根据特征点猜测人的颜龄。这个应用其实就是微软的两位工程师利用牛津计划中人脸识别API开发的，整套解决方案也就花了几个小时的时间，代码也才不到20行，搭建起来十分迅速。于是在网站建成后的几小时时间里，成千上万的用户疯狂传播，席卷全球，它的受欢迎程度也完全超乎我们的想象。牛津计划中的面部表情分析也十分有用，它能让计算机学会“察言观色”，观察出你面部表情的变化来计算出你情绪的变化，开发人员就可以基于此轻松开发出许多有趣的应用了。

贾维斯x托尼18人工_红米note智能人工语音_我的人工智能贾维斯

微软牛津计划自2015年的Build开发者大会首次推出以来经历了多次更新，更多的功能被逐步添加进来，这其中也少不了包括微软亚洲研究院在内多个技术团队的支持。2016年3月在Build开发者大会上，也推出了更多的功能更新。

聚合的智能：微软AI姐妹花小冰小娜

1991年，微软研究院创立时，比尔·盖茨希望研究院能够致力于让未来的计算机能够看、听、学，能用自然语言与人类进行交流。这是一个与AI研究关联紧密的梦想。二十多年来，我们时刻在为之努力。当计算机对人类多种感官的模拟不断完善聚合，一个聚合智能的人工智能助手就这样诞生了。

贾维斯x托尼18人工_红米note智能人工语音_我的人工智能贾维斯

在微软，有一对人工智能姐妹花叫小冰和小娜。小冰是微软（亚洲）互联网工程院开发，集合了微软亚洲研究院众多研究成果的一款人工智能聊天机器人。微软小娜则是微软（亚洲）互联网工程院基于Cortana，深度本地化再创新的一款人工智能个人助理，扮演的是知书达理的女秘书形象，帮助用户做好日常的行程计划安排。

小冰和小娜可谓是集大成的人工智能机器人，她们将看、听、说等类似于感官所获得的信息融为一体，共同形成接近于人的感知和一定程度的认知。而对于这种集大成的智能，我们称为聚合的智能。你可能觉的这些技能看着很简单，其实在她的背后融合了计算机图像识别、语音识别、自然语言处理、文本转语音、机器学习、社交网络情感计算等不同方向的人工智能技术多年来的累积和沉淀。而这些能力的组合，便是人工智能的智力集合。微软亚洲研究院的技术更像是幕后的隐形人，你虽然看不见他们的运作流程，但在和小冰对话的过程中却能潜移默化地感受到技术的神奇。

以图片识别为例，小冰就采用了微软亚洲研究院视觉计算组开发的基于深度卷积神经网络（CNN）的计算机视觉算法系统，将我们在ImageNet挑战赛中的成功经验用于其中。在语义分析环节，小冰通过深层神经网络等的机器学习算法，不断学习过去的历史信息，建立相应的数学模型。通过机器学习互联网和社交平台等文本内容，进行数据挖掘得出相关的主题，这是机器学习和文本理解的基础。在决策环节，小冰采用了多种联合决策机制，以实现带有情感的高效机器决策。这其中采用了分布式词向量训练模型算法，更好地计算两个词之间的“情感距离”，以关系的“远近”帮助小冰更好地决策。在输出环节，小冰大量学习人类的表达方式，从中识别出带有不同情感色彩的表达方式，再结合不同对话的上下文语境，以个性化的语言方式表达出来。

正是大数据、深度神经网络等技术的发展与突破，让小冰兼具“有趣”与“有用”，实现了超越简单人机对话的自然交互，并以此与用户建立了强烈的情感纽带。现在微软小冰从最初不到100万的使用人数到现在的4000万人，而人类用户与小冰的平均每次对话轮数也高达23轮。而此前最领先的同类人工智能机器人，平均对话轮数仅有1.5～2轮。你可以设想一下，在平时，大部分情况下人与人的沟通回合也未必能达到23次，但跟小冰这个机器人竟能聊这么久，可见用户和小冰之间有着非常强烈的情感联系。

目前微软小冰和小娜已经登录了多个平台，也包括 iOS 和 Android 平台。所以目前小冰和小娜是支持跨平台、跨设备的，你在一台设备下设定任务，另外一个设备能够同步为你服务。今天微软可能是唯一一家有跨设备、跨平台助手的公司。

那么未来像小冰和小娜这样的人工智能助理应该如何发展呢？对于人工智能助理又应该有哪些衡量标准呢？我认为这其中有三个“度”，分别是广度、深度和温度。

第一是有广度，它的知识面越来越宽了，可能上到天文地理，下到日常生活，无论是什么话题，她都能和你聊起来。第二是深度，它不仅什么东西都知道，在一些专门的领域还能做得特别深入，就像我们人类一样。人类都有自己不同的专长，几年之后人工智能助手也能像人一样“有所长”，如能够担任你的工作助理，或是医疗助理、语言学习助理等。第三个度是温度，人工智能助手和你能有情感层面的交流，它知道在你生日的时候为你准备惊喜，也知道如果你之前睡眠质量不好或睡太晚，今天会提醒你早点休息，或是给一些助眠建议。

当人工智能助理有了广度、深度和温度，我们理想的人工智能便离我们不远了。

2016年，人工智能的新纪元

人工智能的春天再次来临，关于人工智能的过论也越来越多。对于大众来说，对人工智能技术的发展现状还是一知半解的。人工智能威胁论，比如他们会取代人类的很多工作，如好莱坞电影中常见的人工智能最后反过来控制人类等，大家对人工智能有种陌生的敬畏感。但反过来人们也是非常期待人工智能的，因此在接触到现实生活中的人工智能产品时，又往往会产生落差感。

为了方便大家理解人工智能发展到了什么程度，有人提议以人的年龄作为评判依据，试图找到现在人工智能的智力水平究竟相当于人类多少岁的智力水平。事实上这个问题是无法回答的，因为目前的人工智能可以战胜50多岁的国际象棋特级大师，但人工智能目前的学习能力与正在每天吸收新知识的5岁入学儿童是完全无法相提并论的。那么我们究竟应该认为人工智能现在是50岁呢，还是5岁都不到呢？

我们从上面这个问题可以看到，人工智能发展目前所面临的挑战和障碍巨大，实现人工智能道阻且长，但归根结底制约人工智能研究的有3个主要因素。

实现人工智能，道阻且长

我的人工智能贾维斯_红米note智能人工语音_贾维斯x托尼18人工

首先是理论框架的制约，目前在理论和算法上我们还有很大的提升空间。例如我的人工智能贾维斯，以今天最成功的深度学习为例，它的理论框架也存在一定的问题。例如，深度学习今天都用的是BP算法，它的网络结构都是往前连接的，目标函数也都只有一个。但机器学习中有很多别的理论不是这样的结构，它们的目标函数也是不一样的，它的梯度下降算法也是不一样的。为什么深度学习就始终保持着一个结构、一个目标函数来做呢？这里面其实有更多的理论值得我们研究。

其次是运算能力的制约。虽然我们已经有GPU的Farm，但想训练一个大的网络其实还是会耗费大量的时间，此次ImageNet比赛中我们就在很多GPU上跑了很长的时间。开发一个新算法需要调试很多不同的参数结构等，如果我们能一分钟的时间内测试一个算法的话，我们就会有机会尝试各种不同的算法，也许我们在有限的时间内，在ImageNet挑战赛中能够取得更好的成绩。

最后是数据量的制约。我们目前还没有开发出像人类一样拥有自主学习能力的算法，目前的机器学习还需要大量的训练样本来支撑。机器学习中的参数越多，我们需要的训练样本就越多，最终的算法才会越精确。扩大训练数据的样本量有没有好的解决办法呢？可以从两个方面来考虑：一个方面是行业和行业之间建立一个协议标准，通过一个接口让不同行业之间的数据可以共享。另外一个方面就是智能设备和不同的传感器之间数据的输出和机器学习算法的输入也应该有个协议。有了这两方面的协助，机器学习的数据量就会迅速扩大，最终训练模型也会更为准确。

把握人工智能的脉搏：规划产业布局

如今人工智能的春天再次回归，这对整个的技术产业也提出了新的要求。我认为未来人工智能的产业布局将大致会分为6个环节，其中人工智能的应用将会发展为针对普通用户的交互和用于工业界使用的两大分支。

首先是最底层的模拟人脑的芯片的开发环节。今天的计算机芯片基本上还是基于冯诺依曼架构，这种架构对于一般的逻辑计算和存储都十分实用，但想实现人工智能，这样的架构可能就不那么理想了。目前有不少公司正在尝试能否开发出像人脑一样的芯片。

那么从底层往上走的第二个环节是介于硬件芯片和上层开发之间的类脑计算的结构和模块。有了模拟人脑的芯片硬件之后，研究人员就能够基于这类芯片开发出一些模拟人脑及思维方式的一些算法或者模块。目前无论是语音识别还是计算机视觉，都是在GPU上模拟神经元，模拟出很多层，但由于芯片的限制，层与层之间的反馈基本上是往前单向反馈的。今天的芯片需要大量的服务器和GPU才能模拟出人脑很容易就能做到的事情，这是远远不够的。

再往上一个环节是开发出分布式的、大规模的、双向前后反馈的机器学习的算法。微软亚洲研究院不久前开源的分布式机器学习工具包DMTK就属于这一类。

之后一个环节就是基于这些大规模的分布式算法，对人的看、听、说等各种感官的模拟，如计算机视觉、语音识别、语音合成，甚至人的一些思维等。现在做智能家居、可穿戴设备等公司的技术创新也主要集中在这个环节进行创新。

如果再往上，第五个环节是什么呢？我们的人工智能在这个时候已经能完成一些基本的任务，有了在某种程度上的智能（IQ），接下来就要去完善EQ，进行情感计算。例如，你的人工智能助手知道什么时候应该说真话，什么时候说“善意的谎言”。

人工智能最顶端，也就是第六个环节，我会称为增强智能（Augmented Intelligence）。计算机擅长的是记忆存储、逻辑推理、演算分析等目前可编程的工作，这与人类负责逻辑思考的“左脑”十分相似，其实人工智能就像是一个负责推理演算的“左脑”，它与人类的右脑相配合，便能够充分利用人类才有的创造力，延伸出无限可能，进而实现增强的智能。【相关阅读：从人工智能到增强智能】

红米note智能人工语音_我的人工智能贾维斯_贾维斯x托尼18人工

人工智能时代，我们能做什么

红米note智能人工语音_我的人工智能贾维斯_贾维斯x托尼18人工

人工智能是一个特别复杂的概念，他拥有非常多层的维度，如果只凭一些单独的个体，是没法把这件事情做成的。因此对于企业来说，非常重要的一点便是合作。大家都在期待人工智能实现技术的指数爆炸，实现这个一定是有一大批的研究者、企业和机构之间的相互沟通和相互合作。

我们非常高兴地看到，越来越多的科技公司都在开放或开源核心的人工智能技术。微软已经开放了很多人工智能技术，包括我在上文中提到的牛津计划，还包括Azure Machine Learning，以及不久前亚洲研究院开源的分布式机器学习工具包DMTK。我们不仅仅是开源某一个具体的算法，我们其实开源了一整套的分布式训练框架，使得任何别的机器学习的算法能在一个更大规模的分布式的系统上更加便利地进行计算。我们也相信，开放会是未来的趋势，因为只有大家相互合作，最后人工智能技术才可能整体地、稳健地向前迈进。

对于个人来说，在人工智能时代我们也有很多参与其中的方法。毫无疑问，人工智能一定是今后整个IT产业几个大的发展趋势中至关重要的一个。对于信息领域的在校学生来说，需要通过学习一些基础理论课程打好坚实的基础。对于目前的从业人员们来说，则需要保持好终生学习的习惯，IT产业日新月异，需要时刻包括整个产业的大趋势。

把握产业大趋势的方式有很多，如了解国家的发展方向和战略方向，和整个产业的发展方向相结合，从而找到自己的方向。其次是多参加一些产业界最前沿的会议，这是一种很好的吸取营养的方式。最后就是经常接触一些初创企业，如美国的硅谷、中国的中关村和一些产业园区和孵化器等，因为这些地方经常是一些最前沿想法发生的地方。

因此对于个人来说，把握好这四点至关重要：产业的发展趋势、国家政策的发展趋势、最前沿的一流学术会议，以及多接触初创企业。

2016年已至，未来已来。在新的开始，让我们一同携手拥抱人工智能，一同开拓人工智能的无限可能！

附录

贾维斯x托尼18人工_我的人工智能贾维斯_红米note智能人工语音