人工智能 人机交互-侯光敏:人工智能人机交互深度学习远场语音识别
侯光敏 深圳暴风统帅科技有限公司
摘要:无论是传统电视还是智能电视,要解决的问题都是一样的,即“如何让用户方便地获取内容”。这里有两个关键点:“方便”和“内容”。在方便性上,传统电视和互联网电视差不多,都是基于遥控器进行人机交互;“内容”是传统电视和互联网电视最大的不同点,这个无需赘述。而人工智能技术的长足发展,正在这两个关键点上都大大提升了用户使用体验。
关键词:人工智能 人机交互 深度学习远场语音NLP自然语言处理ASR语音识别
“人工智能(AI)”的概念1956年就已经出现了人工智能 人机交互,但是受限于当时计算机的运算能力和算法理论,并没有应用于实际生活,了解的人自然不多。随着 GPU 能力和深度学习理论的发展,人工智能技术终于从实验室理论进入到产品化阶段,在各个领域开始突飞猛进。互联网电视就是其中之一。
在讨论电视应用人工智能技术之前,需要厘清一些基本概念:所谓人工智能是指人造机器表现出来的智能。这种智能可能模拟人的思考,也可能完全异于人,目前阶段研究的核心主要还是“像人一样自我学习”。机器学习是人工智能的一个分支,深度学习又是机器学习的一个分支。完全异于人思考方式的研究,还是个天马行空的哲学问题。
无论是传统电视还是互联网电视,要解决的问题都是一样的,即“如何让用户方便地获取内容”。这里有两个关键点:“方便”和“内容”。在方便这点上,传统电视和互联网电视差不多,都是基于遥控器人机交互;“内容”是传统电视和互联网电视最大的不同点,这个无需赘述。而人工智能技术的长足发展,在这两个关键点上都大大提升了用户体验。
先说方便
由于人工智能技术在自然语言处理(NLP)领域已经能够达到90% 的意图识别率,所以直接使用自然语言控制电视获取内容成为可能。这里要强调的是“自然语言”,类似“给我来点跟《教父》一样水准的欧洲黑帮电影”这样的语言才是自然语言,而不是某些品牌厂商经常使用的“音量增加百分之二十”这样的“机器语言”。对自然语言的理解和反馈是衡量一台电视机人工智能水平的关键指标之一。
前几年用语音遥控的电视并不能叫做人工智能电视,最主要的原因就是只能识别固定的指令,而人工智能电视不仅能够理解自然语言,而且能够联机自我学习,举一反三理解更多用户的意图,越用越准确。
人类在对话过程中,会自动带着上下文。比如用户在第一次对话中问:“有什么好看的电影”,接下来他可能会问“不要好莱坞的”或者“只看今年的”,这种对话方式都是基于上下文的对话,我们叫做多轮对话。是否支持多轮对话也是衡量一台电视人工智能水平的关键指标。
除了语义理解,方便性还体现在远场收声能力。它可以让用户不再需要拿着遥控器“按住说话”,而是在客厅的任意位置呼唤电视和它对话。典型的场景是:“暴风大耳朵,最近有什么好看的片子推荐?”、“鱼香肉丝怎么做?”、“明早七点提醒我去机场”
远场收声是通过麦克风阵列实现的,麦克风阵列以前一直是实验室的研究对象,直到亚马逊推出Echo 智能音箱,终于实现了规模产品化。麦克风阵列最少需要两颗麦克风,目前市面上有 4Mic、6Mic 甚至 8Mic 方案。
阵列可以从背景噪音中感知用户说话的特殊波形,通过波束成形技术准确地向用户所在位置的方向定向收声,忽略其他方向的杂音。厂商会根据设备的特性选择不同的麦克风阵列,一般来说电视用的是线性麦克风人工智能 人机交互,智能音箱采用的是环形麦克风
笔者一直关注亚马逊 Echo 的发展,在实际体验过程中发现,纯粹的语音交互目前还存在比较大的缺陷,反而是把远场语音应用于电视后体验会更好。举个例子,用户面对一个完全没有显示的智能音箱,基本上不知道该怎么说才能操作;而面对有大屏的电视,用户的紧张感会减轻很多,因为屏幕时时刻刻在提醒用户当前可以说什么样的话来操作电视。谷歌把这种交互方式叫做“视觉反馈”,并把这种反馈交互模式应用于今年十月份刚发布的最新的“Google Assistant forAndroid TV”系统,目前暴风 AI 电视的交互也是类似的模式。与此同时,亚马逊也意识到这个问题,并很快推出了带有屏幕的“EchoShow”作为补充。
目前最新的技术已经不仅能够识别人声,而且能够区分不同人的声纹,实现更加高级的操作,比如购物、支付和个性化推荐。国外的亚马逊和谷歌,国内的讯飞、若琪都拥有该项技术。自然语言理解能力和远场语音处理能力最终会让电视机用户摆脱遥控器,在人机交互上产生巨大的飞跃,这种飞跃不亚于当年苹果推出没有键盘只有触摸屏的 iPhone 手机。
再说内容
除了自然语言理解,人工智能在个性化内容推荐上的应用其实更广泛。AI 可以从大量用户对话和用户行为中抽象整理出用户的“话外音”,了解用户的喜好习惯,然后根据这些特征主动推荐用户可能喜欢的内容给他。有时候,系统会推荐给某个用户从来没有接触过的内容类型,用户会惊呼“原来这个这么好看”,他可能自己都没有意识到这种内容会对自己的胃口。这种智能推荐已经在互联网产品中大量应用,典型的就是今日头条。传统的个性化内容推荐主要是基于标签体系。首先运营人员要对所有的内容“打标签”,比如“恐怖”、“热血”、“二次元”、“都市”等等,工作量极其巨大,而且准确与否完全依赖于运营人员的水平;然后系统再根据用户行为对用户进行画像,抽取标签进行匹配。这个过程中诞生了各种专业的推荐算法,技术人员随时调整各项参数优化算法,提高打开率。
基于 AI 的个性化推荐系统和传统推荐系统有区别也有联系,区别最大的地方就是标签体系。AI 推荐系统里的“标签”实际上是系统自动从内容和行为日志等记录里自动提取的,不需要运营人员的参与。例如从电影的元数据(主演导演简介等)里分词提取属性标签,从用户的微博、豆瓣评论里分词提取用户的属性标签,然后依托 GPU芯片进行大规模的矩阵运算,把高维度的向量数据逐步降维,最后简化到三维空间,根据三维空间里的聚集情况给出推荐。原理类似于传统推荐系统里的“协同过滤”。简单讲,就是假设一个人喜欢某个电影,那么他的好朋友也有可能喜欢那个电影。
“千人千面”的个性化推荐反过来又推进了电视界面的变化。 传统电视用“节目排播表”概念来编制频道,用户爱看不看错过了就等下次;互联网电视则完全基于点播模式,海量内容给你随便看自己找不到别怪我;基于 AI 的智能电视则是把传统的“人找内容”变成了“内容找人”,AI 把你可能喜欢的菜端到你面前,先尝后买。“尝”就是给用户预览完整影片中的精彩桥段,用短片引导用户看长片,降低了用户的选择难度节省了用户的时间。请注
意,精彩桥段可不仅仅是电影的宣传 VCR,如何挑选桥段也是一门学问,可以另起一篇了。
更大的可能性
人工智能在电视应用的场景不仅仅是人机交互和影视内容推荐,它可以用来做任何内容服务的推荐。前面讲到使用远场语音改变了电视的人机交互模式,所以电视界面不再受传统电视的树状菜单结构束缚,可以容纳更多的内容服务,并且用户可以直达服务。
具备人工智能特点的电视,典型的使用方法是这样的:
●“帮我找个八十年代的经典文艺片看看”;
●“随便放点周杰伦的歌”;
●“再买点上次买过的那种三元牛奶”,“对”,“再买两盒”;
●“去大鸭梨怎么走”,“对,就是最近的那家”;
●“半小时后提醒我关火”;
●“晚安(关闭家里的智能电器设备,并且让电视机休眠)”。
可以看到,应用人工智能技术的电视机已经大大超越了传统电视机的使用方法和使用范围。电视机可以帮用户挑选内容,挑选服务,帮用户控制智能家电,提醒用户备忘,甚至帮用户下单购买日常用品等等。上述这些不是设想的场景,而是已经成为现实的场景。
电视还是电视,但电视机已经早已不是电视机,它已成为家庭助手的一个大屏终端。而这个“家庭助手”的大脑,就是人工智能。