人工智能自动编码-中国工程院院士高文:5G技术与演进
3月20日,CCBN2019主题报告会在北京国际会议中心隆重开幕。会议现场,中国工程院院士高文就“5G技术与演进”给我们作主题演讲。以下是演讲实录:
高文:各位专家上午好!刚才听了张部长的报告,确实非常精彩。讲到广电近期重要的任务,我觉得这四个任务说得都非常到位。特别是前面怎么样融合到整个国家的发展、社会的发展当中,不管是从智慧广电、从县级媒体融合中心,从大数据、从超高清这些的角度,这四方面都非常到位。
今天我总结的内容跟张部长有一点呼应,今天我要讲两个问题:第一个问题,关于人工智能的3144,第二个问题,关于超高清技术标准的进展。在讲第一个问题之前,先把两个概念跟大家重复一下。
今天所说的人工智能,人工智能它是指机器,在机器上面实现的人类的智能。包括认知智能、感知智能、决策智能等等。
我们通常所说的人工智能,实际上是比较泛在的或广义的人工智能。说到现在技术实现的智能,其实分成两类:一类叫做强人工智能也叫广义人工智能,这个就是几乎所有人类拥有智能的行为机器都能做,这叫通用人工智能;另外一类人工智能叫狭义人工智能或专用人工智能,它是指特定的智能。比如人脸识别系统,它对人脸识别这件事,它是特定人工智能系统或狭义人工智能系统。狭义的人工智能和广义人工智能并不等同,并不是用几个狭义人工智能堆起来就是广义的人工智能,没有这么简单。有了这个概念,我们可以讲人工智能的3144。
人工智能的3144,第一个“3”,是说人工智能到现在为止经历了三个历史阶段。第一个历史阶段,叫做基于符号逻辑的推理证明阶段,第二个历史阶段,叫做基于人工规则的专家系统阶段。我想在座的专家,如果你差不多是40岁、45岁以上都会有印象,当你念书时很多同学做专家系统,那是第二阶段;第三阶段,从2006年到今天这个阶段,叫做大数据驱动的深度神经网络阶段。
第一阶段从1956年开始的,因为1956年有一个人工智能数据研究所,把这个数据研究所定义成人工智能的元年。元年开始以后,当时大家都认为,所谓人工智能是在机器上实现人的智能,人和动物最大的差别是逻辑推理,如果能进行逻辑推理就有智能。所以用计算机实现逻辑推理是当时最核心的动机。
为了实现逻辑推理当时采用布尔代数、演绎推理、三段论,后来有专门去设计,可以把推理的过程用计算机语言输进去逻辑设计语言,当时有两种:Lisp、Prolog。
第一阶段数学的几何定理证明。1956年,卡内基梅隆大学就罗素所著《数学原理》的定理做了证明。到1959年,洛克菲勒的数学家王浩把所有350条都证明了,这是比较顶级的工作。
那些工作,由于开始时很顺畅大家很乐观,1958年有两位非常著名的人工智能专家,提出非常著名的四个寓言,十年内,计算机将战胜国际象棋冠军,十年内,计算机将证明数学定理,十年内,计算机能谱曲,十年内,计算机将能实现心理学理论。做了数理证明其他遥遥无期,再加上一个英国学者在1973年写了一篇文章,对人工智能狠狠地泼冷水,所有人工智能项目都停止了,人工智能第一次跌入低谷。
1976年以后人工智能慢慢回暖,两个原因:一个原因是,搞人工智能的人反思了一下,人工智能老做阳春白雪,做数学定理证明不行,必须接地气,要做专家系统,让老百姓真正接触到,能玩这些东西。当时有人做心理咨询专家系统、故障诊断专家系统、治病专家系统、医生专家系统,各种专家系统出来。国内80年代开始有各种各样的,农业专家系统,那是那个阶段主要的大的流向。
在那个时期,专家系统后面主要用两个工具在做,一个工具用逻辑推理的东西,基本基于规则的。另外一个技术基础用神经网络,那个时候神经网络已经有一点起色,但不能做得规模太大。这两个技术为主在慢慢往前推。
又做了十多年以后,又遇到瓶颈,瓶颈主要是,总是有压倒骆驼的最后一根稻草。第一根稻草是日本搞了第五代机器化,不成功草草收场;第二根稻草,美国科学家说不能输给日本,日本做硬的,我做软的。美国以斯坦福大学的专家为主做知识图谱,把百科全书所有知识装到计算机里,有什么问题有百科全书就有答案了,可以回答问题。要做这个系统,这个系统从80年代开始做,做了十多年,九几年,互联网起来后,很快被互联网超过去了。互联网企业做搜索引擎,他们做搜索的东西,他也是做知识问答,百科全书就是为了回答问题。突然发现互联网回答的速度,做的东西比百科全书回答的速度还快,所以这个项目也失败了。
这两个项目失败,导致大家又对人工智能,觉得好像不能起大用。
第三次,这一轮,刚才张部长也提是算法、算力加上大数据共同发力导致这次人工智能的浪潮。如果说前两次是制造出来的,通过人设计出来的,这次完全是从数据里面出来的。这是这次和前两次的区别。
这次人工智能导火索或里程碑有一篇文章,2006年有一个加拿大学者叫Geoffrey为在科学杂志上发表一篇论文,他说深度神经网络可以进行大规模的学习,可以训练、可以进行推理。这篇文章发了以后,后来他的学生拿着他的方法去参加一个非常有名的图像分类比赛,这个分类比赛也是一位华人,斯坦福大学的华人女教授李菲菲教授组织的比赛。开始比赛用不同图像分类,基于特殊图像分类方法来做。
2012年Geoffrey的学生拿着他的思路做了神经网络,来参加比赛。第一次比赛一鸣惊人,把第二名远远甩在后面,一下把图像分析领域科学家震惊,2012年清一色神经网络,全是深度神经网络,网络架构不一样。都是用数据训练进行分类。到2014年、2015年,一直比赛下来。
华人的贡献在2015年,当时在微软亚洲研究院工作的孙剑博士,领着他的团队提出“残差网络”。这个残差网络提出以后,第一次在比赛里,得了第一,而且他得这个第一,还是非常令人印象深刻的第一。大家可以看,最左边这个是他的成绩,他的错误率是3.57%,因为人的平均,图像库非常大,1000万幅图像,每个图像里有各种各样的类,所谓类有人、狗、太阳、草地、雪山,各种各样的类,让你说各类图像有什么。你说对了全弄对了,如果说错或说漏被扣2分,扣分肯定不好。人平均丢5分,人平均错误率是5%。孙剑这个错误率降到3.57%。排在第二名的谷歌的团队是6.7%。当时孙剑他们的成绩已经超过人的图像分类的能力,当然他用的网络也不一样,别人用的网络22层的、19层的,他是用152层的网络。这个网络现在非常有名,大家知道,AlphaGo后面是AlphaZero,AlphaZero用孙剑的网络,这个网络是非常有名的深度学习的工具。
后面发生的事大家都知道,AlphaGo,2014年4:1战胜韩国的当时世界围棋冠军李世石。4:1的1输那盘,回去以后团队进行了分析,为什么输了。分析的结果,李世石走了一步棋谱里没有的棋,机器不知道怎么下,随机走了一步就输掉了。后来他们说,分析一下,当时人类能够有记录的棋谱共3000副,所有可能的棋谱是1亿5000万副,当时用来训练AlphaGo的数据,占所有可能数据的20%多一点。还有70%几的数据是没有的,因为没有数据,当遇到你没有数据时可能会输。怎么办呢?最后AlphaGo重新设计了系统,设计了AlphaZero,设计完AlphaZero让自己互相下,走棋谱里没有的棋,最后通过一段时间,把所有棋谱可能的棋都有了,用1亿5000个棋谱训练了AlphaZreo,所以AlphaZreo是无敌的,除非你是先手不犯错。
我们做智慧广电,要用深度网络学习,深度网络学习要有最好的数据、好的算法、足够的算力,三个加在一起会做出非常好的智慧广电,数据、算力、算法是这一轮人工智能最基本的三个要素。这轮人工智能发展还有一个很特别的特点,所有顶级的人工智能的科学家,都是和企业在一起做。或者是做企业的兼职,或直接去了企业。为什么?因为企业的数据是最完整的。所以要想做一个好的智慧系统,没有大数据想都不要想。怎么样拥有最大、最全的数据?是能不能做好系统的基本前提。
这就是三个阶段。
“1”一个判断。现在就弱人工智能或专项人工智能,只要你的数据够,现在就可以做得不错。现在为什么会有那么好的人脸识别系统、那么好的语音识别系统、那么好的机器翻译系统。这个系统、那个系统,有很多系统都非常好。因为数据用它训练可以做得好。弱人工智能大规模应用已经“成势”,要乘势而上,顺势而为。人工智能是不是行了呢?强人工智能现在还不行,强人工智能还有非常长一段需要探索的路要走,可能是10年、20年、30年、40年都有可能,这个取决于现有的机器架构,做强人工智能是马太效应,拉不动那么大的车,大车要用更强的系统拉,那个系统是什么现在不知道。有可能类脑系统、可能是量子系统、可能是其他系统,现在的算力做强人工智能不够,弱人工智能没有问题,这是基本判断。
3144中的第一个“4”,我们国家发展人工智能四个优势条件。
首先有政策优势,我们国家党中央国务院对人工智能非常重视。
第二是数据资源的优势,我们国家拥有的海量数据,这是任何其他一个国家没有办法比的。既是人口,马上要过于印度,他的数据也没有我们多。海量的数据资源这是我们第二个优势。
丰富的应有场景是第三个优势。我们国家改革开放后快速发展,这个时候靠长期积累,慢慢把这些东西补齐需要花时间。现在有人工智能,可以让补齐的时间大大缩短,所以用人工智能可以做很多应用。我们有非常丰富的应用场景,不管是城镇化、老龄化、制造业转型升级、互联网市场等等。所有这些都给我们提供了非常好的应用场景。
第四个是我们国家的青年人才,储备非常充足。一说大家很容易明白,现在有全世界最大的高等教育体系,这个高等教育体系里面,工科学生占的比非常高,这是任何其他国家没法比的,这些学生都是将来进入人工智能领域非常潜在的青年才俊。这是我们的优势。
当然我们也有短板、薄弱环节。
有四个薄弱环节:基础研究、原创的理论和算法比较少,一是起步晚,再加上前些年科技领域评估短平快,逼着你快出成果,所以一个人很难一件事做冷板凳坐30年、40年。像刚才加拿大那位教授,那件事做了40年,最后发出一篇论文引爆这个领域,哪个教授能40年做一件事,没有经费没有什么,这是很难的事。由于这两个原因,我们在原创性的东西略微差一些,这个我们实事求是,必须要承认。所以真正原创的东西,它的来源大多数来自美国、加拿大和英国。
第二步弱势在高端芯片。不管GPU、ASIC、FPGA,这些东西主要掌握在美国企业的手里。不光是芯片,也包括传感器,也是主要掌握在美国公司的手里,对这块我们也是还有非常短的短板需要去补。
第三个我们的短板是没有有国际影响的人工智能开源开放平台。现在有影响的开源开放平台基本都是美国大企业做的,像谷歌、微软、亚马逊、Facebook、IBM,这几个公司是最主要的玩家。国内企业也在推,但影响力非常小,这是我们的一个短板。
第四个短板是高端人才的短板。我们高端人才不足,刚才说青年才俊很多,但高端人工智能人才和美国相比只是美国总数的差不多1/5,20%左右,这个是我们必须要补的四个短板。
3144我说完了,这是人工智能的3144。现在讲第二个问题关于AVS3标准。视频编码标准,开始是为了广电,为了电视服务而制定的一套标准,开始的时候在90年代初,当然那时也做VCD、DVD也有那个一段时间,主要面向国内在做,开始从标清开始做。第一代标准,现在有的还在运行,MPEG-2,传入标清需要5兆带宽,传入高清大概要20兆的带宽。到2003年到第二代编码标准,第二代编码标准,效率又提高了一倍。也就是说传输一部高清视频要10周就够了,传输一部标清是2.5兆。到了2013年升级到现在正在使用的标准,比如4K用AVS2国内,国外很多地方用的265,这个标准它在传高清的时候,大概需要5兆的带宽,传4K现在需要36兆的贷款。为什么4K+5G是绝配?因为5G带宽需求加上4K的带宽需求一点问题没有,马上在跑。我非常欣赏央视做4K+5G这样混合。
如果用这个标准,传8K会怎么样?5G不行了,为什么呢?因为8K,用这个标准的话,需要带宽是120兆,5G背不动,怎么办?要做下一轮。现在我们正在做的AVS3,国外做的266是面向8K做的,如果这个标准上来以后,8K需要多少带宽呢?大概50兆到60兆,起步在60兆,随着时间推移慢慢降下来,慢慢编码降下来,降到50兆。这时候和5G又是绝配了。所以要上5G+8K非得标准升级,不升级5G是背不动的。
当然,我们现在4K,刚才张部长提到的4K,去年有两个实验频道播出来,用的AVS2的国家标准,这个国家标准2016年首先广电成立,去年用国家标准。
这个标准用完我们准备下一代的东西,开始做AVS3。要做这个东西,开始没那么急,因为国外也没那么急,我们也没那么急。突然接到一个任务,2022冬奥会。因为2020日本东京夏季奥运会肯定用8K,肯定用265播,我们不考虑,他用265不考虑5G,日本5G不见得真行。如果我们用5G,加上8K必须要压下来,要么是图像质量很差,要么是弄一部新的标准。所以我们赶快人工智能自动编码,为了2022咱们冬奥会,要用咱们的5G加上自己的能够5G背得动的标准做它,所以我们启动了AVS3。
AVS3启动以后,技术上面现在动作非常快,集成的技术比国外正在做的266比它快还好,现在平均性能,目前现在比前一段提高30%,一般提高50%效率是下一代,我们现在已经提高30%,还有20%。怎么做呢?分成两个档次,基准档次、增强档次。基准档次的目标就是30%,增强档次的目标再提20%,加在一起50%。但是它俩的差别是什么呢?这是比较巧妙的设计,基准档次和芯片和硬件有关,增强档次是和芯片没有关系的。我基准档次定了以后,企业马上可以设计芯片,马上可以出来。这样设计出来以后,我们采用很多技术。
今天在这里特别要说的,这里用了人工智能,这是第一次编码的标准用到了人工智能技术,或者叫深度网络技术,我们叫神经网络技术。
这里面,因为用神经网络做识别做分类大家都知道,做人脸识别、语音识别、机器翻译大家都知道怎么做。用神经网络做编码怎么做?当然以前也有一些论文,真正工业用没那么简单。经过这段时间摸索我们找到一些路,首先神经网络可以做电焊、做预测、做滤波,关键是怎么用大数据训练这些东西。我们采了非常多的数据,用这些数据训练和电焊有关、和预测有关、和滤波有关的结构和参数,用这个使它优化。
如果不用神经网络行不行?也行,效果差一点,用和不用差在哪儿?基本性能差5%左右。用了神经网络以后,用智能办法以后人工智能自动编码,性能能提升5%。这只是在比较小的工具上用,全应用还会提高得更多。不管跟AVS2还是和265比,265提高的效果更高一点,而且这个东西从主观上,我们已经有非常清晰的数据,用了神经网络,主观上确实比不用要强。尽管有时提升5%的码率,但主观上感觉比5%还要高,看起来更舒服一点。大家远看不是很清楚,如果离得很近,屏幕的分辨率再高一点看得比较清楚一点。就是说AVS3+深度神经网络的东西看得很清楚,细节很细,在下面。
有一系列的数据不展开。现在用的最多的在决策模式上。因为要做编码时,到底哪个模式是最合适的,全都跑一遍,最后确定这个模式是最好的,跑一遍很耗时间。如果有神经网络,跑一遍这件事比较简单,可以通过一个网络并行下去,最后出来一个结果,他会建议你,哪个模式是最理想的模式,你用那个模式编,这是模式的选择。
他可以很多理解的东西放进去,现在编码不仅仅为了编码而编码,编码的时候有时想,比如在融合媒体时,要做搜索、做检索、做内容的识别,这时要有理解的环节在里面,用神经网络后捎带把理解的任务帮你完成,他的做法有“概念压缩”,通过神经网络,把原来比较粗的一套东西,和概念连接起来做了压缩,这个压缩对后面认知和搜索能提供直接的帮助。
时间关系细节不展开,这里告诉大家,神经网络在视频编码里面照样可以发挥非常好的作用。到现在为止,AVS编码的性能,AVS3和AVS2比,基准档次基本完成30%的效率的提升。然后今年三月份,前不久在青岛,我们把基准档次固定下来,基准档次叫AVS3CD2.0,这个基本完成了。这个完成实际上是有历史意义的,因为AVS从来是跟在264、265,一代一代往后,一般是他们公布半年到一年,或一年到两年我们才公布我们的标准,这次是他们没公布我们已经公布,他们里面技术没有做完我们已经做完。我们已经完成技术上面,视频编码从跟跑、并跑到领跑这样历史性的转换。这是非常重要的一点。
其实刚才部长也一直说,5G这是中国非常重要的技术领先的东西,我们现在除了5G以外还有视频编码的东西。5G+8K,这两个东西,当然也可以4K、8K。利用5G这个通道做融合媒体,这是有中国优势的。如果再加上中国的标准,不能说两个优势一点几个优势,我们有中国的优势。这个优势可能是第一次在广电设备领域我们跑在人家前面,以前中国多少年广电要采购别人的东西,采购日本的东西、采购欧洲的东西,如果我们把5G加上广电这些编码传输和内容制作,整合到一起,第一次我们跑到国外的前面。所以我想,除了我们觉得这是艺术形态里大的认定以外,其实产业也是一个大的认定,这个做好了,真正对广电、对国家是非常大的一件事。
总结一下,刚才说两个问题,一是人工智能的3144,三是人工智能经历三个阶段,逻辑推理,专家系统,深度学习。一个判断:弱人工智能已成大石,强人工智能仍需探索。四个优势:政策;数据;应用场景;青年人才。四个短板,技术研究短板、高端器件、开源平台、高端人才,需要尽快补上。
关于AVS3标准,今年3月份基准档次已经完成,我们已经为2022北京冬奥会8K的开播做好了视频、编码、技术方面的准备,AVS自己从2002年开始,前面经过一段探索,从2009年左右我们进入正轨,广电领域当时在王小节司长指导扶持下,AVS慢慢走向正轨,和标清、高清和4K,下一步和8K紧密的结合。我们技术上实现了跟跑、并跑到领跑的一个跨越。
所以在这里我再次代表做技术的专家们,向总局和业界的领导,长期以来对AVS的支持表示衷心的感谢。谢谢大家!