ocr属于人工智能中的-人工语音智能计算器
5月23日,36氪举办「颠覆·AIGC」产业发展峰会。本次峰会汇聚产业力量,共同探讨企业、行业在面临变革时的应对策略,分享思考,探索和发现产业中最具潜力的企业与最具价值的技术,在激荡的环境中探寻前行的方向。
大会上,科大讯飞副总裁、研究院院长刘聪发表了题为《认知智能大模型的技术阶跃及颠覆式影响》的主题演讲。刘聪认为,大模型“智能涌现”开启了机器自然语言交互式学习的“类人”新范式,将改变信息分发、获取、生产和交互方式,颠覆传统编程模式,加速科研工作,提高生产力。
刘聪指出,尽管目前通用大模型仍存在“张冠李戴”、没有人类“灵光乍现”能力等问题,但基于科大讯飞此前提出的“涟漪效应”的观点,随着模型获得的数据和反馈增加,以及知识密集型数据标注工程的助力,系统误差会逐渐降低。
具体到AI2.0与1.0时代的差别,刘聪引用科大讯飞联合创始人徐景明的观点表示,AI1.0时代是拿着技术寻找场景与问题,由于通用性受限,需要对特定场景、行业定制,面临成本高昂、不可持续等问题;而认知大模型的出现带来了三个破局点:面向不同场景结合不同工具更高效地自动捶打钉子、能够捶打各种各样的钉子、锤子也变得更加便宜。
科大讯飞副总裁、研究院院长刘聪
以下为刘聪演讲实录(经36氪整理编辑):
大家好,今天非常高兴能来到36氪颠覆·AIGC产业论坛。
今天我的演讲主题是《认知智能大模型的技术阶跃及颠覆式影响》。从这个题目可以看出,一方面会有我们关于认知智能大模型技术的理解,另一方面也会带来5月6日发布的讯飞星火认知大模型“1+N”体系的解读。
首先来看认知智能大模型的技术阶跃。
大家这段时间以来都在谈论的大模型技术,因为快速的变化,以及给产业、产品带来的迭代,多多少少给相关行业的从业者、包括像我们做技术研发的人带来一些焦虑。
ChatGPT在11月30日发布,上线两个月活跃用户破亿;比尔盖茨说大模型“历史意义不亚于PC或互联网诞生”;GPT-4发布后大家非常关注它的多模态能力,客观来讲其在很多语言能力上的提升更加值得重视;谷歌大脑与DeepMind合并,并且推出了PaLM2,效果也值得持续关注。
认知大模型展现出的智能涌现推动了通用人工智能的技术阶跃。微软研究院曾发表过一篇名为《通用智能的星星之火》的论文,列举分析了GPT-4的多种能力,可以看出模型和数据都是可行的;ChatGPT发布时就公布了在48项任务上的能力特点;再看国内,今年4月28日中共中央政治局会议上也提出“要重视通用人工智能的发展”。
因此,结合ChatGPT给出的48个主要任务,以及科大讯飞人工智能开放创新平台上400多万开发者对于通用智能各种需求的分析,我们提炼出通用人工智能的七大维度:文本生成、语言理解、知识问答、逻辑推理、数学能力(文本模型想要解决数学问题并不容易,和专有数学功能不一样)以及代码能力,再拓展到多模态能力。
我非常赞同刚才微软韦青总提到的两个观点,第一是我们如何评价一件事要和想做的目标密切相关,我认为做大模型不能只聚焦一两个问题方向,正因如此我们强调发展和评估认知大模型能力,首先必须有科学系统的评测体系。
第二我非常赞同刚刚韦总提到的实践是检验真理的唯一标准。仅凭几个问题测试就评价大模型的能力并不科学,如何让大家全面了解大模型的能力以及实际应用至关重要。从技术角度来看,我认为ChatGPT是一款非常优秀、成功的产品,因为有亿万用户在真实体验、发表感受和观点。
因此,我们认为认知大模型应当有更全面的评测标准及体系,由中国科学技术大学和科大讯飞承建的认知智能全国重点实验室联合中科院人工智能产学研创新联盟、长三角人工智能产业链联盟设计了通用认知大模型评测体系,共同探讨后形成了覆盖7大类481个细分任务类型。
我们再来回顾一下认知大模型是怎么实现智能涌现的。
ChatGPT本质上仍然是个深度神经网络大模型,也是一个对话式的AI系统——这里强调一下,不是对话系统。有人说ChatGPT是个聊天工具,但我们认为ChatGPT不仅增强了聊天机器人的功能,更重要的是它能用大家熟知的prompt方式把各种任务统一输入大模型,一个通用大模型就能解决如此之多的任务和能力。
为什么智能涌现有意义?因为ChatGPT的智能涌现开启机器自然语言交互式学习的“类人”新范式。文本本身就是抽象出来、适合人类沟通的过程,不论是学习哪个领域里的知识,机器都能够像人类一样去学习,真正掌握和运用核心语言与知识。
3月14日,GPT-4正式问世,我们看到了GPT-4的多模态能力,但更重要的是它在很多任务上的专业能力持续提升,在问题回答上更安全可控,以及能够处理更长的上下文。我们认为GPT-4之所以能够成功,最核心的仍然是语言贯穿的能力。GPT-4多模态背后的技术,是对图像、图像OCR文字、文字输入共同进行特征编码,并将图像特征以联合训练的方式对齐到统一语义空间。
我们也需要了解通用大模型的真正用途以及大模型还存在的实用性问题。例如,“张冠李戴”就是大模型本身的一个缺陷,因为它是字符接字符生成的,而不是直接copy片段;还有新知识难以及时更新、“只读模式”大模型无法学习、没有人类“灵光乍现”能力等问题。
大模型的出现也让数据迭代与以往不同了。ChatGPT作为先行者,全世界优秀的科技成果、经验和专业人士都在给ChatGPT和GPT-4贡献智慧。大模型的智慧能力自进化需要全世界知识和用户反馈的喂养,这对于大模型进化来说非常关键。
在这里也和大家分享一下我们提出的“涟漪效应”这个观点,因为“涟漪效应”正在加速认知智能的“智能涌现”。
2010年时讯飞推出了讯飞云平台(后为讯飞开放平台)与讯飞输入法后,我们也提出了“涟漪效应”的观点:人工智能相关技术被人们使用时是一点点扩散的,越来越多的人使用,也会不断贡献数据和反馈,系统误差也会随之越来越小,就像水波纹的振浮一样。
以语音为代表的感知领域的确受益于涟漪效应,例如我们的语音识别系统,集合算法、数据等之后其错误率连续8-10年每年相对下降30%以上。
现在有一个新的内容叫认知智能数据标注工程,“涟漪效应”同样适用,但和我们刚才说的语音、图像领域又不一样。原来的数据标注属于劳动密集型ocr属于人工智能中的,普通人通过简单培训之后就可以操作;但认知大模型涉及到繁多的领域、专业,数据标注已转化成知识密集型,源源不断的增量知识数据是大模型智能涌现的坚实基础。
做一个小结:
第一,从目前来看大模型上限非常高,未来涌现出和人类智慧接近的机器智能有希望。
第二,“纯文字世界”的对话式AI系统在很长一段时间内非常重要,这种AI系统和人机协同是很好的设计,不仅能闭环自洽、而且文本资源非常多。
第三,统一的深度神经网络大模型具有很强通用性,是迈向通用智能的星星之火,未来需要进一步研究。
第四,认知大模型未来可以在运动智能、多模态智能、具身智能等其他领域实现推广应用,在技术和产业上有巨大空间。
接下来,给大家介绍一下5月6日发布的讯飞星火认知大模型的研究进展和应用实践。
认知大模型的“智能涌现”带来了解决人类刚需的全新机遇,我们在今年2月提炼出认知大模型带来的六个变革:
第一,改变信息的分发和获取方式。不管传统搜索还是视频流,信息分发未来都会发生变化;
第二,革新生产内容,写作变得会更容易;
第三,全新自然的交互,万物互联下各种交互都会发生变化;
第四,实现专家级的虚拟助手,更多人能享受到教育、医疗等行业的资源普惠。
第五,颠覆传统手工编程方式。
第六,成为科研工作的加速器,大大提升生产力。目前已经可以做到对文献内容做整合抽取和分析。
讯飞为什么能从去年12月15日启动攻关以来,在半年内就做出讯飞星火认知大模型?
“很多你看到的现在,是看不见的过去”。实际上讯飞为大模型的智能涌现做了多年的源头核心技术储备,2012年我们的语音评测首次通过人类专家水平,2014年我们提出“讯飞超脑”计划,就是要让机器实现能理解会思考,2017年,认知智能国家重点实验室获批,2022年进一步推出“讯飞超脑2030”计划,让机器懂知识、善学习、能进化,还有我们在各种国际权威技术比赛中持续夺冠,都是过去十余年的技术积累。
我们还拥有认知智能全国重点实验室、语音及语言信息处理国家工程研究中心、国家新一代人工智能开放创新平台三大国家级平台。
基于以上,我们在去年12月15日启动“1+N”大模型攻关计划,既要做“1”的底座模型,也要围绕教育、医疗、交互、办公、汽车等这样的场景同步推出产品。从启动攻关的第一天ocr属于人工智能中的,我们的技术路线就已经非常明晰,全面对标ChatGPT给出的48项任务能力,过程中按照规划一步步踏实前进。
5月6日,我们正式发布了讯飞星火认知大模型。给大家快速看一下讯飞星火七大核心能力的展示,其中有一些有趣的问题都来源于大家的提问;多模态能力的展示中,大家能够看到语义贯穿、自动生成的虚拟人。
在行业应用中,可以看到在教育领域,搭载了讯飞星火认知大模型的科大讯飞AI学习机能够层层批改点评中英文作文,基于上百名教师的作文评分批改记录分析,星火认知大模型在中英作文批改准确率、错误召回率、句子修订优美率上已经超过一般老师的水平;在语言学习上,基于讯飞星火能够实现自由开放式话题的口语练习环境,避免“哑巴英语”。
在办公领域,基于讯飞星火实现了会议纪要、语篇规整、一键成稿、阅读摘要等能力的升级,让办公更加高效。今天大家听了报告,只要把录音上传到讯飞听见里,选择自己想要的稿件方向就能一键生成相应的稿件。还有在汽车、数字员工等领域带来的全新变化。
这里我想说一个很有意思的话题,是科大讯飞联合创始人徐景明在今年年初提到的一个观点:之前,是拿着AI技术寻找场景与问题,但其通用能力很难在不同的场景实用,就像拿着锤子找钉子却发现每个钉子都不一样,衍生了行业定制复杂、成本昂贵、不可持续等问题,锤子的价值也在市场的激烈竞争中消失。
但是认知大模型的出现像“雷神之锤”,从三个方面进行破局:面向不同场景结合不同工具更高效地自动捶打钉子、能够捶打各种各样的钉子、锤子也变得更加便宜。在降本增效的基础之上,认知大模型与行业场景的紧密结合也能不断反哺大模型自身能力持续进化。
5月6日发布之后,讯飞星火在年内还有三个持续升级的关键里程碑。6月9日要突破开放式问答,多轮对话能力和数学能力再升级;8月15日,突破代码能力并实现多模态交互升级;到10月24日时,我们要实现通用模型对标ChatGPT,中文超越、英文相当。
所以我认为,中国认知大模型发展不仅要有“弯道超车”,更需要在向目标致敬的同时具备直接对标、追赶和超越的勇气,所以还需要“直道冲锋”。产业界和学术界也需要深度结合、协同并进,在大模型长跑之中持续注入不竭动力。
从PC时代的win-tel,到移动互联网时代iOS和安卓两个生态系统,再到搜索生态系统,我们相信未来大模型本身就能带动一系列的上下游产业链、技术链,形成新的生态。
目前,讯飞开放平台也在联合讯飞星火赋能更多开发者打造更具价值的AI应用,共建“星火”生态。
相信通用人工智能的星星之火,必将在中国大地形成燎原之势。我们希望以讯飞星火认知大模型为新的起点和燃点,和各界一起用人工智能建设美好世界。
整理|沈筱