当前位置: 主页 > 技术方案

人工智能计算器语音版-AIGC会成为人工智能行业的下一个引爆点吗?

发布时间:2023-06-11 09:13   浏览次数:次   作者:佚名

近日,在2022世界人工智能大会上,百度创始人、董事长兼首席执行官李彦宏表示,过去一年,无论是在技术层面还是在商业应用层面,人工智能都有了巨大的进展,有些甚至是方向性的改变。

“AIGC,即人工智能自动生成内容,将颠覆现有内容生产模式,可以实现‘以十分之一的成本,以百倍千倍的生产速度’,创造出有独特价值和独立视角的内容。”

从美联社与人工智能公司合作开展的AI新闻写作平台Wordsmith,谷歌研发的Deep Dream和Magenta计划,微软小冰完成的诗集《阳光失了玻璃窗》,到北京冬奥会上的AI手语主播、百度的AI虚拟数字人度晓晓,中央广播电视总台的人工智能编辑部……AIGC开始被越来越多的人熟悉和习惯。

那么,AIGC会成为人工智能行业的下一个引爆点吗?

智能通断器智能开关_人工智能计算器语音版_人工3中文语音补丁没用

1、AIGC浪潮汹涌

从创作者的角度看,内容生态的发展大致可以分成四个阶段:专业生成内容(PGC)、用户生成内容(UGC)、AI辅助生产内容、AI生成内容(AIGC)。

PGC(Professional-generated content,专业生产内容)主要是指由专业化团队生产具备较高质量的内容用以商业变现;UGC(User-generated content,用户生产内容)则将消费者和生产者之间的边界混淆,创作者即为用户本身。

这是当前互联网内容创作生态所处的两个阶段,不过其生产潜力也正在逐渐消耗。

人工3中文语音补丁没用_人工智能计算器语音版_智能通断器智能开关

为保障质量,PGC往往需要投入大量的研发成本,这是导致国内长视频网站长期亏损的主要原因。相比之下,UGC虽然降低了生产门槛,让社区更为繁荣,但正因为创作自由度高,导致质量难以保证。

实际上,内容创作的过程是创作者对于信息的处理、加工、结构化,以及选择和使用内容载体的过程,而一系列的流程均基于创作者的后天学习,需要付出大量的时间与精力。随着VR/AR、Metavers等概念的爆发,未来的互联网应用正在演变成一个富媒体平台,对高质量、多样性的内容需求越来越大。

人工智能计算器语音版_智能通断器智能开关_人工3中文语音补丁没用

当PGC、UGC受产能、质量所限,当人脑的信息处理能力达到极限,亟待新的生产方式带来内容变革。从发展趋势看,AI+内容生产将弥补数字世界内容消耗与供给的缺口。

AIGC,Artificial intelligence-generated content,即通过AI技术来自动或辅助生成内容的生产方式。随着技术的不断发展和突破,人工智能对绘画、音乐、游戏、新闻、艺术等内容创作领域的影响和作用越来越大。

人工智能计算器语音版_人工3中文语音补丁没用_智能通断器智能开关

AI补全《富春山居图》并题诗(上图红框处)

智能通断器智能开关_人工智能计算器语音版_人工3中文语音补丁没用

两个月前,百度利用AIGC能力只用了“1秒”就瞬间复原了《富春山居图》残卷,风格与现存真迹的一致程度也让专家大为震撼;腾讯打造的“梦幻写手”(Dreamwriter)新闻写作系统,能够在规定的22种场景中进行写作,具有0.46秒的平均发稿速度;喜马拉雅通过语音合成(TTS:Text-to-speech)技术,能够高效地将新闻、书籍和文章中的大量文字信息转为音频,这些TTS内容在上线后也获得了较大的收听量。

AI技术不仅有助于提高生产效率,而且有助于互动性进一步提升。例如,在游戏《AI地下城》(AI Dungeon)中,当用户输入文字后,系统便会使用GPT-3(Generative Pre-Training Transformer)自然语言模型来理解脚本并生成接下去的几段文字,并且基本能够实现前后世界观一致。

不过,将AI技术的发展对应于内容生产,目前更多的是为AI辅助生产,创作并没有跳出PGC与UGC的创作框架,如虚拟人的创建需要人为为其编码基因,设定人设、背景,再与外部环境进行交互。

长期来看,随着数据、算法、算力等要素持续发展,最终有望实现AIGC,利用AI技术进行“想象”,创造出现实中不存在的流程与事物。

2、技术的难点和机会

AIGC这一概念并不是第一天诞生,之所以能够在当下能够迅速走红,是时也,也是运也。

AIGC背后,是以人工智能技术为核心,多项关键技术如多模态交互技术、3D数字人建模、机器翻译、语音识别、自然语言理解等能力共同整合加持而成。

人工3中文语音补丁没用_人工智能计算器语音版_智能通断器智能开关

回顾历史,过去的2D/3D非结构化内容生成效果不尽人意。近年来,AI给二维和三维的内容生成带来了许多新变化。

在二维领域,最重大突破便是Goodfellow在2014年提出的GAN神经网络。GAN(Generative Adversarial Networks)主要原理为,将两个神经网络(生成网络和判别网络)相互对立,以提高模型输出结果的质量。通过GAN,计算机可以根据输入的文字描述、图像分割、草图、风格等生成实际不存在的图像人工智能计算器语音版,也可以将已有图片根据输入目标转化,肉眼几乎无法分辨真假。

这意味着利用GAN等神经网络模型,就可以通过既有图片进行图片的风格迁移、人脸编辑、图像修复、补全等操作而形成新的内容。前文中提到《富春山居图》的补全,一定程度上就是这类算法的延伸。

不仅如此,深度学习技术本身不断迭代和发展,带来了从CV(Computer Vision)延展到CG(Computer Graphics)领域的各种新尝试。在CG领域的应用,若干革命性模型的提出,给整个方向带来全新思路。2020年,谷歌研究院Pratul Srinivasan、Benjamin Mildenhall等提出的NeRF深度学习算法甚至引爆了整个3D重建领域。

NeRF将场景表示为空间中任何点的volume densityσ(简单理解为不透明度)和颜色值c。有了以NeRF形式存在的场景表示后,就可以对该场景进行渲染,生成新视角的模拟图片。NeRF的输入为空间点的位置和方向,通过求解穿过场景的任何光线的颜色,从而渲染合成新的图像。

随着动捕技术发展、视频内容数据的丰富,动作数据的积累也变得更加简单。大量围绕动作驱动的AI工作也陆续被大家提出:如,基于RNN网络进行动作预测(Motion Prediction)、基于RL(Reinforcement Learning,增强学习)的动作控制算法(Motion Control)和Ginosar、Alexanderson等人提出的基于语音、文本甚至音乐的多模态动作驱动的CNN模型(Cross-modal motion synthesis)。

此外,AI平台化的生态搭建,大大降低了企业和创业者的开发门槛。

智能通断器智能开关_人工3中文语音补丁没用_人工智能计算器语音版

人工3中文语音补丁没用_人工智能计算器语音版_智能通断器智能开关

2021年,Omniverse Avatar(阿凡达平台)发布。Omniverse Avatar的关键要素均为AI驱动,包括:语音识别NVIDIA Riva软件开发工具包、自然语言理解Megatron大型语言模型、推荐引擎NVIDIA Merlin系统、计算机视觉NVIDIA Metropolis框架和数字人动画NVIDIA Video2Face和Audio2Face等技术。

在国内,如紫东太初、文心等多模态大模型都通过AI平台进行开源,可以直接调用并通过云端算力进行训练。一些科技企业也将数字人技术开源开放,这些动作不仅提升了创作效率,而且助力高质量AIGC变得普及。

3、未来的商业价值

技术终将服务于商业。作为下一个探索热点,AIGC激发了大量行业需求,正在创造越来越多的现实价值。

从AI技术当前发展阶段看,AIGC与游戏叙事的联系较为紧密,不仅塑造更广义的互动叙事品类,而且带来了社交玩法和商业模式产生新的启发。

例如,《AI Dugeon》通过AI技术研发出应对多名的玩家的AI模型,能够对不同玩家的互动做出反馈。在商业模式上,《AI Dungeon》则将更高级的AI模型作为增值服务提供给玩家,如更智能的怪物AI模型。在传统的RPG游戏中,氪金获得的宠物是在数值上形成对免费玩家宠物的优势,而在《AI Dungeon》中则体现为智力更高,具有更强的互动性。

人工智能计算器语音版_人工3中文语音补丁没用_智能通断器智能开关

在艺术领域,AI的学习与创作能力正在颠覆我们的认知,也让公众对科技与艺术的融合创新有了更大的想象空间。今年6月初,初出茅庐的“AI画家”度晓晓创作的AI绘画数字藏品卖出了超过17万元的高价。而她售卖的四幅画作,平均只需数十秒就能完成。

值得关注的是,AI内容生成技术已经在各类显性的商业场景中落地。在人的层面,数字员工在降低劳动成本人工智能计算器语音版,提升工作效率,降低人员流动风险等方面有天然的优势。在货的层面,某些电商平台的内容展示更加立体,会从各个角度来呈现客户想要购买的商品。在场的层面,通过线上空间3D化,可以让参与者更加有沉浸感。

虽然技术的发展与革命一定程度带来了知识产权内容传播与创造的繁荣,但是,相关所有权归属等影响资本信心与产业发展的法律问题并没有得到确认。

今年2月,美国版权局审查委员会(Copyright Review Board)再次拒绝了Abbott先生代理的Stephen Thaler提交的人工智能创作的作品“天堂入口”注册版权的复议请求,重申根据美国《版权法》的规定,要求作品包含人类作者身份。因此由人工智能创作的这幅“天堂最近的入口(a recent entrance to paradise)”作品,不能获得版权授权。

事实上,自从人工智能技术开始应用在新闻撰写、绘画、诗歌写作等领域后,有关人工智能生成物的著作权问题就一直在困扰着学界和实务界,争议颇多。

目前,AIGC的发展应当认为已经超一般的弱人工智能标准,无限地抵进强人工智能阶段,但未实现抵达与超越强人工智能,或称通用人工智能标准。

人工智能计算器语音版_智能通断器智能开关_人工3中文语音补丁没用

牛津哲学家、知名人工智能思想家Nick Bostrom把超级智能定义为“在几乎所有领域都比最聪明的人类大脑都聪明很多,包括科学创新、通识和社交技能”。在超人工智能阶段,人工智能已经跨过“奇点”,其计算和思维能力已经远超人脑。此时的人工智能已经不是人类可以理解和想象。

对于该达成时间,圣达菲研究所的人工智能专家梅兰妮·米切尔(Melanie Mitchell)与埃隆·马斯克(Elon Musk)有过切实的讨论与争议,他们争议的焦点在于该达成时间为2029年。那时的AIGC,将带给我们怎样的惊喜,又将面临怎样的严峻挑战?我们拭目以待。