人工智能逻辑-(思维导图)人工智能的行业应用版图
思维导图
前言
正如OpenAI首席科学家、ChatGPT背后的技术大佬伊利亚·苏茨克维(Ilya Sutskever)所说,GPT(生成式预训练模型)学习的是“世界模型”。他将互联网文本称作世界的映射,因此,将海量互联网文本作为学习语料的GPT学习到的就是整个世界
图0-1 本书所覆盖的知识领域
纵观AI产业版图
图1-1 人工智能的行业应用版图
从产业的视角来看,人工智能包括基础层、技术层和应用层。其中,基础层是人工智能产业的基础,为人工智能提供数据及算力支撑;技术层是人工智能产业的核心,主要包括各类模型和算法的研发和升级;应用层则是人工智能面向特定场景需求而形成的软硬件产品或解决方案。
英国德勤(Deloitte)的报告中预测,世界的人工智能产业规模会从2017年的6900亿美元增长至2025年的64 000亿美元,2017—2025年的复合增长率将达到32.10%,整体呈现出飞速攀升的趋势。
人工智能可从不同的维度进行划分。如果按其模型来划分(人工智能是由模型支撑的)可以分为决策式AI和生成式AI。
决策式AI(也被称作判别式AI)学习数据中的条件概率分布,即一个样本归属于特定类别的概率,再对新的场景进行判断、分析和预测。决策式AI有几个主要的应用领域:人脸识别、推荐系统、风控系统、其他智能决策系统、机器人、自动驾驶。例如在人脸识别领域,决策式AI对实时获取的人脸图像进行特征信息提取,再与人脸库中的特征数据匹配,从而实现人脸识别。再例如,决策式AI可以通过学习电商平台上海量用户的消费行为数据,制订最合适的推荐方案,尽可能提升平台交易量。
生成式AI则学习数据中的联合概率分布,即数据中多个变量组成的向量的概率分布,对已有的数据进行总结归纳,并在此基础上使用深度学习技术等,创作模仿式、缝合式的内容,相当于自动生成全新的内容
表1-1 决策式AI和生成式AI的对比
从技术路径来看,决策式AI的主要工作是对已有数据“打标签”,对不同类别的数据做区别,最简单的例子如区分猫和狗、草莓和苹果等,干的主要是“判断是不是”和“区分是这个还是那个”的活儿。生成式AI就不一样了,它会在归纳分析已有的数据后,再“创作”出新的内容,如在看了很多狗的图片后,生成式AI再创作出一只新的狗的图片,实现“举一反三”。
从成熟程度看,决策式AI的应用更为成熟,已然在互联网、零售、金融、制造等行业展开应用,极大地提升了企业的工作效率。而生成式AI的“年岁更小”,2014年至今发展迅猛,堪称指数级的爆发,已在文本和图片生成等应用内落地。
从应用方向来看,决策式AI在人脸识别、推荐系统、风控系统、机器人、自动驾驶中都已经有成熟的应用,非常贴合日常生活。生成式AI则在内容创作、人机交互、产品设计等领域展现出巨大潜力。
决策式AI和生成式AI,其实都离不开用大量数据来训练模型。
从2017年到2025年全球数据总量的增长趋势及预测情况。收集、存储、处理和分析各种形式和来源的大数据,可以帮助企业和组织迅速获得有价值的信息,并做出正确的决策,它还可以用于商业活动的改善,如此能提升工作效率,降低工作成本,并推动企业实现更大的增长
图1-3 2017—2025年全球数据总量增长趋势及预测情况 数据来源:国际数据公司发布的白皮书《数据时代2025》
深度学习的出现,为很多领域的工作带来了前所未有的精度和效率。人工智能行业也因深度学习收获了前所未有的发展速度,整个人工智能领域的发展都曾被它带动
图1-4 大模型参数数量变化趋势
2021年,高德纳咨询公司(Gartner)就曾预测,至2023年将有20%的内容被生成式AI创建,至2025年生成式AI产生的数据将占所有数据的10%(2021年不到1%)。2022年9月,红杉资本官网发布的文章《生成式AI:充满创造力的新世界》预测,生成式AI将产生数万亿美元的经济价值。据预测,2025年,国内生成式AI应用规模有望突破2000亿元,国内传媒领域应用空间超1000亿元。
聚焦AIGC:内容皆可生成
图1-7 内容创作的四个发展阶段
你所使用的程序,很可能背后是由Diffusion(扩散)模型来进行技术支撑的。Diffusion模型是一种新兴的AI技术,它的灵感来源于物理学中的扩散现象:通过对图片不断加入噪声来生成一张模糊的图片,这个过程类似于墨水滴入水池的扩散过程;再通过深度神经网络学习模糊的图片并还原成原始图片的逆扩散过程,实现生成图片的功能。目前,Diffusion模型在视觉艺术和设计相关领域非常受欢迎。
Stable Diffusion模型是掀起AI绘画热潮的源头之一,Stable Diffusion本身及基于它开发的绘画工具,让AI绘画引爆了舆论热潮。而其背后的公司Stability AI在AI绘画模型爆火前的估值为1亿美元,爆火后的估值则为10亿美元,狂涨10倍,足见AI技术产出的大众化程序有多么强大的市场潜力。
有其他公司在AI绘画赛道“另辟蹊径”。如一家成立时间不到两年的公司PromptBase,主营业务为销售AI绘画工具的提示词,将提示词复制到Midjourney、Stable Diffusion等AI绘画平台,可以实现精准快速的图像生成,让用户在探索提示词上少走弯路
生成式AI的核心价值
在认识论中,人们的认识过程被描摹为金字塔形的结构,人类的认知会逐渐进阶,从数据、信息、知识、逻辑向形而上的哲学、信仰迈进,所认识内容的颗粒度和结构深度也会随之不断改变。
图1-12 生成式AI和决策式AI聚焦于不同的认知层面
决策式AI更多体现的是基于大量数据、信息形成的知识总结和判断,生成式AI体现的则是基于知识、信息和数据在逻辑层面产生的创新成果。后者是更接近人类智慧的AI技术,其内容的创新强度也更胜一筹。
决策式AI更像在做选择题,分类是它的强项;生成式AI则擅长做简答题,以创作为长处。
如果以粗放的标准来划分人类的内容生产工作,大略可以分为艺术创造性工作、设计性工作和逻辑思维性工作,而生成式AI在这三类均有涉猎,可以凭借强大的内容生产水平让人类产生“危机感”。
2023年3月,我国诞生了首部AIGC生成的完整情节漫画。艺术家王睿利用AIGC,以小说《元宇宙2086》为蓝本,通过加噪点、去噪点、复原图片、作画这几个步骤,将文字转化成了可视化的内容,画面线条流畅、色彩绚烂,给人以强烈的视觉冲击,也在中国的科技艺术发展史上留下了浓墨重彩的一笔
AIGC创作的绘画作品甚至都进入了拍卖领域。2022年12月,AI山水画的首次拍卖落下帷幕,成交价为110万元。该画作是百度文心一格和画家乐震文续画的陆小曼未完成的画稿《未完·待续》。大家都知道,中国的山水画注重写意,很难模仿到神韵,而文心一格将陆小曼存世的画稿、书法作品等作为AI的训练数据,大量的数据“投喂”使得AI的创作颇具陆小曼画作的灵性,到了以假乱真的地步。
网飞发布的动画短片《犬与少年》也与AIGC有关。这个短片由AIGC制作,而且创造了一个“第一”——全球首个AIGC动画短片,人工智能小冰在这部动画里就利用自己的技术绘制了完整的画面和场景,让人类创作者有时间回归到更根本的创意性工作中去
国外的Project Muze是谷歌与Zalando电商合作,利用谷歌深度学习框架打造的AI服装设计师。其所构建的神经网络融合了超过600名时装设计师的风格和多种设计元素,只需用户输入性别、喜好、情绪等信息,它就能设计出一套独特的时装
aiXcoder公司推出的aiXcoder XL也是AIGC的代表,在2023年2月首次开放了代码生成模型的API(应用程序编程接口),让更多使用者能够利用人工智能提升软件开发的质量和代码撰写的效率,极大地提升应用程序的推进速度。从写代码这点来说,AIGC通过分析大量开源项目的代码,学习语言特征,动态生成新的代码,能够对不同类型的任务更加灵活、快速地进行开发。
描绘图像:分辨率、清晰度、真实性与艺术性
谷歌大脑的Imagen、OpenAI的DALL·E等,都可以生成与真实照片十分相似的绘画作品。而由Stability AI推出的应用程序Stable Diffusion,则可以称为AI绘图领域的一匹“黑马”了。
Fotor是一个在线图片编辑网站,在全世界已经有上百万的“粉丝”,虽说它的“主业”是在线图片编辑,但是它也支持AI图像生成。这款应用的使用方式也非常简单,用户只需要输入文字提示,然后去查看Fotor的输出内容即可,用户每天能获得10次免费生成图像的机会。用户可以利用它体验从文本到图像、从图像到图像、快速图像生成等等不同的转换模式。Fotor支持3D绘画、动漫角色绘画、逼真图像生成等等,功能很是强大。
NightCafe也是市面上受欢迎程度最高的AI图像生成软件之一,用户每天有5次免费生成图像的机会。它的使用也非常方便,除了能实现快速图像生成,还支持多种艺术风格,且图像分辨率很高。它还有比其他生成器更多的算法和选项,具备两种转换模型:文本到图像和样式转换。样式转换就是用户把图像上传到NightCafe,它就能够把这张图像变成名画风格。NightCafe的运作基于信用系统,用户手里拥有的积分越多,可以生成的图像就越多。
Dream(梦境生成器)是由加拿大的一家AI创业公司WOMBO创建的,这款软件被许多人认为是最好用的全能AI图像生成软件。Dream的使用过程与NightCafe很像,在里面输入一句话,选定一种艺术风格,就能生成图像。它有一个极大的优势,即用户可以上传图像作为参考,由此生成更符合用户想法的图像。它的风格库里也有多种艺术风格供用户选择,能够免费进行不限数量的图像生成。
Deep Dream,它的特别之处在于附带了创建视觉内容的人工智能工具。Deep Dream能够以文本提示为基础,生成逼真的图像,还能使基础的图像和个性化的绘画风格相融合。利用它经过海量图像训练的深度神经网络,用户也能在基础图像上生成新图像。
文心一格就是一个例子。文心一格在中文、中国文化理解和生成上显示出了独特的优势,其背后的文心大模型依靠在数据采集、输入理解等多个层面的深入研究,形成了具备更强中文能力的技术优势,对中文用户的语义理解更加到位,也更适合中文环境下的应用和落地。
AI绘图应用天工巧绘(SkyPaint)是昆仑万维公司旗下模型,这家公司是当下国内在AIGC领域发展最为全面的公司之一,同时也是国内首个全面发展AIGC开源社区的公司
皮卡智能推出的“神采PromeAI”也拥有丰富的风格库,它可以直接把涂鸦和照片转换成插画,还能自动识别出人物姿势,生成插画;它能把线稿转化成颜色丰富的上色稿,并能提供超多种类的配色方案;它能自动识别图像景深信息,生成相同景深的图像;它甚至可以识别建筑和室内图像的线段并由此生成新的设计方案。
影视创作:海量场景任你选
谷歌旗下的公司DeepMind就发布了AI写作模型Dramatron,它可以生成人物描述、位置描述、情节点和对话等内容。人类作家可以编辑Dramatron写出的内容,将它调整为适当的脚本。我们可以把它想象成“剧本界的ChatGPT”,只不过它输出的内容可以编辑为电影脚本,有用户已经开始用它来为戏剧和电影创建连贯的剧本了。如果你想使用Dramatron创作剧本,只需要在应用中输入故事的一句话梗概,然后Dramatron就会自动生成剧本标题、人物设定、场景设定、细节和对话。
国内的数字化娱乐科技公司海马轻帆也上线了“小说转剧本”功能。打开“海马轻帆”网站,找到创作平台的“小说转剧本”界面(图3-15),然后把小说的内容复制粘贴至“小说转剧本”文本框中,就能一键生成这部小说的剧本了。这一功能可以把小说中的描述性语言重新拆解、组合,“改造”成包含重要场景、对白、动作等视听语言的剧本格式文本。
图3-15 海马轻帆“小说转剧本”界面
目前通过“小说转剧本”功能改编的短剧《契约夫妇离婚吧》,在快手小剧场数据良好,在上线的4个月内得到了300多万的点赞,账号涨粉超62万,1个月内播放量突破1亿。
剪辑也是影视制作中需要耗费大量人力的一项工作。传统的剪辑方式会消耗大量时间,而人工智能剪辑则能够根据工作数据库里较为成熟的剪辑风格和镜头语言,对视频进行自动选择和组接,大幅度提高视频内容创作者的工作效率
观众们熟悉的老片《三毛流浪记》《小兵张嘎》《东方红》等100多部经典电影也都被爱奇艺重新修复为4K画质
研发设计:设计能力样样俱全
高德纳咨询公司预计,到2027年将有30%的制造商使用生成式AI来改进其产品开发流程,你的下一个手机App或下一双运动鞋可能是由AI设计的。这带来了设计领域新的变革,也带来了新的契机。同样,生成式AI也可以用在药物研发领域,预计到2025年,30%的新药将由生成式AI设计。
CALA是一个领先的时装设计平台,可以将设计师的创意快速转化为设计草图、原型和产品,并将整个流程统一到自己的数字平台。CALA新的生成式AI工具已上线并可免费试用,这项功能是基于OpenAI的DALL·E实现的
微软语音识别子公司Nuance发布了使用GPT-4的医生临床记录AI应用DAX Express,这是医疗行业第一款结合GPT-4模型的应用,能够在几秒钟内自动生成临床笔记,大大减轻医疗人员的记录负担
生产制造:“L4级别”的智能控制
蒸汽机(第一次工业革命)
电气化(第二次工业革命)
数字化和信息化(第三次工业革命)
智能制造对应的是第四次工业革命,也称工业4.0。工业4.0最早是由德国提出的,其特点是自动化程度的提高以及智能机器和智能工厂的使用。同时,工业4.0利用数据分析与洞察,提升生产和供给效率。生产的灵活性得到了提高,制造商就可以通过大规模定制来更好地满足客户需求。
市场营销:营销文案不再发愁
Jasper.ai提供的核心产品正是通过生成式AI帮助企业和个人写营销文案等各种内容。同样,Copy.ai也通过生成式AI来帮助用户在几秒钟内生成高质量的广告和营销文案。Persado则通过使用营销文案中各种元素(如叙事、情感、描述、格式等)的不同组合来运行多个实验,以得出与每个客户对话的最佳表现信息。随着每次活动中新的数据源源不断地产生并输入模型,Persado解决方案背后的机器学习模型的效果也不断提高。这样的个性化文案生成工具,为计算机巨头戴尔公司带来了令人欣喜的成绩:点击率平均增长50%,转化率平均增长46%人工智能逻辑,“添加到购物车”的比例平均提升了77%。
腾讯自研的深度学习大模型——腾讯广告混元AI大模型就是广告系统理解内容的核心引擎。腾讯广告混元AI大模型,具有千亿参数,能够准确理解文字和图像中蕴含的各种信息。它甚至可以把文字、图像、视频作为一个整体来理解,这样不仅对广告的理解更准确,也更符合用户对广告的整体感受。我们平时使用网站或者手机的时候,总能看到一些广告内容,这些广告背后的“推荐人”可能就是混元AI大模型。
客户服务:贴心服务打动客户
Intercom迅速基于此构建了一个人工智能驱动的客服机器人Fin,它具有GPT-4的诸多优点,并且更加适合客服场景的业务需求。Fin的设计理念如下:
使用GPT技术进行自然交谈
使用受企业控制的信息回答有关的业务问题
将不准确的回答减少到可接受的水平
尽可能地减少人工参与
Fin基于最前沿的AI对话能力,与现有客服机器人相比,可以更自然地进行客服对话。它甚至可以理解跨越多个对话轮次的客服对话,让客户收到回答后提出后续问题并获得额外的说明。对于客服场景而言,信任和可靠性至关重要,Intercom扩展了GPT-4的功能,使其具有专为客服场景量身定制的功能和保护措施。
图4-21 当Fin给出答案时,它会链接到其来源文章,让客户验证来源是否相关
图4-22 Fin如果无法回答问题,可以将问题无缝转给客服人员
随着生成式AI的发展,我们可以通过GPT模型,从大量的客服对话记录、聊天记录和客户信息中,生成知识文章。这样可以加快客服问题的解决速度,并将更多客服通话转变为自助服务。客户关系管理软件服务提供商Salesforce在2023年3月推出了基于生成式AI的客户关系管理产品Einstein GPT,这款产品可以通过过去的客服记录生成知识文章,总结FAQ(常见问题)。
图4-24 百度大脑的“智能知识库”解决方案
展望未来:AIGC是否是新一轮的技术革命?
AGI(通用人工智能)是下一个迅速发展方向。以下是一些可能的研究方向。
跨模态感知。将每一个信息来源域称为一个模态,这些来源可以是文字、声音、图像、味觉、触觉等
多任务协作:AGI最重要的研究方向之一,旨在研究如何让人工智能系统具有多任务协作能力,包括任务规划、任务选择和任务转换等,让“通用性”体现为不仅能够同时完成多种任务,还能够快速适应与其训练情况不同的新任务。
自我学习和适应。人类具有学习和适应能力人工智能逻辑,能够通过不断的学习和经验积累来提高自己的能力
情感理解。能够理解并表达情感是人类最重要的特征
超级计算能力。实现AGI需要庞大的计算资源和超级计算能力。
智能并非万能:AIGC的优势与瓶颈
从实现角度而言,可以将AIGC工具与ERP(企业资源计划)、RPA(机器人流程自动化)、BPA(业务流程自动化)、BI(商业智能)及低代码等工具进行集成,形成端到端的解决方案,以全局化的方式优化业务流程。比如,我们可以将AIGC与ERP系统集成,自动生成项目排期计划,或者将ChatGPT用于低代码平台通过对话聊天的方式自动构建流程框图等。而在这个过程中,AIGC与这些管理系统不是并行关系,而是与整体业务流程融合在了一起。
我们的工作机会还在吗?
图5-4 GPT-4在各种测试中的表现
AI绘画生成器网站6pen预测,未来五年10%~30%的图片为AI生成或AI辅助生成,据此估算其市场规模可能超过600亿元。
图5-6 AI生成图片的市场规模
图5-7 人工智能对人力可替代性的三个维度
AIGC也是一场以数据为驱动、以提升生产力为目的的技术变革
AI思维的底层逻辑,其基础在于数据,核心在于模型,实现在于算力,具体应用在于业务场景
未来,我们人人都可以是AI的使用者和训练师