当前位置: 主页 > 人工智能

人工智能图像识别原理-图像识别技术识别食品

发布时间:2023-02-13 22:03   浏览次数:次   作者:佚名

2022年是生成模型飞速发展的一年,Stable Diffusion创造超现实主义艺术,ChatGPT回答生命意义的问题,Make a Video从文本中生成栩栩如生的马,DreamFusion✨生成不可思议的3D模型,多个AI领域快速发展人工智能图像识别原理,以及绘画、音乐、新闻创作、主播等诸多行业正在被重新定义。

让我们回顾一下2022年关于生成模型的一些顶级论文:

模型文章链接项目链接方向

达尔-E 2

DALLE2-火炬

文字转图片

稳定扩散

稳定扩散

文字转图片

一张图片值一个字

一张图片值一个字

文字转图片

制作一段视频

制作一段视频

文本生成视频

梦想亭

梦想亭

文字转图片

YOLOv7

YOLOv7

物体检测、图像生成

聊天GPT

聊天GPT

人机对话

Block-NeRF

Block-NeRF

人机对话

梦想融合

文本到 3D

耳语

耳语

音频到文本

1. DALL-E 2:使用CLIP生成分层文本条件图像

DALL-E 2 通过使用两阶段模型提高 DALL-E 文本到图像生成功能的真实性、多样性和计算效率,该模型首先在给定文本标题的情况下生成 CLIP 图像嵌入,然后是基于扩散的解码器生成以图像嵌入为条件的图像。

在这里插入图片描述

: 模型的主要结构是:

首先训练一个 CLIP 模型来找到图像和文本对之间的联系。 给定一个文本,CLIP 的文本编码器可以将这个文本变成一个文本特征。 DALL·E2训练一个先验模型,将文本特征作为模型的输入,输出图像特征,将图像特征交给解码器生成完整的图像。

在这里插入图片描述

2. 稳定扩散:基于潜扩散模型的高分辨率图像合成

Stable diffusion是基于Latent Diffusion Models(势扩散模型)的文本生成图像模型。

:与GAN相比,Diffusion模型可以达到更好的图片生成效果。 但该模型需要反复迭代计算,训练和推理成本非常高。 该论文提出了一个潜在的表示空间(latent

空间)进行扩散处理,可以大大降低计算复杂度,也可以达到很好的图像生成效果。

: Stable diffusion 与其他空间压缩方法相比,本文提出的方法可以生成更详细的图像,并且在高分辨率图像生成任务(如风景图像生成、百万像素图像)上表现良好。

在这里插入图片描述

在本文中,该模型在无条件图像合成、修复和超分辨率任务上进行了测试,均取得了良好的效果。

论文中提到的条件图像生成任务包括类条件图像生成(class-condition)、文本到图像生成(text-to-image)和布局条件图像生成(layout-to-image)。

3. 一张图片胜过一个字:使用文本反转来个性化文本到图像的生成

本文提出个性化文本转图像生成,即个性化文本转图像生成。 可以根据用户给出的文本+几张图片(“新概念”)生成新图像。 “textual inversions”用于将图片概念转换成伪词(text encoder的embedding),并用这个embedding来表示新的概念来生成一些带有这样概念的图片。 相较于GAN在embedding空间的诸多技巧,本文的方法在失真度和可编辑性上取得了很好的平衡。

在这里插入图片描述

创新理念

通过在冻结的加权文本到图像模型(即作为特征提取器)的嵌入空间中使用三个或五个新的“词”表示,学习用户提供的概念,然后这些“词”可以形成自然语言句子,通过启发法来创造个性化的创作。 与之前将给定图像转换为模型的潜在空间的工作相比,我们转换了用户提供的概念。 此外,我们将这个概念表示为模型词汇表中的新伪词,以便进行更通用和直观的编辑

在这里插入图片描述

4. Make-A-Video:根据句子一键生成视频

Make-A-Video - 一种将文本到图像 (T2I) 生成的最新重大进展直接转化为文本到视频 (T2V) 的方法。

Make-A-Video 具有三个优势:

它加速了T2V模型的训练(它不需要从头开始学习视觉和多模态表示),它不需要成对的文本-视频数据,生成的视频继承了当今图像生成模型的广度(美学、幻想描述等多样性)。

模型设计一种使用新颖高效的时空模块构建 T2I 模型的简单而有效的方法。 首先,模型分解全时 U-Net 和注意力张量,并在空间和时间上对其进行逼近。 其次,该模型设计了一个时空流水线来生成高分辨率和帧率视频,其中包括一个视频解码器、一个插值模型和两个超分辨率模型,可实现 T2V 以外的各种应用。 Make-a-video 在时空分辨率、文本保真度和质量方面开创了文本到视频生成的最先进技术

在这里插入图片描述

主要框架 如上图所示,Make-A-Video 由三个主要组件组成:(i) 基于文本图像对训练的基本 T2I 模型 (ii) 时空卷积层和注意力层以及 (iii) frame High率帧插值网络和两个超分辨率网络来提高图像质量。

5. DreamBooth:为主题驱动生成微调文本到图像扩散模型

几个大型文本转图像模型已经实现了基于自然语言编写的文本提示的高质量和多样化的图像合成。 这些模型的主要优点是它们从大量图像-文本描述对中学习到强大的语义先验,例如将“狗”一词与可能以不同姿势出现在图像中的各种狗的实例相关联。

在这里插入图片描述

虽然这些模型的合成能力是前所未有的,但它们缺乏模仿给定参考对象以及合成同一对象但在不同场景中具有不同实例的新图像的能力。 可见,现有模型的输出域表达能力有限。

为了解决这个问题人工智能图像识别原理,来自谷歌和波士顿大学的研究人员提出了 DreamBooth,这是一种“个性化”的文本到图像扩散模型,可以适应用户特定的图像生成需求。 该研究的目标是扩展模型的语言-视觉词典,以便将新词汇与用户想要生成的特定主题联系起来。一旦将新词典嵌入到模型中,它就可以使用这些词来合成新颖逼真的图像特定主题,同时将它们置于不同场景中,保留关键识别特征

6. YOLOv7:高级实时目标检测网络

YOLOv7 在 5 FPS 到 160 FPS 的范围内在速度和精度上优于所有已知的物体检测器,并且在 GPU V100 %AP 上以 30 FPS 或更高的速度在所有已知的实时物体检测器中具有 56.8 的最高精度。

YOLOv7整体上和YOLOV5类似,主要是网络结构内部组件的更换(涉及一些新的sota设计思路),辅助训练头,标签分配思路等。整体的预处理,loss等可以参考yolov5

在这里插入图片描述

主要贡献是收集了一些现有的技巧和模块重新参数化和动态标签分配策略,最终在 5 FPS 到 160 FPS 范围内的速度和精度超过了所有已知的目标检测器。

7. ChatGPT:一种遵循人类指令的预训练聊天机器人模型

在过去几年中,语言模型通过根据人类输入提示生成多样化且引人注目的文本显示出令人印象深刻的能力。

: ChatGPT 是一种专注于对话生成的语言模型。 它可以根据用户的文本输入生成相应的智能答案。 答案可以是短词或长文。 ChatGPT 使用带有人类反馈的强化学习 (RLHF) 来微调语言模型,这是一种训练范式,可以增强人类对模型输出的调节,并以更易于理解的顺序对结果进行排序,从而使它们与人类的意图更加一致。 GPT是生成的

Pre-trained Transformer 的缩写。

在这里插入图片描述

ChatGPT的训练过程分为以下三个阶段:训练监督策略模型——训练奖励模型(Reward Mode,RM)——使用PPO(Proximal Policy Optimization,近端策略优化)强化学习来优化策略

8. Block-NeRF:大场景的可扩展神经视图合成

在这里插入图片描述

Block-NeRF 是 NeRF 的新扩展,用于表示大规模环境。 在渲染城市规模的场景时,城市场景被分成多个块(Blocks),NeRF也分配给每个块进行渲染,这些NeRF在预测时动态呈现和组合。 这种分解过程将渲染时间与场景大小解耦(decouples),即分离出两者之间的必要联系,使得渲染能够扩展到任意大的环境,并允许环境逐块更新(per-阻止环境更新)。

作者最终从 280 万张图像构建了一个 Block-NeRF 网格,以创建迄今为止最大的神经场景表示,能够渲染旧金山的整个街区。

9. DreamFusion:用2D扩散模型实现Text-to-3D

请添加图片描述

直接训练一个text-to-3D模型是非常困难的,因为像DALL-E 2这样的模型训练需要吞噬数十亿的图文对,但是没有这么大规模的3D标注数据,有目前还没有一种高效的3D数据去噪模型架构。 DreamFusion 首先使用预训练的 2D 扩散模型根据文本提示生成二维图像,然后引入基于概率密度蒸馏的损失函数通过梯度下降优化随机初始化的神经辐射场 NeRF 模型。

在 DreamFusion 中,使用了预训练的 2D 文本到图像扩散模型。 扩散模型是潜变量生成模型,它学习逐渐将样本从可控的噪声分布转变为数据分布。

:Dreamfusion 从随机摄像机位置和角度迭代渲染 NeRF 视图,并将这些渲染用作 Imagen 周围分馏损失函数的输入。 每次迭代包括四个步骤:①随机采样相机和光线; ② 渲染来自相机和光线的NeRF图像; ③ 计算SDS loss相对于NeRF参数的梯度; ④ 使用优化器更新 NeRF 参数。

在这里插入图片描述

10. Whisper:基于大规模弱监督的鲁棒语音识别

语音识别是人工智能中的一个领域,它允许计算机理解人类语音并将其转换为文本。 该技术用于 Alexa 和各种聊天机器人应用程序等设备。 而我们最常见的就是语音转录,可以将语音转换成文字记录或者字幕。 从任务本身来看,音频转文本并没有想象的那么简单。 如果说GPT-3的训练数据是大量的文本,那么Whisper需要学习的就是各种口音甚至是方言。 对于正式场合,会有背景噪音和偶尔的干扰。

在这里插入图片描述

: Whisper 模型是在 680,000 小时标记音频数据的数据集上训练的,其中包括 117,000 小时的 96 种不同语言的演讲和 125,000 小时从“任何语言”到英语的翻译数据。

Whisper 架构是一种简单的端到端方法,实现为使用 Transformer 模型的编码器-解码器。 输入音频被分成 30 秒的块,这些块被转换成 log-Mel 频谱图并传递给编码器。 编码器计算注意力,最后将数据传递给解码器,解码器被训练预测相应的文本,并添加特殊标签,供单个模型使用,以执行语言识别、多语言语音转录和英语语音翻译等任务.

当然,这篇文章绝不是详尽无遗的。 我只是列出了最引起我注意的十个样板项目。 2022年还有更多同样优秀优秀的成绩闪耀。

参考:

终于

我们建立了 T2I 研究社区。 如果你有其他问题或者对文字生成图片感兴趣,可以私信我加入社区。

加入社区,分组学习:中杯可乐加冰-彩灵AI研究院

限时免费订阅:Text to Image T2I Column

支持我:点赞+收藏⭐️+留言