人工智能电影片段-美国底特律公司用AI图像制作《霜》制作模型DALL-E2
《霜》在最初的几套镜头画面中就表现出了诡异、令人不安的氛围。巨大的冰山,一个由军用帐篷组成的临时营地,一群人挤在火旁,犬吠不止...... 这些都是人们熟悉的东西,但是它们奇怪到足以放大观众心里的恐惧:肯定有哪里不对劲。
“把尾巴递给我,”有人说。画面切到一个男人在火边啃一块粉红色肉干的特写镜头。这太怪诞了,他的嘴唇以一种诡异的方式活动,就好像在嚼自己冻僵的舌头。
《霜》背后的创作公司名为 Waymark,是一家来自美国底特律的公司。该公司的斯蒂芬·帕克(Stephen Parker)说:“似乎到了一个地步,我们不再追求和渴望摄影的准确性,而是开始倾向于探索 DALL-E 的怪异。”。
《霜》是一部 12 分钟的电影,每个镜头都是由 AI 图像制作模型完成的。迄今为止,这是这项新奇技术最令人印象深刻、也是最奇怪的用例之一。
(来源:WAYMARK / LATENT CINEMA)
为了制作《霜》,Waymark 采用了该公司执行制片人乔什·鲁宾(Josh Rubin)撰写的剧本,并将其提供给图像制作模型 DALL-E 2。经过一番尝试和纠错,模型就开始以他们满意的风格制作图像,该电影的制作人使用 DALL-E 2 来生成每一个镜头。
然后,他们使用 D-ID——一种可以让静止图像动起来的人工智能工具,来制作这些镜头的动画,比如使眼睛眨眼、让嘴唇移动等。
鲁宾说:“我们用 DALL-E 制作的东西建立了一个世界。这是一种奇怪的美学,但我们欣然接受它的到来。它成为了我们今天看到的电影。”
创意技术咨询公司 Bell&Whistle 的联合创始人苏基·梅达乌伊(Souki Mehdaou)表示:“这无疑是我看过的第一部风格一致的生成式人工智能电影。生成静态图像之后并对其进行动态加工,就像在看木偶表演,给人一种有趣的拼贴感。”
过去几个月里,市面上出现了一系列使用各种生成式人工智能工具制作的短片,《霜》只是其中之一。最好的生成式视频模型仍然只能生成几秒钟的视频。因此,当前这批电影展现了广泛的风格和技术,比如《霜》中的静止图像堆叠,以及几秒长的视频混剪等。
2023 年 2 月至 3 月,纽约举办了一场人工智能电影节。亮点包括:
拉恩·桑切斯(Laen Sanches)的超凡脱俗的 PLSTC——这是一个由图像制作模型 Midjourney 生成的一系列奇怪的被塑料包裹的海洋生物;
还有杰克·奥尔森(Jake Oleson)的梦幻般的 Given Again,它使用一种名为神经辐射场(NeRF,neural radiance fields)的技术来将 2D 照片变成 3D 虚拟物体;
以及山姆·劳顿(Sam Lawton)的 Expanded Childhood,这是一个童年主题的超现实怀旧作品,他用了自己的旧家庭照片,让 DALL-E 2 扩展到了照片之外的情景,这让他可以肆意摆弄那些模糊不清的旧照片细节。
艺术家往往是第一批尝试新技术的人,但生成式视频的短期前景正受到广告业的影响。Waymark 制作《霜》是为了探索如何在其产品中构建生成式人工智能。对于寻求快速廉价的商业广告制作方式的企业,该公司可以为它们开发视频创作工具。
Waymark目前使用的技术于 2023 年初推出,其将几种不同的人工智能技术结合在一起,包括大型语言模型、图像识别和语音合成,以实时地生成视频广告。其还利用了一款大数据集,它基于该公司此前为客户创建的非生成式人工智能广告。“我们有成千上万的视频,”其CEO 亚历克斯·佩尔斯基-斯特恩(Alex Persky Stern)说,“我们已经把其中最好的拿出来,在训练时我们会告诉人工智能什么是一个好的视频。”该公司的工具是订阅服务的一部分,每月 25 美元起。要使用该工具,用户只需提供企业名字和地址。
据了解,这款工具首先从该公司的网站和社交媒体账户中抓取文本和图像。然后,它使用这些数据生成一个商业广告,并使用 GPT-3 编写一个脚本,由合成语音在特定图像上大声朗读。
在几秒之内,就可以生成一分钟长的流畅广告。用户可以根据自己的想法编辑结果,调整脚本、编辑图像、选择不同声音等等。Waymark 表示,到目前为止,已有超过 10 万人使用过这款工具。但是,问题在于并不是每个企业都有网站或图片可供学习。而该公司的下一个想法是使用生成式人工智能,为那些还没有或不想使用现有图像和视频的企业来创建图像和视频。帕克说:“这就是制作《霜》背后的目的。创造一个世界,一种氛围。”
《霜》当然自带一种氛围,但它也很怪诞。鲁宾说:“无论如何,这还不是一个完美的东西。从 DALL-E 模型那里拿到某些东西有点困难,比如脸上的情绪反应。但在其他任务上,它会给我们惊喜。我们会说:‘天哪,这是发生在我们眼前的魔法。’”随着技术的进步,这种“偶然得到好结果”的过程将会得到改进。用来制作《霜》的 DALL-E 2 面世仅仅一年左右,而生成短片的视频生成工具才出现几个月而已。他继续说道,这项技术最具革命性的方面是能够随时生成新的镜头:“经过 15 分钟的试错,你就可以得到你想要的、完全符合故事序列的镜头。”没有这些工具之前,他需要把电影片段剪辑以及合并在一起,有时只因需要一个特定的镜头,就要跑到山坡上给一只靴子拍特写。有了 DALL-E,他就直接让它帮忙了。“这太令人震惊了人工智能电影片段,”他说,“从那时起,它让我这个电影制作人大开眼界。”
总部位于伦敦的短视频初创公司 Private Island 的联合创始人克里斯·博伊尔(Chris Boyle)也回忆了他对于图像制作模型的第一印象:“当时我就在想,这将改变一切。这让我感到一阵头晕目眩。”他和团队为一系列的全球品牌制作了广告,包括百威、耐克、优步和特里巧克力,以及《使命召唤》等知名游戏的游戏内短视频。该公司近年来一直在后期制作中使用 AI 工具,疫情期间更是增加了使用频率。该公司采用了一系列技术,来让后期制作和视觉效果变得更加容易,例如使用 NeRF 从 2D 图像中创建 3D 场景,以及使用机器学习从现有镜头中提取运动捕捉数据,相比之前从头开始收集的方式,借助 AI 为他们节约了大量时间。
几个月前,Private Island 在其 Instagram 账户上发布了一则恶搞啤酒广告,该广告使用视频制作模型 Gen-2 和图像制作模型 Stable Diffusion 制作而来,它在网络上非常爆火。这段名为《合成之夏(Synthetic Summer)》的视频展示了一个典型的后院派对场景,无忧无虑的年轻人在阳光下悠闲地喝着饮料。但是,里面的许多人长着大洞而不是嘴巴,当他们喝酒时啤酒罐会沉到脑袋里,接着后院也着火了。这其实是一个恐怖短视频。
博伊尔说:“你一开始看它,它只是一个非常普通的、传统的美式情景。但看到后面你就开始坐不住了。”
他说:“我们喜欢利用媒体本身来讲述故事。我认为是一个很好的例子,因为这个媒介本身太令人毛骨悚然了。它在某种程度上可视化了我们对人工智能的一些恐惧。”
那么,这是电影制作新时代的开始吗?整体而言,《霜》非常适合 DALL-E 2 那种令人毛骨悚然的美学。《合成之夏》有很多快速剪辑,因为像 Gen-2 这样的视频生成工具一次只能生成几秒钟的视频,然后需要拼接在一起,而这恰恰适用于一个一切都很混乱的派对场景。
另据悉,Private Island 还考虑制作一部武侠电影,那么快速剪辑工具将非常适合用在这里。这可能意味着我们将开始在音乐视频和商业广告中看到生成式视频。
但除此之外,还不清楚在哪会看到它们。据了解,除了实验艺术家和一些品牌之外,还没有太多其他人使用这项技术。
不断变化的状态也让潜在客户感到不快。博伊尔说:“我与许多公司进行了交谈,他们似乎很感兴趣,但由于技术变化太快,他们不愿将太多资源投入项目。”他说,考虑到 AI 生成工具导致的版权诉讼,一些公司对于这类工具依旧保持谨慎。其表示:“没有人确切地知道这将走向何方:现在有很多假设像飞镖一样被抛出,背后并没有很多细致入微的思考。”与此同时,电影制作人正在继续试验这些新工具。受朋友杰克·奥尔森(Jake Olseon)的作品启发,他正在使用生成式人工智能工具制作一部短片,以帮助消除阿片类药物使用障碍的污名化。
而 Waymark 正在计划《霜》的续集,但它可能不会用到 DALL-E 2。佩尔斯基-斯特恩(Persky-Stern)说:“我认为这更像是一种‘观察看看’的东西。当我们做下一个视频时,我们可能会使用一些新技术。”
Private Island 也在尝试其他电影。现在,它正在制作一部混合电影,里面的真人演员穿着 Stable Diffusion 设计的服装。
或许正如博伊尔所言:“我们非常喜欢美学。看到新美学将从何而来人工智能电影片段,真是令人兴奋。生成式人工智能就像我们的一面破碎的镜子。”
支持:Ren
排版:罗以