当前位置：首页 >人工智能 >文字直接生成视频!爆火的Sora，是怎么做到的?

文字直接生成视频!爆火的Sora，是怎么做到的?

发布时间：2024-03-05 13:16:11 浏览量：287次

2024年2月16日，又一逆天AI模型杀入人类江湖。

有人惊呼“炸裂”“史诗级”，有人嚷嚷“行业变天，人类下岗”，还有人期待是不是输入《三体》就能出片了……这个新文本转视频模型就叫：Sora。

这段场景逼真、氛围浓厚的多机位短视频

由新文本转视频模型Sora生成

这款由美国开放人工智能研究中心Open AI发布的模型，炸裂到啥程度呢？

就你随意编辑一串文字，就能生成一个以假乱真的纯AI原创视频。在一些样片里，视频中的物体运动轨迹自然，画面清晰、顺畅，它还能够自己切换镜头，甚至给出特写……

这个像不像你用GoPro手持拍摄的？

嗯，Sora是如何生成这样的视频的呢？它真的无所不能吗，它会抢走人类的饭碗吗？

01.

属于AI图、AI视频的时间线

先来理一把，把我们惊晕的AI生成图片模型、AI生成视频模型的时间线。

2022年下半年，Midjourney、Stable Diffusion之类的应用，已经可以根据文本提示词生成对应的图片。

2023年9月，GPT4.0让我们能够用聊天化的方式生成、修改图片。

至于AI生成视频模型，Sora发布之前的主流AI生成视频时长只能做到4-16秒，还“卡成PPT”，而Sora直接顺畅到了60秒。

02.

Sora的视频创作能力有多强大？

首先，按照官方口径，Sora能够根据提示词生成出高质量的图片和视频，并且能够对视频进行向前或者向后的拓展。

这三个视频开头最终都会走向同一个结尾

图片截取自：Open AI官网

Sora不仅可以根据文本生成视频，也可以直接输入图片或者视频，对图片和视频进行编辑调整。

图片截取自：Open AI官网

除了第一眼好之外，它还有一些惊人本领。

比如，它可以跟随着对象移动镜头，并且在移动镜头转换角度的时候，依然能保持周围的景象的合理、完整。

比如，多机位。

比如，自然融合两种完全不相干的场景：

Sora生成，图源果壳

甚至还可以将图片转成动态视频，而且还不是目前流行的“小动物跳舞”呈现的粗糙效果：

Sora生成，图源果壳

03.

如此逆天，Sora是如何做到的？

Open AI发布了一份Sora的技术报告，在报告中提到“Sora是一个扩散模型”。

扩散模型本身很复杂，怎么理解呢？举个例子，假如你现在有一张狗狗的照片，通过一步步给这张照片增加噪点，就能让它变得越来越模糊，最终会变成一堆噪点。

添加噪声与去除噪声，图源科普中国

反过来，一步步去除噪点，也能把它还原成目标图片——扩散模型的关键就是学会逆向去除噪点。

Sora对视频数据进行转换处理

图片来源：Open AI官网

此外，在以往技术范式之上，Sora还做出了新东西，比如，不仅可以理解用户在提示中提出的要求，还能理解它们在物理世界中的存在方式。

这么强！那它的视频模型的训练应该很烧算力吧？

没错，大概一周前，Open AI宣布启动“造芯”计划，因为目前Open AI每天生成约1000亿个单词，需要大量的GPU芯片进行训练计算。

他们希望筹得7万亿美元！

相当于全球GDP的10%，等同于2.5个微软、3.75个谷歌、4个英伟达、7个Meta，以及11.5个特斯拉的市值。

04.

Sora安全吗?它真的没有缺陷吗？

这样的技术会不会被用来伪造视频，甚至被用来在法庭上作伪证？

很多人考虑到了安全问题。Open AI也考虑到了。所以，在确保它不会被用来做坏事之前，Sora不会向大众开放。

另外，虽然Sora展现出了强大的能力，但现阶段它还不够完美。除了专业人士的评价，Sora的技术报告也承认，现阶段Sora生成的视频存在一些缺陷。比如下面，它让考古工作者挖出了一个现代工业文明才有的塑料椅：

下面这个玻璃杯破碎的过程也不那么“科学”，杯子还没裂，液体就流出来了……

再比如下面这个Sara生成的视频，不需要人类，别的人工智能就能看出它是个“假视频”，判别理由是：

① 樱花一般在春天开放，那时不下雪；

② 雪下得太均匀了；

③ 虽然是下雪天，但人穿得很单薄。

至于，把整本《三体》输进去，能出片吗？

嗯，目前的Sora虽然有多机位效果，但都是单一情节、单一镜头。

而《三体》有多人视角，叙事复杂，靠AI生成一条龙搞定并不现实。据影视行业从业者的观点，目前AI生成虽然高效，但可控性不够，目前它们主要用在 demo制作、概念设计、分镜编排等环节。

05.

Sora是否会代替人类视频工作者？

可以肯定的是，Sora的出现可能会威胁一些动画素材的制作者。

今年1月，《好莱坞报道》进行了一项针对300名娱乐行业领导者的调查，有3/4受访者表示AI会减少未来的工作岗位，未来3年内大约会有20多万个职位受到影响。而Sora可能会加重这一影响。

不少人高呼影视行业变天了

有人甚至把好莱坞改成了上面这样

但是，Sora们带给我们的真的只有压力吗？

其实，每次新兴技术的出现在带来威胁的同时，不也是带来了新机会嘛。包括Sora在内的视频生成AI毕竟只是工具，视频创意来源还是需要人类提供哒。

而且这或许还是让普通人开挂的利器呢——还要啥视频团队呀，1个人加1只模型搞定。

编辑：潮歌

本文编辑自：科普中国

果壳、新闻联播

科普苏州

ID: kepusuzhou

任何疑惑的，需要科学解答的问题

科普苏州Q2：700538949

上一篇北师大未来设计学院在第六届中国教博会发布五项PBL大挑战项目

下一篇 OpenAI又放大招，文字直接生成视频!网友:我要失业了

热门课程推荐

热门资讯

1. 照片变漫画效果，这4个方法操作简单有效，快来试试吧！

想将照片变成漫画效果？这篇文章分享了4个方法，包括Photoshop、聪明灵犀、VanceAI Toongineer、醒图，简单操作就能实现，快来尝试一下吧！
2. 华为手机神奇“AI修图”功能，一键消除衣服！原图变身大V领深V！

最近华为手机Pura70推出的“AI修图”功能引发热议，通过简单操作可以让照片中的人物换装。想了解更多这款神奇功能的使用方法吗？点击查看！
3. AI视频制作神器Viggle：让静态人物动起来，创意无限！

Viggle AI是一款免费制作视频的AI工具，能让静态人物图片动起来，快来了解Viggle AI的功能和优势吧！
4. 四款值得推荐的AI以图生图软件，有需要的赶紧来试试!

近年来,人工智能逐渐走入公众视野,其中的AI图像生成技术尤为引人注目。只需在特定软件中输入关键词描述语以及上传参考图就能智能高效生成符合要求的...
5. AI显卡绘画排行榜:4090无悬念，最具性价比出人意料

在AI绘图领域，Stable Diffusion的显卡绘图性能备受关注。本文整理了Stable Diffusion显卡的硬件要求和性能表现，以及2023年3月显卡AI绘图效率排行榜和性价比排行榜。欢迎查看最新的AI显卡算力排行榜。
6. Logo Diffusion——基于sd绘画模型的AI LOGO 生成器

这下LOGO设计彻底不用求人了。接下来详细演示一遍操作流程首先进入Logo D... 想学习更多AI技能,比如说关于怎么样利用AI来提高生产效率、还能做什么AI...
7. 四款软件让你一键生成AI美女!

就能快速生成一幅极具艺术效果的作品,让现实中不懂绘画的人也能参与其中创作!真的超赞哒~趣趣分享几款超厉害的AI绘画软件,提供详细操作!有需要的快来...
8. 10个建筑AI工具，从设计到施工全覆盖!肯定有你从来没听过的

讲述了建筑业比较著名的AI公司小库科技做出的探索,在这儿就不多说了。今天,我们试着在规划设计、建筑方案设计、住宅设计、管道设计、出渲染图、3D扫...
9. 零基础10分钟生成漫画，教大家如何用AI生成自己的漫画

接下来,我将亲自引导你,使用AI工具,创作一本既有趣又能带来盈利的漫画。我们将一起探索如何利用这个工具,发挥你的创意,制作出令人惊叹的漫画作品。让...
10. 赶紧收藏好!这4个完全免费的AI视频制作网站和工具

以下是一些免费的AI视频制作网站或工具,帮助您制作各种类型的视频。 1. Lumen5:Lumen5是一个基于AI的视频制作工具,可将文本转换为视频。用户可以使...

文字直接生成视频!爆火的Sora，是怎么做到的?

请绑定手机号