文字直接生成视频!爆火的Sora,是怎么做到的?

发布时间:2024-03-05 13:16:11 浏览量:272次

2024年2月16日,又一逆天AI模型杀入人类江湖。


有人惊呼“炸裂”“史诗级”,有人嚷嚷“行业变天,人类下岗”,还有人期待是不是输入《三体》就能出片了……这个新文本转视频模型就叫:Sora。


这段场景逼真、氛围浓厚的多机位短视频

由新文本转视频模型Sora生成


这款由美国开放人工智能研究中心Open AI发布的模型,炸裂到啥程度呢?


就你随意编辑一串文字,就能生成一个以假乱真的纯AI原创视频。在一些样片里,视频中的物体运动轨迹自然,画面清晰、顺畅,它还能够自己切换镜头,甚至给出特写……


这个像不像你用GoPro手持拍摄的?


嗯,Sora是如何生成这样的视频的呢?它真的无所不能吗,它会抢走人类的饭碗吗?




01.

属于AI图、AI视频的时间线


先来理一把,把我们惊晕的AI生成图片模型、AI生成视频模型的时间线。


2022年下半年,Midjourney、Stable Diffusion之类的应用,已经可以根据文本提示词生成对应的图片



2023年9月,GPT4.0让我们能够用聊天化的方式生成、修改图片


至于AI生成视频模型,Sora发布之前的主流AI生成视频时长只能做到4-16秒,还“卡成PPT”,而Sora直接顺畅到了60秒




02.

Sora的视频创作能力有多强大?


首先,按照官方口径,Sora能够根据提示词生成出高质量的图片和视频,并且能够对视频进行向前或者向后的拓展。


这三个视频开头最终都会走向同一个结尾

图片截取自:Open AI官网


Sora不仅可以根据文本生成视频,也可以直接输入图片或者视频,对图片和视频进行编辑调整。


图片截取自:Open AI官网


除了第一眼好之外,它还有一些惊人本领。


比如,它可以跟随着对象移动镜头,并且在移动镜头转换角度的时候,依然能保持周围的景象的合理、完整


比如,多机位。


比如,自然融合两种完全不相干的场景:


Sora生成,图源果壳


甚至还可以将图片转成动态视频,而且还不是目前流行的“小动物跳舞”呈现的粗糙效果:


Sora生成,图源果壳




03.

如此逆天,Sora是如何做到的?


Open AI发布了一份Sora的技术报告,在报告中提到“Sora是一个扩散模型”。


扩散模型本身很复杂,怎么理解呢?举个例子,假如你现在有一张狗狗的照片,通过一步步给这张照片增加噪点,就能让它变得越来越模糊,最终会变成一堆噪点。


添加噪声与去除噪声,图源科普中国

反过来,一步步去除噪点,也能把它还原成目标图片——扩散模型的关键就是学会逆向去除噪点。


Sora对视频数据进行转换处理

图片来源:Open AI官网


此外,在以往技术范式之上,Sora还做出了新东西,比如,不仅可以理解用户在提示中提出的要求,还能理解它们在物理世界中的存在方式。


这么强!那它的视频模型的训练应该很烧算力吧


没错,大概一周前,Open AI宣布启动“造芯”计划,因为目前Open AI每天生成约1000亿个单词,需要大量的GPU芯片进行训练计算。


他们希望筹得7万亿美元!


相当于全球GDP的10%,等同于2.5个微软、3.75个谷歌、4个英伟达、7个Meta,以及11.5个特斯拉的市值。




04.

Sora安全吗?它真的没有缺陷吗?


这样的技术会不会被用来伪造视频,甚至被用来在法庭上作伪证?


很多人考虑到了安全问题。Open AI也考虑到了。所以,在确保它不会被用来做坏事之前,Sora不会向大众开放。


另外,虽然Sora展现出了强大的能力,但现阶段它还不够完美。除了专业人士的评价,Sora的技术报告也承认,现阶段Sora生成的视频存在一些缺陷。比如下面,它让考古工作者挖出了一个现代工业文明才有的塑料椅:



下面这个玻璃杯破碎的过程也不那么“科学”,杯子还没裂,液体就流出来了……



再比如下面这个Sara生成的视频,不需要人类,别的人工智能就能看出它是个“假视频”,判别理由是:


① 樱花一般在春天开放,那时不下雪;

② 雪下得太均匀了;

③ 虽然是下雪天,但人穿得很单薄。



至于,把整本《三体》输进去,能出片吗?


嗯,目前的Sora虽然有多机位效果,但都是单一情节、单一镜头。


而《三体》有多人视角,叙事复杂,靠AI生成一条龙搞定并不现实。据影视行业从业者的观点,目前AI生成虽然高效,但可控性不够,目前它们主要用在 demo制作、概念设计、分镜编排等环节。




05.

Sora是否会代替人类视频工作者?


可以肯定的是,Sora的出现可能会威胁一些动画素材的制作者。

今年1月,《好莱坞报道》进行了一项针对300名娱乐行业领导者的调查,有3/4受访者表示AI会减少未来的工作岗位,未来3年内大约会有20多万个职位受到影响。而Sora可能会加重这一影响。


不少人高呼影视行业变天了

有人甚至把好莱坞改成了上面这样


但是,Sora们带给我们的真的只有压力吗?


其实,每次新兴技术的出现在带来威胁的同时,不也是带来了新机会嘛。包括Sora在内的视频生成AI毕竟只是工具,视频创意来源还是需要人类提供哒。


而且这或许还是让普通人开挂的利器呢——还要啥视频团队呀,1个人加1只模型搞定。




编辑:潮歌

本文编辑自:科普中国

果壳、新闻联播

科普苏州

ID: kepusuzhou

任何疑惑的,需要科学解答的问题

科普苏州Q2:700538949

热门课程推荐

热门资讯

请绑定手机号

x

微信扫码在线答疑

扫码领福利1V1在线答疑

点击咨询
添加老师微信,马上领取免费课程资源

1. 打开微信扫一扫,扫描左侧二维码

2. 添加老师微信,马上领取免费课程资源

同学您好!

您已成功报名0元试学活动,老师会在第一时间与您取得联系,请保持电话畅通!
确定