一句话生成60秒逼真视频,OpenAI文生视频模型Sora刷屏,原来可以这样玩

发布时间:2024-03-05 19:54:54 浏览量:111次

风口财经记者 刘建

开发出热门聊天机器人ChatGPT后,OpenAI继续在生成式人工智能上翻新花样。2月16日,OpenAI推出新的AI大模型Sora,该文生视频大模型可通过快速文本提示创建“逼真”和“富有想象力”的60秒视频。“文生视频”模型Sora包含高度详细的场景、复杂的摄像机运动以及充满活力的情感的多个角色,也可以根据静态图像制作动画。Sora不仅了解用户在提示中提出的要求,还了解这些东西在物理世界中的存在方式。

文本生成视频,效果逼真

目前OpenAI官网上Sora相关的信息有限,“我们正在教AI理解和模拟运动中的物理世界,目的是训练模型,帮助人们解决需要真实世界交互的问题。”并称Sora能够从文本说明中生成长达60秒的视频,Sora还能在一个生成的视频中创建多个镜头,体现人物和视觉风格。

Sora可以一次性生成整个视频,也可以扩展生成的视频,使其更长。OpenAI表示:通过让模型一次生成多帧画面,我们解决了一个具有挑战性的问题,即:即使生成的主体暂时离开视线内,也能确保主体不变。

OpenAI表示,Sora建立在过去对DALL-E和GPT模型的研究基础之上。它采用了DALL·E 3的技术,能够在生成的视频中更忠实地遵循用户的文字说明。除了能够文生视频外,该模型还能根据现有的静态图像生成视频,并能准确、细致地对图像内容进行动画处理。该模型还能提取现有视频,并对其进行扩展或填充缺失的帧。

目前OpenAI官网上已经更新了48个Sora生成的视频demo,色彩艳丽,效果逼真。

来自OpenAI Sora的AI生成视频图像:猛犸象在雪地中行走

以上截图的视频文字提示如下:几头巨大的长毛猛犸象踏着雪地走来,它们长长的毛发随风轻扬,远处是白雪覆盖的树木和壮观的雪山,午后的光线伴着飘渺的云朵和远处高悬的太阳,营造出温暖的光晕,低机位拍摄的景象令人惊叹,捕捉到了大型毛茸茸的哺乳动物,摄影和景深都非常漂亮。

动态的光影表现也有印象深刻的案例,如一位女性在东京路灯的霓虹灯下行走的视频,以及阿马尔菲海岸教堂的鸟瞰图,以及一个卡通怪物好奇地跪在融化的蜡烛前等。

来自OpenAI Sora的AI生成视频图像:一位女性在东京路灯的霓虹灯下行走

以上截图的视频文字提示如下:一位时尚女性走在东京的街道上,街道上到处都是温暖的霓虹灯和动画城市标志。她身穿黑色皮夹克、红色长裙和黑色靴子,手拿黑色钱包。她戴着太阳镜,涂着红色唇膏。她走起路来自信而随意。街道潮湿而反光,与五颜六色的灯光形成镜面效果。许多行人走来走去。

在部分场景中,Sora的效果足以“以假乱真”,一段8秒的东京地铁车厢窗户视频中,除了行车过程中,列车窗户上的反射外,视频中间人物倒影也非常逼真。

网友直呼game over

Sora公布后,OpenAICEO山姆-奥特曼请社交媒体用户在线发送文字提示的创意内容。

如一位来自新罕布什尔州的自由摄影师在X上给出的提示:“由一位祖母级社交媒体博主进行的自制意式团子烹饪指导课,场景设置在乡村风格的托斯卡纳乡下厨房,并配有电影级灯光。”Altman在约一小时后回复了一个逼真的视频。

奥特曼此举,对外展示了Sora模型即时生成视频的能力。

东吴证券观点此前表示,近年视觉算法在泛化性、可提示性、生成质量和稳定性等方面突破将推动技术拐点到来以及爆款应用出现。3D资产生成、视频生成等领域受益于扩散算法成熟,但数据与算法难点多于图像生成,考虑到LLM对AI各领域的加速作用以及已出现较好的开源模型,2024年行业或取得更大的发展。

2023年末至2024年初,Pika、HeyGen等AI文生视频应用陆续出圈,验证了多模态技术的不断进步与成熟。刚刚公布的的Sora模型无疑加剧了这一赛道的激烈竞争。

网友直呼game over,工作要丢了:

甚至有人已经开始“悼念”一整个行业:

还有网友表示,电影业要彻底颠覆了。以后只要能写剧本就能直接拍电影了,不是“拍”电影,而是“生成”电影。以后从导演到演员再到摄影,都要失业了。

一位YouTube博主Paddy Galloway发表了对Sora的感想,他表示内容创作行业已经永远改变了,并且毫不夸张。“我进入YouTube世界已经15年时间,但OpenAI刚刚的展示让我无言…动画师/3D艺术家们有麻烦了,素材网站将变得无关紧要,任何人都可以无壁垒获得难以置信的产品,内容背后的‘想法’和故事将变得更加重要。”

Sora仍有较大改善空间

Sora视频一出,立刻震惊业界。尽管这不是首个AI视频,其他企业也有类似文本生成视频的AI模型,谷歌正在测试名为Lumiere的模型,Meta则有名为Emu的模型,还有人工智能初创企业Runway也在开发相应产品来帮助制作视频,但外媒指出,人工智能专家和分析师表示,Sora 视频的长度和质量超出了迄今为止所见的水平。

一位硅谷AI公司的从业者表示,根据她的使用体验,Sora在演示视频中展现的能力远远超Pika和Runway,“Pika只能生成3-15秒的视频,Sora能直接生成一分钟的视频。从画面效果和时长来看,Sora肯定是一个重要突破。”

美国有线电视新闻网(CNN)援引市场研究公司ABI research的高级分析师海登的话报道称,“Sora”可能会对数字娱乐市场产生重大影响,因为新的个性化内容将在各个渠道上传播。

Sora有时会生成不合情理的动作,譬如在跑步机上倒着跑步

但目前的Sora仍然有很多需要完善的地方。OpenAI提示:当前的Sora模型也有弱点,它可能难以准确模拟复杂场景中的物理现象,也可能无法理解具体的因果关系。

Sora在提示空间细节方面会混淆左右,也无法理解因果关系的具体实例,比如制作了一个视频,视频中有人咬了一口饼干,但之后饼干上没有咬痕。

Sora生成的视频:五只小狼在一条砾石路上嬉戏追逐,周围长满了草

Sora生成的视频中,动物或人会凭空出现,特别是在包含许多实体的场景中。此外,Sora难以精确描述随时间推移发生的事件,例如跟踪摄像机的特定轨迹。

Sora生成的视频:一把普通的塑料椅子在沙漠中被发现,人们小心翼翼地挖掘并掸去沙子。在这个例子中,Sora没有将椅子建模为一个刚性物体,导致不准确的物理交互。

OpenAI表示,计划与一个专家团队合作测试最新模型,密切关注错误信息、仇恨内容和偏见等。OpenAI还表示正在开发帮助检测误导性信息的工具,比如检测分类器可以判断视频是何时由Sora生成的。其文本分类器可检查并拒绝违反使用政策的文本输入提示,例如极端暴力、性内容、仇恨图像、名人肖像等。“我们还开发了鲁棒性的图像分类器,用于审查每个生成视频的帧,以帮助确保它在显示给用户之前符合我们的使用政策。”

OpenAI表示,Sora将首先提供给网络安全教授,以评估产品的危害或风险。一些视觉艺术家、设计师和电影制作人也能获得Sora的访问权限,以此收集关于创意专业人士如何使用Sora的反馈。

热门课程推荐

热门资讯

请绑定手机号

x

微信扫码在线答疑

扫码领福利1V1在线答疑

点击咨询
添加老师微信,马上领取免费课程资源

1. 打开微信扫一扫,扫描左侧二维码

2. 添加老师微信,马上领取免费课程资源

同学您好!

您已成功报名0元试学活动,老师会在第一时间与您取得联系,请保持电话畅通!
确定