真实到令人颤栗:Sora开辟AI生成视频新纪元

发布时间:2024-03-05 17:59:27 浏览量:138次

2月16日,Open AI公司发布了一款能够根据文字提示生成视频的人工智能工具——Sora。

暂停
00:09 / 01:05
00:00
进入全屏
50
    点击按住可拖动视频


    这段时长60秒左右的视频展示了小狗雪地嬉戏直视镜头、无人机视角下东京的雪景和海浪冲击大苏尔悬崖、笑容满面的老奶奶享受生日派对等多个场景画面。

    Sora视频生成技术不仅能够复制现实中的场景,还能够创造出我们现实中并不存在但在感觉上又非常真实的画面。

    其实,在过去一年中人工智能生成的图像、音频和视频的质量已经得到迅速提高。OpenAI、谷歌、Meta、Stable Diffusion等众多公司竞相开发更先进、更容易使用的工具,目前大多数模型生成视频只有几秒钟的时长。

    但是,Sora显然更为出众。它不仅能够生成长达60秒的高清视频,而且能更好地组合三维世界物体。这种技术不仅能够复制现有的场景,还能够创造出我们从未见过的、但感觉上又非常真实的画面。用OpenAI自己的话来说:“Sora能够生成具有多个角色、特定类型的动作、准确主题和丰富背景细节的复杂场景。”

    Sora 生成图片 20岁少年坐在云朵上阅读

    专家称这是一项具有颠覆性的技术。

    目前,OpenAI 尚未发布有关 Sora 的详细技术报告,也未解释或证明该模型如何有效。

    据《麻省理工科技评论》人工智能栏目高级编辑威尔·道格拉斯·海文的文章介绍,Sora 结合了扩散模型与 Transformer 神经网络技术。

    扩散模型背后的直觉来源于物理学。在物理学中气体分子从高浓度区域扩散到低浓度区域,这与由于噪声的干扰而导致的信息丢失是相似的。所以通过引入噪声,然后尝试通过去噪来生成图像。在一段时间内通过多次迭代,模型每次在给定一些噪声输入的情况下学习生成新图像。

    Transformer 是 OpenAI GPT-4和谷歌 Gemini 等大型语言模型中的灵魂。它非常擅长处理长序列的数据,比如单词,但是视频不是由文字构成的。因此,研究人员想到办法在空间和时间上将视频分割成数据块,然后让 Transformer 像处理文本块中的单词那样处理这些视频数据块。采用这种方式使得用来训练 Sora 的视频类型更为丰富。

    尽管如此,OpenAI表示Sora仍存在明显的“弱点”,特别是在空间细节方面,如分不清左右方向以及因果关系。举一个例子,生成的一个视频中有人咬了一口饼干,但之后并没有咬痕。

    Sora技术的未来发展充满了无限的可能性。

    在娱乐产业,它可以用于创造更加逼真的电影、游戏和虚拟现实体验。在教育领域,Sora技术可以用来模拟复杂的科学实验或历史事件,帮助学生更好地理解和学习。此外,它在医疗、军事等领域也有着广泛的应用前景。

    但短期内,预计配音演员、游戏、教育、广告制作、短视频制作领域将会受到最大的冲击。

    人工智能技术角逐背后最大的赢家

    英伟达显然已成为人工智能计算芯片领域的领袖。在过去的12个月里,这家总部位于加州的公司股价上涨了246%。上周,英伟达股价一度收于每股781.28美元,市值达到1.78万亿美元。比亚马逊的1.75万亿美元市值还要高。

    据报道,这是自2002年以来,英伟达的市值首次在收盘后超过亚马逊。

    热门课程推荐

    热门资讯

    请绑定手机号

    x

    微信扫码在线答疑

    扫码领福利1V1在线答疑

    点击咨询
    添加老师微信,马上领取免费课程资源

    1. 打开微信扫一扫,扫描左侧二维码

    2. 添加老师微信,马上领取免费课程资源

    同学您好!

    您已成功报名0元试学活动,老师会在第一时间与您取得联系,请保持电话畅通!
    确定