文字转视频,人工智能 ‘视频模型’即将到来

发布时间:2024-03-05 16:48:20 浏览量:201次

昨天开放的人工智能对人类释放了最新的 怪物,这确实

令人兴奋,我希望你享受一场美好的 生存危机,因为你将

看到的是人类的一小步 和人工智能的巨大飞跃,

我们都知道更好的人工智能 视频模型 即将到来,但开放 AI Sora 的

表现超出了我们最疯狂的预期, 它是第一个能够制作

长达一分钟的逼真视频的人工智能,在今天的 视频中,我们将看看

视频模型的文本实际上可以做什么,弄清楚 它是如何工作的

-


2024 年 2 月 16 日,当我昨天醒来时,你正在观看代码报告 Google

宣布了 Gemini 1.5,其上下文 窗口高达 1000 万个代币,这是一项令人

难以置信的成就 这也 让人们大吃一惊,但桑达尔

很快就被山姆·奥特曼(Sam ultman)所掩盖,他 刚刚向我们展示了他的新朋友

索拉(Sora),索拉(Sora)来自日语中的“ 天空”一词,它是一个文本到视频模型以及

您在该视频中看到的所有视频剪辑 由 Sora 生成,这

不是第一个 AI 视频模型,我们已经 有了稳定的视频扩散等开放模型

和 Pika 等私有产品, 但 Sora 击败了一切,

不仅图像更 真实,而且可以长达一分钟

并保持帧之间的凝聚力, 它们也可以以

不同的纵横比渲染它们可以 从描述您想要看到的内容的文本提示创建,也可以从

-


现在栩栩如生的起始图像创建我最初的想法是打开AI Cherry 挑选了所有这些例子,但情况

似乎并非如此,因为 Sam Alman 在 Twitter 上接受了人群的请求,

并在几分钟内返回了示例, 就像两只金毛猎犬

在山顶上做播客一样, 不错,但下一个确实令人

印象深刻 将一家非营利性 开源公司转变为一家盈利性

封闭源代码公司的家伙,令人印象深刻,非常 好,所以现在您可能想知道如何

才能很好地掌握这件事, 如果将如此

强大的模型提供给一些随机的家伙,那么您可以不那么快 想象一下它

会被用来做什么的恐怖,如果我们 能为我们的人工智能

影响者生成视频以获取更多提示,那就太好了,但这 永远不会发生,

这个模型不太可能 开源,当他们发布它时,

视频将会 有 c2p 元数据,它 基本上是一个监视设备,

记录内容的 来源以及内容的修改方式,无论如何,

我们确实有一些关于 模型如何工作的细节,这可能需要

大量的计算能力,而且只需要 几个 几周前,萨姆·奥尔特曼 (Sam Altman) 向

世界请求 7 万亿美元购买一堆 GPU,是的,这就是万亿美元,

甚至连 Jensen Wong 也取笑了这个数字, 因为完成这项工作实际上只需要花费

2 万亿美元左右, 但也许 Jensen 就是 Wong,这是

视频模型需要大量 GPU 来 缩放,让我们了解它们是如何工作的 Sora

是一个像 Dolly 和 稳定扩散一样的扩散模型,您从

一些随机噪声开始,然后逐渐将该 噪声更新为连贯图像,请查看

此视频,如果您 想要了解 有关该算法的更多信息,现在

单个静态图像中包含大量数据,例如 th000 像素 x th000 像素 x 三个

颜色通道,得出 300 万个 数据点,这是一个很大的数字,但

如果我们有一个 1 分钟的视频怎么办 以每秒 60 帧的速度, 我们现在需要生成超过 100 亿个数据点,从 灵长类大脑的角度来看,100 万秒约为 11 1/2 天,而 100 亿秒约为3177 年,因此存在巨大 差异 规模加视频


增加了时间维度来理解 这些数据,他们采用了

类似于大型语言模型的方法,该模型对 代码和诗歌等文本进行标记,

但是 Sora 不是对文本进行标记, 而是对视觉补丁进行标记,这些

就像小的压缩图像块 捕捉它们的视觉效果

以及它们如何随时间或 逐帧移动同样有趣的是,

视频模型通常会裁剪其 训练数据并输出到特定的

时间和分辨率,但 Sora 可以 根据其原始分辨率训练数据并输出

可变分辨率 这也 很酷,那么这项技术

将如何改变世界呢?去年, 像 Photoshop 这样的工具得到了一整套

人工智能编辑工具,将来我们将 能够在视频中做同样的事情,就像你

开车一样 沿着路走, 想要改变背景

风景,现在你可以在 10 秒内做到这一点, 而不是聘请摄影师

和 CGI​ 专家,但另一个备受关注的利润丰厚的 高薪职业

是 Minecraft 流 Sora 可以 模拟 Minecraft 中的人工运动,

并且有可能 在几秒钟内将任何想法 变成 Minecraft 世界,或者

也许您想导演自己的独立 皮克斯电影 AI 通过

窃取才华横溢的人类艺术作品使这成为可能, 但这可能

不像这些视频那么容易,您会 注意到很多 如果你仔细观察的话,你会发现

它们有一些微妙但 独特的人工智能外观,而且它们并

没有完美地模拟物理或 人形交互,但弄清楚

这些限制只是时间问题, 尽管我个人

对索拉感到威胁和恐惧 目睹

一万年的人类文化被 机器人吞噬,这是一种荣幸,这是

代码报告,感谢您的观看,我们 将在下一篇中见到您

热门课程推荐

热门资讯

请绑定手机号

x

微信扫码在线答疑

扫码领福利1V1在线答疑

点击咨询
添加老师微信,马上领取免费课程资源

1. 打开微信扫一扫,扫描左侧二维码

2. 添加老师微信,马上领取免费课程资源

同学您好!

您已成功报名0元试学活动,老师会在第一时间与您取得联系,请保持电话畅通!
确定