当前位置：首页 >人工智能 >北大最新多模态大模型开源：混合数据集训练，图像视频任务直接用

北大最新多模态大模型开源：混合数据集训练，图像视频任务直接用

发布时间：2023-11-29 15:08:24 浏览量：111次

3天训完130亿参数通用VLM

一个北大投稿发送至凹非寺

|

训完130亿参数通用视觉语言大模型，只需3天！

北大和中山大学团队又出招了——在最新研究中，研究团队提出了一种构建统一的图片和视频表征的框架。

利用这种框架，可以大大减少VLM（视觉语言大模型）在训练和推理过程中的开销。

具体而言，团队按照提出的新框架，训练了一个新的VLM：Chat-UniVi。

Chat-UniVi能在混合图片和视频数据的情况下进行训练，并同时处理图片任务和视频理解任务。

以此为基础，Chat-UniVi在图片及视频上的17个基准上，都表现得还不错。

现在，项目已经在GitHub和抱抱脸上开源。

更多关于新方法和Chat-UniVi的详细信息，我们一起进一步来看看～

Chat-UniVi是什么？

了解基础信息后，我们详细地聊聊Chat-UniVi究竟是什么——

简单来说，Chat-UniVi是一个统一的多模态大型语言模型，可以同时理解图像和视频。

目前VLM运用的方法，偏图片理解的，往往使用大量视觉tokens来获得更精细的空间分辨率。

偏视频理解的方法，则常常选择牺牲每帧的空间分辨率，以输入更多帧来构建更精细的时间理解能力。

与它们不同，Chat-UniVi采用动态视觉token来统一表示图像和视频，动态token合并方法是无参数的，不需要额外训练。

而动态token的来源，是渐进地聚类视觉token。

为了获取这些动态的视觉token，研究人员基于最近邻的密度峰聚类算法，逐步对视觉token进行分组和合并。

其中，图片可以通过不同大小的视觉token进行建模。

举个：

图中的羊就需要相对更多的视觉token进行细粒度表示；但背景里的雪山，一个视觉token就可以充分搞定建模。

至于视频，处理视频时，同样采用最近邻的密度峰聚类算法，以获取事件的帧集合。

Chat-UniVi会把它划分为多个关键事件，然后在事件内部拓展视觉token。

当然了，如果使用这种方法，更长的视频就会被分配到更多的视觉token，因此如果身处可变长度视频的情境下，这种方式比现有方式更有优势。

总而言之，这种图片和视频的统一表示，一边减少了视觉token的数量，一边又保持了模型的表达能力。

同时又由于视觉token数量的减少，利用这种方式训练模型和进行推理的成本，会大幅度降低——练一个具有130亿参数的VLM，只需要3天。

多提一嘴，为了进一步提升模型性能，团队还为LLM提供了一个多尺度表征。

多尺度表征的上层特征表示高级语义概念，而下层特征则强调了视觉细节的表示。

说到这，我们可以总结出Chat-UniVi的2大特点：

第一，因为独特的建模方法，Chat-UniVi的训练数据集可以是图片与视频的混合版，并且无需任何修改，就可以直接应用在图片和视频任务上。

第二，多尺度表征能帮助Chat-UniVi对图片和视频进行更到位、更全面的理解。

这也导致了Chat-UniVi的任务适应性更强，包括使用高层次特征进行语义理解，以及利用低层次特征生成详细描述。

分两阶段训练

Chat-UniVi的训练分为两个阶段。

第一步是多模态预训练。

在这个阶段，研究人员冻结了LLM和视觉编码器，同时只对投影矩阵进行训练。

这种训练策略使得模型能够有效地捕获视觉信息，而不会对LLM的性能造成任何明显的损害。

第二步是联合指令微调。

在第二阶段，团队对整个模型进行了全参数微调，使用了一个包含图片和视频的混合数据集。

通过在混合数据集上进行联合训练，Chat-UniVi实现了对大量指令的卓越理解，并生成了更自然、更可靠的输出。

训练过程中，团队进行了如下实验：

图片理解实验

Chat-UniVi在使用更少的视觉标记的同时，性能表现也很不错。

7B参数的Chat-UniVi模型能达到13B大小LLaVA模型的性能水平。这证明了该方法的有效性。

视频理解实验

作为一个统一的VLM，Chat-UniVi超越了专门针对视频设计的方法，如VideoChat和Video-ChatGPT。

图片问答实验

Chat-UniVi在ScienceQA数据集上性能表现良好，其性能优于专门针对科学问答进行优化的LLaMA-SciTune模型。

视频问答实验

在所有数据集上，Chat-UniVi均表现优于最先进的方法，如VideoChat和Video-ChatGPT等。

幻觉实验

在幻觉评估方面，Chat-UniVi表现优于最近提出的最先进方法。

值得注意的是，作为一个7B模型，Chat-UniVi在性能上超越了13B参数大小的MiniGPT-4。

研究人员将这一成功归功于多尺度表征，这使得模型能够同时感知高级语义概念和低级视觉外观。

人工评测实验

同时，研究人员还进行了人工评估实验。

他们发现，基于Flamingo的方法在理解视频的能力上存在局限性。这种限制归因于它们使用Q-Former从不同长度的视频中提取固定数量的视觉标记，这阻碍了它们在建模时间理解方面的有效性。

相比之下，作为一个统一的模型，Chat-UniVi不仅优于基于Flamingo构建的方法，而且超越了专门为图片和视频设计的模型。

可视化

Chat-UniVi所采用的动态视觉token巧妙地概括了对象和背景。

这使得Chat-UniVi能够以有限数量的视觉token，同时建模图片理解所需的细粒度空间分辨率和视频理解所需的细粒度时间分辨率。

团队介绍

论文一作是北大信息工程学院博三学生金鹏。

通讯作者袁粒，北大信息工程学院助理教授、博士生导师。

其研究方向为多模态深度学习和AI4S，其中AI4S方向主要研究深度学习解决化学生物中的重大问题。

此前网络大火的ChatExcel、ChatLaw等垂直领域大模型项目都出自袁粒团队。

arXiv：https://arxiv.org/pdf/2311.08046.pdf
Demo：https://huggingface.co/spaces/Chat-UniVi/Chat-UniVi
GitHub：https://github.com/PKU-YuanGroup/Chat-UniVi
抱抱脸：https://huggingface.co/Chat-UniVi

上一篇北师大未来设计学院在第六届中国教博会发布五项PBL大挑战项目

下一篇多乐士x「山塘·浮生集」：色彩为笔空间为籍续写姑苏文脉

热门课程推荐

热门资讯

1. 照片变漫画效果，这4个方法操作简单有效，快来试试吧！

想将照片变成漫画效果？这篇文章分享了4个方法，包括Photoshop、聪明灵犀、VanceAI Toongineer、醒图，简单操作就能实现，快来尝试一下吧！
2. 华为手机神奇“AI修图”功能，一键消除衣服！原图变身大V领深V！

最近华为手机Pura70推出的“AI修图”功能引发热议，通过简单操作可以让照片中的人物换装。想了解更多这款神奇功能的使用方法吗？点击查看！
3. AI视频制作神器Viggle：让静态人物动起来，创意无限！

Viggle AI是一款免费制作视频的AI工具，能让静态人物图片动起来，快来了解Viggle AI的功能和优势吧！
4. AI显卡绘画排行榜:4090无悬念，最具性价比出人意料

在AI绘图领域，Stable Diffusion的显卡绘图性能备受关注。本文整理了Stable Diffusion显卡的硬件要求和性能表现，以及2023年3月显卡AI绘图效率排行榜和性价比排行榜。欢迎查看最新的AI显卡算力排行榜。
5. 四款值得推荐的AI以图生图软件，有需要的赶紧来试试!

近年来,人工智能逐渐走入公众视野,其中的AI图像生成技术尤为引人注目。只需在特定软件中输入关键词描述语以及上传参考图就能智能高效生成符合要求的...
6. 四款软件让你一键生成AI美女!

就能快速生成一幅极具艺术效果的作品,让现实中不懂绘画的人也能参与其中创作!真的超赞哒~趣趣分享几款超厉害的AI绘画软件,提供详细操作!有需要的快来...
7. 10个建筑AI工具，从设计到施工全覆盖!肯定有你从来没听过的

讲述了建筑业比较著名的AI公司小库科技做出的探索,在这儿就不多说了。今天,我们试着在规划设计、建筑方案设计、住宅设计、管道设计、出渲染图、3D扫...
8. 零基础10分钟生成漫画，教大家如何用AI生成自己的漫画

接下来,我将亲自引导你,使用AI工具,创作一本既有趣又能带来盈利的漫画。我们将一起探索如何利用这个工具,发挥你的创意,制作出令人惊叹的漫画作品。让...
9. 赶紧收藏好!这4个完全免费的AI视频制作网站和工具

以下是一些免费的AI视频制作网站或工具,帮助您制作各种类型的视频。 1. Lumen5:Lumen5是一个基于AI的视频制作工具,可将文本转换为视频。用户可以使...
10. 小说转视频AI神器，一键生成小说视频!

AI技术的快速发展为各行各业带来了许多创新应用,其中之一就是AI小说生成视频。这种技术利用人工智能算法和语言模型,将文本转化为视频剧情,加上配图、...