当前位置：首页 >人工智能 >挑战GPT-4V，浙大校友推出开源版多模态大模型，获GitHub 6k+星标

挑战GPT-4V，浙大校友推出开源版多模态大模型，获GitHub 6k+星标

发布时间：2023-11-28 14:55:23 浏览量：128次

性能已达到GPT-4V的85%

克雷西发自凹非寺

|

GPT-4的视觉能力还没全量放开测试，开源对手就隆重登场了。

浙大竺院的一位校友，与微软研究院等机构合作推出了新版多模态模型LLaVA。

LLaVA在11个测试数据集上都成为了SOTA，在GitHub上更是斩获6k+星标。

开发者提供的数据显示，LLaVA的综合能力已经达到了GPT-4V水平的85%，在复杂推理任务上更是超过了96%。

读验证码、判断狗的品种，甚至根据图像生成网页代码……都难不倒LLaVA。

△/Matt Shumer

资源方面，LLaVA的样本量仅为120万，在单台8*A100的机器上，1天就能完成训练。

不过体验过的网友普遍表示，LLaVA离GPT-4V还存在一些差距。

那么LLaVA究竟表现如何，我们也实测了一番。

和GPT-4V有差距，但也能用

为了更加直观地对比LLaVA和GPT-4V的表现，我们直接使用了微软发布的GPT-4V说明书中的案例。

首先来看最基本的人物识别。

这里GPT-4V说明书中使用的prompt是描述这张图，我们也如法炮制。

结果LLaVA不仅一个名字也没提，还把人数也数错了，但也判断出了这里面有足球运动员、演员和歌星。

于是我们继续追问LLaVA这些人的名字，结果它告诉我们信息量不足以判断。

这轮GPT-4V略胜一筹，不过或许是因为一下八个人太多了，于是我们又给LLaVA加试了一道简单些的题。

这次经过一轮追问，LLaVA成功认出了图片中的老马和小扎，所以这轮我们算它过关。

那如果是专业的图像呢？比如医学影像。

GPT-4V的答案是肺部感染或炎症，而LLaVA说的是吸烟或慢阻肺引发的凋亡细胞和瘢痕组织。

不过两个模型都没有确定自己的结论，都提示需要进一步检查，不过LLaVA给出的“黑色部分组织有异常”是正确的。

除了这些真·图像之外，文字识别也是多模态模型测试中的一项常见任务。

这张图中，LLaVA成功识别了里面的英文，但下面的日文片假名无论如何也认不出来。

除了上面这些正经的内容，LLaVA能不能解读表情包呢？

这次，LLaVA正确识别了图中的青蛙玩具和文字，而对表情包的解释，对了一半。

这个表情包讽刺的是有一群人发现自己错过了计划时间之后反而把预定事项推得更迟，LLaVA只说出了前面一半。

总结下来就是，GPT-4V的识别技能，LLaVA基本上也都会，但又都差点意思。

换言之就是，虽然没那么厉害，但也是能用的水平了。

那么，LLaVA是如何打造出来的呢？

由Vicuna和CLIP结合而成

LLaVA的训练一共分为两个阶段。

首先是将文本与图像对齐的预训练过程，这一阶段一共使用了60万对图像-文本信息。

第二阶段则是在对齐的基础上使用视觉指令进行调优，让LLaVA熟悉用户可能问到的各种问题。

模型结构方面，LLaVA的语言模型是羊驼家族的Vicuna，视觉模型则采用了OpenAI的CLIP，并以MLP作为模态连接器。

为了让LLaVA能够识别更多专业领域的内容，研究团队在开发过程中还使用了ScienceQA数据集。

开发过程完毕之后，研究团队使用GPT-4对LLaVA的输出内容进行评价。

利用COCO数据集中的内容，开发者设计了三种类型的问题，然后让LLaVA输出答案并交给GPT-4评分。

问答式对话：将COCO数据集中的问题改编成问句进行提问
细节描述：要求LLaVA对图像内容提供更详细具体的说明
复杂推理：要求LLaVA在理解的基础上推理出图像中没有直接显含的信息（如：人物关系）

目前，LLaVA的代码、模型和训练数据都已经开源，有7B和13B两个参数量的模型，均为全量微调，LoRA版本也将很快发布。

作者简介

LLaVA相关论文的第一作者是威斯康星大学麦迪逊分校的华人博士生Haotian Liu。

他还是一名浙大竺院校友，期间师从计算机学院金小刚教授和吴飞教授。

他的现任导师Yong Jae Lee则是相关论文的通讯作者。

此外，来自微软研究院和哥伦比亚大学的学者也有参与LLaVA的相关工作。

项目主页（内含DEMO及GitHub、HuggingFace链接）：
https://llava-vl.github.io/

论文地址：
[1]https://arxiv.org/abs/2304.08485
[2]https://arxiv.org/abs/2310.03744

— 完 —

QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

上一篇北师大未来设计学院在第六届中国教博会发布五项PBL大挑战项目

下一篇 3000元！中国智驾方案成本新低

热门课程推荐

热门资讯

1. 照片变漫画效果，这4个方法操作简单有效，快来试试吧！

想将照片变成漫画效果？这篇文章分享了4个方法，包括Photoshop、聪明灵犀、VanceAI Toongineer、醒图，简单操作就能实现，快来尝试一下吧！
2. 华为手机神奇“AI修图”功能，一键消除衣服！原图变身大V领深V！

最近华为手机Pura70推出的“AI修图”功能引发热议，通过简单操作可以让照片中的人物换装。想了解更多这款神奇功能的使用方法吗？点击查看！
3. 四款值得推荐的AI以图生图软件，有需要的赶紧来试试!

近年来,人工智能逐渐走入公众视野,其中的AI图像生成技术尤为引人注目。只需在特定软件中输入关键词描述语以及上传参考图就能智能高效生成符合要求的...
4. AI视频制作神器Viggle：让静态人物动起来，创意无限！

Viggle AI是一款免费制作视频的AI工具，能让静态人物图片动起来，快来了解Viggle AI的功能和优势吧！
5. Logo Diffusion——基于sd绘画模型的AI LOGO 生成器

这下LOGO设计彻底不用求人了。接下来详细演示一遍操作流程首先进入Logo D... 想学习更多AI技能,比如说关于怎么样利用AI来提高生产效率、还能做什么AI...
6. AI显卡绘画排行榜:4090无悬念，最具性价比出人意料

在AI绘图领域，Stable Diffusion的显卡绘图性能备受关注。本文整理了Stable Diffusion显卡的硬件要求和性能表现，以及2023年3月显卡AI绘图效率排行榜和性价比排行榜。欢迎查看最新的AI显卡算力排行榜。
7. 零基础10分钟生成漫画，教大家如何用AI生成自己的漫画

接下来,我将亲自引导你,使用AI工具,创作一本既有趣又能带来盈利的漫画。我们将一起探索如何利用这个工具,发挥你的创意,制作出令人惊叹的漫画作品。让...
8. 赶紧收藏好!这4个完全免费的AI视频制作网站和工具

以下是一些免费的AI视频制作网站或工具,帮助您制作各种类型的视频。 1. Lumen5:Lumen5是一个基于AI的视频制作工具,可将文本转换为视频。用户可以使...
9. 四款软件让你一键生成AI美女!

就能快速生成一幅极具艺术效果的作品,让现实中不懂绘画的人也能参与其中创作!真的超赞哒~趣趣分享几款超厉害的AI绘画软件,提供详细操作!有需要的快来...
10. 10个建筑AI工具，从设计到施工全覆盖!肯定有你从来没听过的

讲述了建筑业比较著名的AI公司小库科技做出的探索,在这儿就不多说了。今天,我们试着在规划设计、建筑方案设计、住宅设计、管道设计、出渲染图、3D扫...

挑战GPT-4V，浙大校友推出开源版多模态大模型，获GitHub 6k+星标

和GPT-4V有差距，但也能用

由Vicuna和CLIP结合而成

作者简介

请绑定手机号