当前位置：首页 >人工智能 >超火迷你GPT-4视觉能力暴涨，GitHub两万星，华人团队出品

超火迷你GPT-4视觉能力暴涨，GitHub两万星，华人团队出品

发布时间：2023-11-28 14:54:20 浏览量：105次

只需一个简单指令

白交发自凹非寺

|

GPT-4V来做目标检测？网友实测：还没有准备好。

虽然检测到的类别没问题，但大多数边界框都错放了。

没关系，有人会出手！

那个抢跑GPT-4看图能力几个月的迷你GPT-4升级啦——MiniGPT-v2。

而且只是一句简单指令：[grounding] describe this image in detail就实现的结果。

不仅如此，还轻松处理各类视觉任务。

圈出一个物体，提示词前面加个 [identify] 可让模型直接识别出来物体的名字。

当然也可以什么都不加，直接问~

MiniGPT-v2由来自MiniGPT-4的原班人马（KAUST沙特阿卜杜拉国王科技大学）以及Meta的五位研究员共同开发。

上次MiniGPT-4刚出来就引发巨大关注，一时间服务器被挤爆，如今GItHub项目已超22000+星。

此番升级，已经有网友开始用上了~

多视觉任务的通用界面

大模型作为各文本应用的通用界面，大家已经司空见惯了。受此灵感，研究团队想要建立一个可用于多种视觉任务的统一界面，比如图像描述、视觉问题解答等。

「如何在单一模型的条件下，使用简单多模态指令来高效完成各类任务？」成为团队需要解决的难题。

简单来说，MiniGPT-v2由三个部分组成：视觉主干、线性层和大型语言模型。

该模型以ViT视觉主干为基础，所有训练阶段都保持不变。从ViT中归纳出四个相邻的视觉输出标记，并通过线性层将它们投影到 LLaMA-2语言模型空间中。

团队建议在训练模型为不同任务使用独特的标识符，这样一来大模型就能轻松分辨出每个任务指令，还能提高每个任务的学习效率。

训练主要分为三个阶段：预训练——多任务训练——多模式指令调整。

最终，MiniGPT-v2 在许多视觉问题解答和视觉接地基准测试中，成绩都优于其他视觉语言通用模型。

最终这个模型可以完成多种视觉任务，比如目标对象描述、视觉定位、图像说明、视觉问题解答以及从给定的输入文本中直接解析图片对象。

感兴趣的朋友，可戳下方Demo链接体验：

https://minigpt-v2.github.io/
https://huggingface.co/spaces/Vision-CAIR/MiniGPT-v2

论文链接：https://arxiv.o‍rg/abs/2310.09478

GitHub链接：https://github.com/Vision-CAIR/MiniGPT-4

参考链接：https://twitter.com/leoyerrrr

上一篇北师大未来设计学院在第六届中国教博会发布五项PBL大挑战项目

下一篇 10年市场规模1.3万亿美元，「模力时代」已来

热门课程推荐

热门资讯

1. 照片变漫画效果，这4个方法操作简单有效，快来试试吧！

想将照片变成漫画效果？这篇文章分享了4个方法，包括Photoshop、聪明灵犀、VanceAI Toongineer、醒图，简单操作就能实现，快来尝试一下吧！
2. 华为手机神奇“AI修图”功能，一键消除衣服！原图变身大V领深V！

最近华为手机Pura70推出的“AI修图”功能引发热议，通过简单操作可以让照片中的人物换装。想了解更多这款神奇功能的使用方法吗？点击查看！
3. AI视频制作神器Viggle：让静态人物动起来，创意无限！

Viggle AI是一款免费制作视频的AI工具，能让静态人物图片动起来，快来了解Viggle AI的功能和优势吧！
4. AI显卡绘画排行榜:4090无悬念，最具性价比出人意料

在AI绘图领域，Stable Diffusion的显卡绘图性能备受关注。本文整理了Stable Diffusion显卡的硬件要求和性能表现，以及2023年3月显卡AI绘图效率排行榜和性价比排行榜。欢迎查看最新的AI显卡算力排行榜。
5. 四款值得推荐的AI以图生图软件，有需要的赶紧来试试!

近年来,人工智能逐渐走入公众视野,其中的AI图像生成技术尤为引人注目。只需在特定软件中输入关键词描述语以及上传参考图就能智能高效生成符合要求的...
6. 四款软件让你一键生成AI美女!

就能快速生成一幅极具艺术效果的作品,让现实中不懂绘画的人也能参与其中创作!真的超赞哒~趣趣分享几款超厉害的AI绘画软件,提供详细操作!有需要的快来...
7. 10个建筑AI工具，从设计到施工全覆盖!肯定有你从来没听过的

讲述了建筑业比较著名的AI公司小库科技做出的探索,在这儿就不多说了。今天,我们试着在规划设计、建筑方案设计、住宅设计、管道设计、出渲染图、3D扫...
8. 零基础10分钟生成漫画，教大家如何用AI生成自己的漫画

接下来,我将亲自引导你,使用AI工具,创作一本既有趣又能带来盈利的漫画。我们将一起探索如何利用这个工具,发挥你的创意,制作出令人惊叹的漫画作品。让...
9. 赶紧收藏好!这4个完全免费的AI视频制作网站和工具

以下是一些免费的AI视频制作网站或工具,帮助您制作各种类型的视频。 1. Lumen5:Lumen5是一个基于AI的视频制作工具,可将文本转换为视频。用户可以使...
10. 小说转视频AI神器，一键生成小说视频!

AI技术的快速发展为各行各业带来了许多创新应用,其中之一就是AI小说生成视频。这种技术利用人工智能算法和语言模型,将文本转化为视频剧情,加上配图、...

超火迷你GPT-4视觉能力暴涨，GitHub两万星，华人团队出品

多视觉任务的通用界面

请绑定手机号