腾讯混元文生图大模型升级发布,支持中英双语生成

发布时间:2024-08-29 18:43:22 浏览量:105次

5月14日,腾讯宣布旗下的混元文生图大模型全面升级并对外开源,目前已在 Hugging Face 平台及 Github 上发布。混元文生图包含了模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。

这是业内首个中文原生的DiT架构文生图开源模型,支持中英文双语输入及理解,参数量15亿。

过去,视觉生成扩散模型主要基于的是U-Net 架构,但随着参数量的提升,基于Transformer 架构的扩散模型展现出了更好的扩展性,有助于进一步提升模型的生成质量及效率。

升级后的腾讯混元文生图大模型采用的是全新的DiT架构(DiT,即Diffusion With Transformer),这也与此前OpenAI旗下的Sora和著名开源大模型平台Stability最新的文生图模型Stable Diffusion 3使用了同款架构和关键技术,是一种基于Transformer架构的扩散模型。

升级后的混元文生图大模型不仅可支持文生图,也可作为视频等多模态视觉生成的基础。

中文原生也是此次腾讯混元文生图大模型的一大亮点。此前,Stable Diffusion等主流开源模型核心数据集以英文为主。混元文生图则具备更强的中英文双语理解及生成能力,在古诗词、俚语、传统建筑、中华美食等中国元素的生成上表现出色。

据了解,从2024 年 7 月起,腾讯混元文生图团队便明确了基于DiT架构的模型方向,并启动了新一代模型研发。今年初,混元文生图大模型全面升级为DiT架构,并对原有模型进行了改进:新一代DiT模型具备了更长的文本理解能力,支持最长256个字符的图片生成指令。增加了中文原生的理解能力;并增加了多轮对话的能力。

据了解,目前腾讯已开源了超 170 个优质项目,均来源于腾讯真实业务场景,已覆盖了微信、腾讯云、腾讯游戏、腾讯AI、腾讯安全等核心业务板块。

想学习更多关于数字艺术相关的知识吗?欢迎点击点击咨询了解火星时代教育的专业培训课程。

热门课程推荐

热门资讯

请绑定手机号

x

微信扫码在线答疑

扫码领福利1V1在线答疑

点击咨询
添加老师微信,马上领取免费课程资源

1. 打开微信扫一扫,扫描左侧二维码

2. 添加老师微信,马上领取免费课程资源

同学您好!

您已成功报名0元试学活动,老师会在第一时间与您取得联系,请保持电话畅通!
确定