当前位置：首页 >人工智能 >内测了下阿里的AI画图，带来了点大厂的震撼

内测了下阿里的AI画图，带来了点大厂的震撼

发布时间：2024-10-04 14:34:55 浏览量：140次

机器之心报道

作者：杜伟、泽南

要问今年的 WAIC 世界人工智能大会，谁是主角？AI 大模型当之无愧。

大会一共三天，各家公司机构陆续要亮相 30 多个大模型。

这场大模型的盛宴中少不了语言大模型，当然也有屡带给人视觉感官震撼的绘画大模型。这不，在 AI 画图领域，又一个国内大将入场了。

继发布大语言模型通义千问三个月后，阿里的 AI 绘画创作大模型也来了，而且是基于自研的组合式生成模型 Composer。

7 月 7 日的 WAIC 大会上，阿里云通义大模型家族揭幕了旗下最新成员「通义万相」。

WAIC 阿里云《MaaS：以模型为中心的 AI 开发新范式》主题论坛上，通义万相登场。

它的文本生成图像效果是这样的，生成速度很快。

通义万相还可以为一张原图生成另一种指定风格的新图。

更有一种套娃玩法，为一张原图生成一些相似的图片。

阿里表示，通义万相拥有的文生图和图生图能力，可以辅助人类进行图片创作，大幅降低图片设计门槛。未来还可应用于艺术设计、游戏和文创等应用场景。

目前，该模型已开启定向邀测。

在 ChatGPT 火起来之前，AI 领域最出圈的话题就是 AI 画图。扩散模型把生成式 AI 向前带进了一大步，一时间业内出现大量输入文字、生成各种风格图像的 AI 模型。之后又出现了图像生成图像、图像指定风格转换的更多玩法，让人们眼花缭乱的同时感叹于生成式 AI 的神奇。

在 WAIC 这个大舞台上，阿里推出了这个既能文生图又能图生图的 AI 神器，可见对其生成效果非常有信心。

在拿到体验资格后，机器之心当然要先试上一把。

通义万相实测：玩法多样、一出手就是大作

这个通义家族的新模型究竟有没有给 AI 画图领域带来改变呢？我们用结果来说话。

目前，通义万相上线了文本生成图像、相似图像生成和图像风格迁移三大功能.

我们先从标准的文本生成图像测起。在文生图时，你可以在水彩、油画、中国画、扁平插画、二次元、素描、3D 卡通等多种风格中进行选择。在输入文字描述并选定风格后，AI 便可自动生成创作图片了。同时为了方便使用，输出图像的比例有现成的 1:1、16:9 和 9:16 三种可选。

我们先来点不那么复杂的，选取元曲四大家之一马致远《天净沙・秋思》中的一组文字描述「小桥、流水、人家」，风格则选择「中国画」。

结果出来，通义万相完全向我们展示了一幅幅古韵十足的画作，细节丰富，还添加了描述中没有的一些元素，比如远处的山、水里游的鸭子等。

我们不妨再换两种风格，这次选择「素描」和「油画」。通义万相多种风格切换自如，生成的素描和油画图片同样惊艳。不夸张地说，这些图片完全是可以拿来直接用的水平。

再来另一组文字描述「穿宇航服的猫咪、太空、遨游、星空」，这次风格上选择「二次元」和「3D 卡通」。效果一目了然，尤其是 3D 卡通风格这组，猫咪太可爱了。

这里突然想让通义万相与大名鼎鼎的 Stable Diffusion 较量一下。同样的文字描述翻译成英文「cat in a spacesuit, space, travel, starry sky」，然后再加上「style of 3D carton」，生成的图片是下面这样的。

这波没想到是通义万相赢了，Stable Diffusion 生成的猫咪要么太抽象，要么太写实了，没有表现出 3D 卡通风格。

既然简单的文字描述难不倒通义万相，那就给它上上难度。

这次来段更长的「一位日系女孩、棕色直发、白皙肌肤、身穿连衣裙、蕾丝和蝴蝶结、挎着小提包、面带微笑」，风格选择「二次元」。想问一下喜欢二次元的小伙伴，这些生成的图片符合你们心目中的日系女孩吗？

再来一组魔幻风格的描述「超现实主义、质感突出、4k 分辨率、赛博朋克、战舰、气势磅礴、硝烟、金属巨物、激光武器、辛烷渲染器」，风格选择「油画」。看着下面这些图片，瞬间升起了一种末日之战来袭的紧张氛围感。

我们再次将相同的描述放进 Stable Diffusion。在细节丰富度上，Stable Diffusion 更胜一筹，但其画面风格看起来灰暗，给不了人强烈的色彩冲击感。而且更偏写实风格，与超现实主义略有出入。

看起来，至少在文生图这个赛道，通义万相似乎完全拿捏住了。让人不由感叹，生成式 AI 在画图领域的能力一直在进化。

接下来讲通义万相的相似图生成功能，用户只要提供一张参考图像，就能够获得内容、风格相似的 AI 画作。这里要注意，上传的图像大小要在 10M 以下，格式则支持常见的 JPG、JPEG、PNG、BMP 等。

我们先放进去一张 AI 画图世界的常客马斯克，看看通义万相眼中的马斯克「分克」长什么样子。相较于马斯克真身，生成的图片偏老一些，但笑容同样开朗。

再来一张风景图，生成效果非常不错。溪水潺潺流下，水中也点缀了更多落叶，跟原图比毫不逊色。

在体验中，机器之心还发现，通义万相文本生成的图片可以直接生成相似图。这里选取上文 3D 卡通风格「穿宇航服的猫咪」的其中一张作为原图，结果一出来，生成的猫咪更呆萌了，背景元素也更加丰富。

最后看风格迁移功能，你只要上传想要变换风格的原图和目标风格的示意图，就可以很快将原图处理为目标风格的创意图了。与相似图像生成一样，原图和风格图的大小不得超过 10M，格式相同。

我们首先选择一张偏写实的原图、一张印象派的风格图。结果来看，偏写实的原图完全变换了风格，成了一幅幅印象派画作。

接着尝试一张 3D 卡通原图、一张素描风格图。从结果看得出来，两种风格之间的切换游刃有余。

最后选择一张中国画风格的原图、一张水彩风格图。生成结果同样不错。

一番体验下来，无论是文生图还是图生图，通义万相从语义相关性、画面完整性以及细节丰富度等方面来看，都给了我们很大的惊喜。尤其是风格迁移功能，不同风格的切换如此丝滑，生成的图片几乎没有拼接感和涂抹感，就像本就属于目标风格一样。

作为阿里云通义大模型家族的新成员，阿里表示，通义万相现有的能力只是牛刀小试，其能力仍在不断进化中。未来也会逐步向行业客户开放相关能力。

自研 Composer 模型：50 亿参数、登上顶会

此前很多公司的大模型都在立「多模态」的人设，带有 AI 画图能力。相比之下，阿里这个通义万相有多少技术含量呢？看起来它不是简单的模仿，而是有自己

上一篇北师大未来设计学院在第六届中国教博会发布五项PBL大挑战项目

下一篇 OpenAI的新人工智能模型崭露头角：数学任务无往而不利

热门课程推荐

热门资讯

1. 照片变漫画效果，这4个方法操作简单有效，快来试试吧！

想将照片变成漫画效果？这篇文章分享了4个方法，包括Photoshop、聪明灵犀、VanceAI Toongineer、醒图，简单操作就能实现，快来尝试一下吧！
2. 华为手机神奇“AI修图”功能，一键消除衣服！原图变身大V领深V！

最近华为手机Pura70推出的“AI修图”功能引发热议，通过简单操作可以让照片中的人物换装。想了解更多这款神奇功能的使用方法吗？点击查看！
3. AI视频制作神器Viggle：让静态人物动起来，创意无限！

Viggle AI是一款免费制作视频的AI工具，能让静态人物图片动起来，快来了解Viggle AI的功能和优势吧！
4. 四款值得推荐的AI以图生图软件，有需要的赶紧来试试!

近年来,人工智能逐渐走入公众视野,其中的AI图像生成技术尤为引人注目。只需在特定软件中输入关键词描述语以及上传参考图就能智能高效生成符合要求的...
5. AI显卡绘画排行榜:4090无悬念，最具性价比出人意料

在AI绘图领域，Stable Diffusion的显卡绘图性能备受关注。本文整理了Stable Diffusion显卡的硬件要求和性能表现，以及2023年3月显卡AI绘图效率排行榜和性价比排行榜。欢迎查看最新的AI显卡算力排行榜。
6. Logo Diffusion——基于sd绘画模型的AI LOGO 生成器

这下LOGO设计彻底不用求人了。接下来详细演示一遍操作流程首先进入Logo D... 想学习更多AI技能,比如说关于怎么样利用AI来提高生产效率、还能做什么AI...
7. 四款软件让你一键生成AI美女!

就能快速生成一幅极具艺术效果的作品,让现实中不懂绘画的人也能参与其中创作!真的超赞哒~趣趣分享几款超厉害的AI绘画软件,提供详细操作!有需要的快来...
8. 10个建筑AI工具，从设计到施工全覆盖!肯定有你从来没听过的

讲述了建筑业比较著名的AI公司小库科技做出的探索,在这儿就不多说了。今天,我们试着在规划设计、建筑方案设计、住宅设计、管道设计、出渲染图、3D扫...
9. 赶紧收藏好!这4个完全免费的AI视频制作网站和工具

以下是一些免费的AI视频制作网站或工具,帮助您制作各种类型的视频。 1. Lumen5:Lumen5是一个基于AI的视频制作工具,可将文本转换为视频。用户可以使...
10. 零基础10分钟生成漫画，教大家如何用AI生成自己的漫画

接下来,我将亲自引导你,使用AI工具,创作一本既有趣又能带来盈利的漫画。我们将一起探索如何利用这个工具,发挥你的创意,制作出令人惊叹的漫画作品。让...

内测了下阿里的AI画图，带来了点大厂的震撼

请绑定手机号