内测了下阿里的AI画图,带来了点大厂的震撼

发布时间:2024-10-04 14:34:55 浏览量:140次

机器之心报道

作者:杜伟、泽南

要问今年的 WAIC 世界人工智能大会,谁是主角?AI 大模型当之无愧。

大会一共三天,各家公司机构陆续要亮相 30 多个大模型。

这场大模型的盛宴中少不了语言大模型,当然也有屡带给人视觉感官震撼的绘画大模型。这不,在 AI 画图领域,又一个国内大将入场了。

继发布大语言模型通义千问三个月后,阿里的 AI 绘画创作大模型也来了,而且是基于自研的组合式生成模型 Composer。

7 月 7 日的 WAIC 大会上,阿里云通义大模型家族揭幕了旗下最新成员「通义万相」。

WAIC 阿里云《MaaS:以模型为中心的 AI 开发新范式》主题论坛上,通义万相登场。

它的文本生成图像效果是这样的,生成速度很快。

通义万相还可以为一张原图生成另一种指定风格的新图。

更有一种套娃玩法,为一张原图生成一些相似的图片。

阿里表示,通义万相拥有的文生图和图生图能力,可以辅助人类进行图片创作,大幅降低图片设计门槛。未来还可应用于艺术设计、游戏和文创等应用场景。

目前,该模型已开启定向邀测。

在 ChatGPT 火起来之前,AI 领域最出圈的话题就是 AI 画图。扩散模型把生成式 AI 向前带进了一大步,一时间业内出现大量输入文字、生成各种风格图像的 AI 模型。之后又出现了图像生成图像、图像指定风格转换的更多玩法,让人们眼花缭乱的同时感叹于生成式 AI 的神奇。

在 WAIC 这个大舞台上,阿里推出了这个既能文生图又能图生图的 AI 神器,可见对其生成效果非常有信心。

在拿到体验资格后,机器之心当然要先试上一把。

通义万相实测:玩法多样、一出手就是大作

这个通义家族的新模型究竟有没有给 AI 画图领域带来改变呢?我们用结果来说话。

目前,通义万相上线了文本生成图像、相似图像生成和图像风格迁移三大功能.

我们先从标准的文本生成图像测起。在文生图时,你可以在水彩、油画、中国画、扁平插画、二次元、素描、3D 卡通等多种风格中进行选择。在输入文字描述并选定风格后,AI 便可自动生成创作图片了。同时为了方便使用,输出图像的比例有现成的 1:1、16:9 和 9:16 三种可选。

我们先来点不那么复杂的,选取元曲四大家之一马致远《天净沙・秋思》中的一组文字描述「小桥、流水、人家」,风格则选择「中国画」。

结果出来,通义万相完全向我们展示了一幅幅古韵十足的画作,细节丰富,还添加了描述中没有的一些元素,比如远处的山、水里游的鸭子等。

我们不妨再换两种风格,这次选择「素描」和「油画」。通义万相多种风格切换自如,生成的素描和油画图片同样惊艳。不夸张地说,这些图片完全是可以拿来直接用的水平。

再来另一组文字描述「穿宇航服的猫咪、太空、遨游、星空」,这次风格上选择「二次元」和「3D 卡通」。效果一目了然,尤其是 3D 卡通风格这组,猫咪太可爱了。

这里突然想让通义万相与大名鼎鼎的 Stable Diffusion 较量一下。同样的文字描述翻译成英文「cat in a spacesuit, space, travel, starry sky」,然后再加上「style of 3D carton」,生成的图片是下面这样的。

这波没想到是通义万相赢了,Stable Diffusion 生成的猫咪要么太抽象,要么太写实了,没有表现出 3D 卡通风格。

既然简单的文字描述难不倒通义万相,那就给它上上难度。

这次来段更长的「一位日系女孩、棕色直发、白皙肌肤、身穿连衣裙、蕾丝和蝴蝶结、挎着小提包、面带微笑」,风格选择「二次元」。想问一下喜欢二次元的小伙伴,这些生成的图片符合你们心目中的日系女孩吗?

再来一组魔幻风格的描述「超现实主义、质感突出、4k 分辨率、赛博朋克、战舰、气势磅礴、硝烟、金属巨物、激光武器、辛烷渲染器」,风格选择「油画」。看着下面这些图片,瞬间升起了一种末日之战来袭的紧张氛围感。

我们再次将相同的描述放进 Stable Diffusion。在细节丰富度上,Stable Diffusion 更胜一筹,但其画面风格看起来灰暗,给不了人强烈的色彩冲击感。而且更偏写实风格,与超现实主义略有出入。

看起来,至少在文生图这个赛道,通义万相似乎完全拿捏住了。让人不由感叹,生成式 AI 在画图领域的能力一直在进化。

接下来讲通义万相的相似图生成功能,用户只要提供一张参考图像,就能够获得内容、风格相似的 AI 画作。这里要注意,上传的图像大小要在 10M 以下,格式则支持常见的 JPG、JPEG、PNG、BMP 等。

我们先放进去一张 AI 画图世界的常客马斯克,看看通义万相眼中的马斯克「分克」长什么样子。相较于马斯克真身,生成的图片偏老一些,但笑容同样开朗。

再来一张风景图,生成效果非常不错。溪水潺潺流下,水中也点缀了更多落叶,跟原图比毫不逊色。

在体验中,机器之心还发现,通义万相文本生成的图片可以直接生成相似图。这里选取上文 3D 卡通风格「穿宇航服的猫咪」的其中一张作为原图,结果一出来,生成的猫咪更呆萌了,背景元素也更加丰富。

最后看风格迁移功能,你只要上传想要变换风格的原图和目标风格的示意图,就可以很快将原图处理为目标风格的创意图了。与相似图像生成一样,原图和风格图的大小不得超过 10M,格式相同。

我们首先选择一张偏写实的原图、一张印象派的风格图。结果来看,偏写实的原图完全变换了风格,成了一幅幅印象派画作。

接着尝试一张 3D 卡通原图、一张素描风格图。从结果看得出来,两种风格之间的切换游刃有余。

最后选择一张中国画风格的原图、一张水彩风格图。生成结果同样不错。

一番体验下来,无论是文生图还是图生图,通义万相从语义相关性、画面完整性以及细节丰富度等方面来看,都给了我们很大的惊喜。尤其是风格迁移功能,不同风格的切换如此丝滑,生成的图片几乎没有拼接感和涂抹感,就像本就属于目标风格一样。

作为阿里云通义大模型家族的新成员,阿里表示,通义万相现有的能力只是牛刀小试,其能力仍在不断进化中。未来也会逐步向行业客户开放相关能力。

自研 Composer 模型:50 亿参数、登上顶会

此前很多公司的大模型都在立「多模态」的人设,带有 AI 画图能力。相比之下,阿里这个通义万相有多少技术含量呢?看起来它不是简单的模仿,而是有自己

热门课程推荐

热门资讯

请绑定手机号

x
确定