体验当甲方的快乐！用嘴指挥DALL·E 3设计LOGO、做梗图、画漫画《王国保卫战5：联盟》简评：光与暗的双倍快乐

作者：147小编　更新时间：2024-09-26　点击数：

作者 | 卷毛

编辑 | 松露

*头图来源于DALL·E 3，描述：一个由拟人化的秋天树叶组成的民谣乐队的2D动画，每一片树叶都演奏着传统的蓝草乐器，在乡村森林的背景中，点缀着丰收之月的柔光。

全自动画图神器来了！ChatGPT现在能直接出图了。

只需要告诉ChatGPT你想要一张什么图，ChatGPT就能直接帮你写好完整的描述词，给到DALL·E 3生成图片。像这张混合星云爆炸的扣篮创意图，换成以往的AI绘图产品，一般都需要费力编写大段的“咒语”才能实现。

“一幅表现篮球运动员扣篮的油画，描绘的是星云的爆炸”，图源DALL·E 3

DALL·E 3是OpenAI最近推出的新版AI绘图模型，原生构建在ChatGPT之上，进一步降低了AI绘画门槛，用户可以在对话中将自己的想法转化成准确的图像，甚至还能画出正确的文字。

用户问ChatGPT“我5岁的孩子说的超级向日葵刺猬，它应该长什么样子”，ChatGPT立马写了四段不同风格的提示词，并生成对应图像

“这幅插画描绘了一颗由半透明玻璃制成的人心，矗立在惊涛骇浪中的基座上。一缕阳光穿透云层，照亮了心脏，揭示了其中的小宇宙。地平线上镌刻着一行醒目的大字 Find the universe within you”，图源DALL·E 3

目前只有一小部分ChatGPT Plus用户获得了内测资格。不过很快，与OpenAI深度合作的微软便将DALL·E 3集成在浏览器Bing中，可供所有Bing Chat和Bing Image Creator用户免费使用。由于来尝鲜的用户太多，Bing最近流量激增，报道称微软又紧急增加了数千台服务器上线。

有了ChatGPT支持的DALL·E 3真的像介绍的这么厉害吗？和Midjourney等其他AI绘画产品又有什么区别呢？“头号AI玩家”在Bing上对DALL·E 3进行了一番测评。

p.s. 想要体验的玩家可以访问以下两个入口，登录微软账户即可使用，目前Bing Image Create每天有25次免费的快速生成额度，用完之后生成图片需要更长的时间。

Bing Image Create网址：https://cn.bing.com/create

Bing Chat网址：https://www.microsoft.com/zh-cn/edge/launch/bing-chat-3p?form=MY02CJ&OCID=MY02CJ&q

文章插图

内容创作者为了减少购买版权素材的成本，或者快速找到符合需求的图片，可能会试着用AI生成配图。

我们先用简短的提示词试试，输入“画一个招聘市场”，DALL·E 3默认生成了四张1024*1024分辨率的图片，内容相似，都是拿着放大镜观察市场数据。

我们可以给出更详细的要求，比如“画一个现实里的招聘市场，人来人往，非常热闹”。不过DALL·E 3理解错了现实里的意思，变成了插画风格，并写上了文字“Real Job Market”，部分图片的文字还出现了错误。

作为甲方，我们再次提出了修改意见——“人头攒动的招聘市场，写实摄影，不含文字，横屏”。可惜的是，DALL·E 3给出的图比较抽象，虚实结合，还是出现了文字。

相比之下，同样的提示词，Midjourney的理解就比较准确了，满屏都是求职者。

Crowded recruitment market, realistic photography, no text --ar 16:9 --v 5.2

换一个简单点的描述看看，“两个中国人在面试中”，这下DALL·E 3的表现基本不错，只是交叉的手指都没处理好。

而Midjourney与DALL·E 3的理解不同，认为是两个人在面对面对谈，四张图的人物、环境、风格差异都比较大，细节上比DALL·E 3更真实一些。

Two Chinese people during the interview --ar 16:9 --v 5.2

DALL·E 3的特色在于能够在对话中生成图像，除了给出明确的提示词，我们还可以试着直接输入一段文字，要求生成符合文意的配图。

这段话讨论了非技术人员怎么跟上AI浪潮，语义复杂，并没有描述具体的人或事物，DALL·E 3的结果令人惊喜，有一座富有科技感的未来城市和工作在其中的人们，也有许多人围绕着智慧大脑的脉络进行工作，从不同角度切中了文意。

我们试着在其中一张原图的基础上继续加入文字“AI”，但是DALL·E 3重新生成了四张跟原图无关的图片，似乎不能直接修改已生成的图片，比如调整一些细节。

LOGO设计

既然有了ChaGPT支持，我们不妨让DALL·E 3帮我们完善想法，自动生成详细提示，定制一张个性化的LOGO。

一开始Bing认为“头号AI玩家”与人工智能和游戏有关，所以设计的LOGO主体是一个机器人拿着游戏手柄。在补充了账号信息和主色调后，Bing以人工智能头像和数字1为主要元素重新设计了四张图。

第三张感觉更简洁一些，我们继续沟通修改。

可以看到，Bing能比较好地理解需求，但生成的文字有时不太准确，需要再后期修改。对比Midjourney，我们无法实现这样来回的沟通，只能自己琢磨提示词，并且很难生成AIGC这么多文字，Midjourney的优势在于生成的图片质量比较高，设计感更强。

The logo named after AIGC PLAYER, Purple, simple, technological sense, no complicated lines --v 5.2

产品图/营销图

在广告营销、电商领域，AI商品图的应用越来越多，那么DALL·E 3能生成可用的素材图吗？

我们先让Bing生成一只中式风格的、适合秋冬使用的手提包，看来它理解的中式是喜庆、刺绣、流苏。

换成传统与现代结合的新中式风格呢？果然变成了黑色、金色为主的皮质包包，不过还是保留了复杂的刺绣图案。即使要求装饰简约一点，Bing理解的中式风格依旧离不开刺绣。

而Midjourney生成的显然更素雅一些，背景也更简洁。

A new Chinese-style handbag that combines tradition and modernity for autumn and winter, with light and neutral colors and patterns --v 5.2

如果想换个背景和场景，比如秀场上，一个优雅的女模特拿着这只包，那Bing暂时还做不到，会像前文一样重新根据描述生图。

最近推特上还流行一种DALL·E 3的玩法，用来生成一些排列整体的Knolling摄影照片，如下图所示，一个主体周围有许多相关物品环绕，放置在干净的背景上。

X@chaseleantj

想生成类似的图片却不知道怎么写提示词，没关系，直接问Bing就行了。

创意梗图

AI降低了创作的门槛，可以帮助我们把脑中的奇思妙想画出来，其随机性也扩宽了想象力的边界。因而，创意梗图一直是AI绘图领域的热门类型。

我们来开开脑洞，让Bing画一只巨大的猫咪爬在东方明珠电视塔上。

只有左下的一张比较符合要求，其他东方明珠塔的数量和造型都有些错误，而且猫咪看起来像是动画建模，不太真实。

Midjourney虽然画出了真实的猫，但地点不在东方明珠塔，大小比例也不对。

A giant cat climbing on the Oriental Pearl TV Tower --v 5.2

下面我们再画一张最近的热门IP表情包，“Loopy正在上班”。

起初Bing不认识Loopy，理解成了古怪的、疯狂的意思。我们告诉Bing它来自韩国动画片《小企鹅Pororo》之后，Bing表示明白了，却把正在工作的主角换成了企鹅。

看来DALL·E 3还缺乏对于最新流行的素材训练。如果换成更经典的IP，那么DALL·E 3和Midjourney都能准确表现，并且DALL·E 3还配上了文字“假装上班，正在摸鱼”。

A meme of Pikachu working at a computer --v 5.2

最近AI绘画还流行一种模仿iPhone拍摄的恐怖照片风格，非常贴合万圣节的氛围，我们试试直接输入这一大段的描述。

提示词：“a picture being taken of a cryptid sighting of [your character] as he runs into the bushes. [your character] has gone completely insane. He turns his head and creepily looks into the camera as he makes his getaway. Theres a thick fog, and the scene is dimly lit."

四张图片基本都满足要求，左上的皮卡丘有点怪可爱的。但是同样的提示词，Midjourney就不能完全理解，还是需要转换成“咒语”。

故事书/漫画

在OpenAI官方演示中，ChatGPT可以通过自然的对话生成一只想象中的刺猬，并逐步生成完整的故事情节、绘本和系列贴纸。所以画故事书/漫画的流程被大大缩短了，如果你有一个想法，可以让AI先帮忙扩写故事、描绘场景，然后根据自动生成的提示词画出完整作品。

以丑小鸭变天鹅的故事为例，我们要求Bing把这个过程以儿童绘本的形式画出来。

Bing虽然一口气生成了三个画面，的确有丑小鸭和白天鹅，是儿童绘本的形式，但是前后缺乏逻辑关系，情节呈现不完整，可能还是需要自己按照一个个情节依次引导生成。

Bing还可以重新创作一个新的故事，比如它帮我设想了一个拥有超能力的超级英雄“洋葱侠”，画出了它和邪恶厨师的战斗画面。真别说，故事梗概和画面都挺符合我的想象的，你觉得怎么样呢？

小结

通过以上测评，可以看到DALL·E 3在搭载了ChatGPT后，可以完全用自然语言进行交流，在对话中绘图创作，不用复杂的提示工程，简短的提示词就能生成不错的图片，对抽象需求的理解能力也比较强，支持中文。不过文生图仍然是越详细的描述，输出越准确，这一点没有变。

DALLE·3和Midiourney等其他AI绘图产品相比，各有其优劣势：

在使用体验和交互上，DALLE·3的交互式绘图比较直观方便，降低了使用门槛，还能直接读懂大段文字自动作图。Midjourney目前主要在Discord平台上运行，需要在特定的频道里输入描述，不能文字交互。文心一言虽然也可以在网页上通过对话绘图，但缺少上下文理解，不能继续调整，目前一次只能生成一张图。

图源文心一言

在生成图片方面，DALL·E 3的优势是能生成较为准确的文本，可能有错误，但其他AI绘画产品目前直接文生图得到的文字都难以辨认，需要借助微调模型上传参考文字再融合。DALL·E 3默认生成1024*1024的正方形图片，适用范围较窄，而Midiourney可自定义多种尺寸，其他AI绘图产品基本都支持不同比例。

对于写实风格的图片，DALL·E 3生成的人脸和手看起来可能失真，而Midiourney目前V5.2版本已经非常逼真了，Stable Diffusion也有超写实的人像模型。

另外，在Bing上要求修改图片的时候，Bing是根据对话修改提示语再输入DALL·E 3进行生成，而不是直接修改已生成的图片，DALL·E 3暂时还不能像Midjourney一样快速进行微调，包括扩图、修改局部细节，更不用说Stable Diffusion复杂的参数调整了。所以作为专业创作者的生产力工具而言，DALL·E 3的实用性还不够强。

在安全问题上，DALL·E 3的内容限制较为严格，拒绝生成涉及公众人物、暴力、成人或仇恨内容的图像，比如要求画一张马斯克在火星上的照片，Bing显示无法创建。

根据OpenAI发布的DALL·E 3的22页技术报告，ChatGPT会改写提示，包括删除公众人物的名字、将人物与特定属性联系起来，以及以通用方式书写品牌。OpenAI还开发了图像分类器来检测图像中的存疑内容并阻止模型继续生成。

报告地址：https://cdn.openai.com/papers/DALL_E_3_System_Card.pdf

同时，微软表示，为了保证用户通过Bing Image Creator创建的内容的安全性，已经在生成的图片中内置了，符合C2PA规范的数字水印，包含图片创立日期、出处等信息。人的肉眼无法看见这些水印，但AI能识别出来。

总之，OpenAI的DALL·E 3现在加上了理解文字和图像的智慧大脑，我们可以把ChatGPT作为合作伙伴一起头脑风暴进行创作，无论是出于娱乐爱好或者专业需求。AI绘画模型正在不断进化，根据不同的用户需求和适用场景可以选择不同的工具，DALL·E 3不会完全替代其他产品，但新的创作方式已经更进一步了。