我们来了一场300人的AI绘画图灵测试

前言

2023年，生成式人工智能的浪潮席卷全球，AI绘画凭借着快速的出图和易上手的使用，迅速掀起了大范围的讨论和实践。生产工具端，我们看到Open AI的DALL·E 每天平均生成超两百万张图像，也看到Midjourney凭借11人的团队打造了千万用户量级社区；在用户体验端，既有《太空歌剧院》在艺术领域崭露头角，也有不少类似无尽的三月七的整活体验。

今天我们邀请到了Infinity Ward Lead UI Engineer董晶晖、Tiamat创始人青柑、星引擎社团游戏设计师南瓜&资深美术Angel，一起来探讨AI能生成有趣的创作风格和元素吗？

董晶晖：Infinity Ward Lead UI engineer，参与开发《使命召唤：现代战争2》、《使命召唤：现代战争》、《使命召唤：战区》、《使命召唤：二战》和《Skylander Battlecasters》，同时个人专注 AIGC 创作，喜好探索不同的可能性，着迷于视觉元素和表达；
青柑：Tiamat创始人，相信科技和创意结合的浪漫，随时期待AI的新可能；
南瓜：星引擎社团游戏设计师，曾参与制作《幻想计划》《交响星辉》《星引擎Party》；
Angel：星引擎社团资深美术设计师，曾参与制作《仙剑OL》《龙之谷2》《交响星辉》《星引擎Party》。
成志&ROSA：主持人，AI+游戏市场观察者，GameTrigger投资副总裁

他们探讨的话题包括但不限于：

AI和人工作画有哪些区别？
AI绘画的出图管线探索
AI目前已经可以助力大型游戏开发了吗？
AI绘画如何助力小团队开发？
AI绘画想融入开发管线面临哪些挑战？
模型层面有哪些技术探索？

我们将他们的部分讨论整理成文，期待能带来新的思考和启发，Enjoy~

图灵测试：辨别AI作画

南瓜

我挑了些偏氛围感的插画，但里面只有一张是人画的，猜一猜是哪张（还有张是我自己用AI出的图）？这类氛围图主要传达大致的感觉，细节倒不那么重要。

Jim

我倾向于在3和4里面挑选。虽然我认为4确实有些冗余的地方，AI出图也很容易有画面脏的感觉，但我还是坚持4是人画的吧。

南瓜

正确答案是2。1和4出自我比较喜欢的AI创作者，氛围感很棒（图一：小红书@ZhouPengART，图四：小红书@灵言-01）。其实2虽然是人画的，但里面也有不少小细节处理得不够好。不过作为氛围图而言，已经能够传递出大部分感受，这种就没要去解读类似笔触等每个细节。

编辑补充：现场观众正确率不足30%

Jim

我这里四组图片对应的是不同主题，但不一定是一张人工、一张AI，可以猜猜看。

1.左上-真人题材组

南瓜

我觉得2是生成的，它的头发和五官有一点机器的影子在里面；1我感觉像是真人照修片。

Jim

其实 1是AI生成，2是真人，现在很多真人照片还挺难区分的。

2.右上-2D题材组

Jim

这里1是AI画的，2是真人。与写实照片相比， AI会更擅长把一些逻辑性的细节添加在作品里，但是如果在写实照片里有太多元素就很可能出现细节问题。

3.左下-创造性题材组

Jim

这组两张都是AI画的。它们的作者很擅长用AI进行世界观创作，你很难直接通过内容去反推prompt，复刻的难度很大。

4.右下-3D渲染组

Angel

我猜左边的是AI，因为它光影上比较假，太理性了。

Jim

对，以及左边的图会有细节冗余，比如头上的线，没有太多意义。

青柑

我之前也有过美术经历，最初AI出来的时候我是自愧不如的，而这几张图不管是对于事情本身的表达，还是对于设计的感受，都让我印象深刻，可以猜猜哪一张是人画的。

答案是4，我们也一直在探索AI表现出的氛围、意境，在插画领域能否有足够好的表现。如果再稍微修一下图，就更难准确的去判断了。

Angel

我这里只有一张是人画的，都是二次元、卡通风格的人物角色。

Jim

我猜是4，主要是人物细节从设计上看比较符合逻辑性。比如左边角色脚下并不是没画好的阴影，而是穿的冰靴。

Angel

对，答案是4。

董晶晖Jim分享：AI出图管线探索

我本职是参与《使命召唤》系列的UI开发，个人平常在用Midjourney、Stable Diffusion进行角色和世界观搭建的创作。尽管我并不是直接的美术岗，但设计都有相通性，都在用不同工具去解决问题满足需求。那今天我的分享就从如何用AI工具进行角色设计、寻找合适的管线展开，希望对大家有启发。

（小红书@Jim Huihui）

我将以近期在探索的S项目（个人AIGC作品）为例，希望既能通过AI工具创作出新的视觉元素，整条管线也能满足角色的设计需求。

在开始前，我们首先需要了解所使用的工具，关于Midjourney，有四个特点想跟大家分享：

1. 第一，它拥有强大的素材库，也可以说它拥有强大的模型，某种意义上甚至可以把它当成一个图片搜索工具；

2. 第二，它具有很强的艺术风格模仿能力，对比SD必须训练模型或者Lora，MJ能在相同资源前提下表现更佳。

3. 第三是关于MJ的劣势，它很难保证出图一致性，尤其是以工业标准去审视时；

4. 第四是无法避免的Prompt污染，多个提示词间可能相互影响，比如输入红色的衣服、蓝色的天空，出图可能变成蓝色的衣服和红色的天空。

具体来说，我希望通过S项目达成以下的设计目标：

1. 避免开盲盒的出图流程，提高出图率，在个人使用时反复修改提示词或出图，固然能在几十张里面找到一两张满意的，但这种开盲盒流程一是不能到达工业管线要求，二是容易造成注意力分散，沉浸于开盲盒的眩晕中；

2. 找到稳定出图流程，当我有新需求时，当前的流程不需要进行大的修改，只需要做细微调整，这也是AI工具达到工业标准的目标之一；

3. 我希望设计需求优先级更高，不能因为AI限制而妥协；当AI工具无法实现需求时，不应该因此调整需求；同时也是在探索AI工具的上限；

4. 尽可能保证出图一致性，尽管对比于SD，一致性并不是MJ所擅长的，但我还是希望尽可能达到这样的目标。

接下里，我介绍一下希望设计出的人物形象：

她是一个擅长在雨天进行任务的杀手，擅长使用各种自制武器，这些武器日常伪装会被成工具甚至玩具；她的外在形象不具有威胁性，以便降低目标的警觉性，但实际却有强大的行动力和攻击性。
基于此我提炼出三个关键词：杀手、反差、雨水。

接下来是我的出图流程，总体可以分为四个步骤：

1. 第一步我称为0.5版本，主要是收集素材。

因为这个人物喜欢在雨天出击，所以我着重收集了雨衣或是防水材质衣服的素材；同时我希望它的造型不仅具备功能性，也具备一定的装饰性，所以也收集了类似雨衣设计的时尚领域素材。

同时，我会尽可能的收集现实中的真实照片。主要是因为，第一，素材需要尽可能高质量、高分辨率；第二，我想避免使用其他美术已经出现的出图或设计，在最早期我不想引入他人的美术风格、设计特点到管线内。

最后是尽可能收集全身图素材，这对于生成全身像的人物设计比较重要。

2. 0.8版本使用MJ Blend出图，找到贴近目标的设计。

之所以使用Blend模式，主要是因为更能掌握变量，可以比对A+B和A+C提示词下的出图结果；而Imagine模式下，为了达到设计需求势必会加入多个提示词，这样就很难通过排除或添加某一个提示词来清晰的知道影响，容易陷入多样性有限的集合；

且Blend也可以通过限制Prompt数量来减少提示词污染。我不需要像Imagine模式里用最仔细清晰的提示词描述设计细节，避免不必要的元素引入或者冗余信息。

最后我选择了一些带有符合需求方向的设计元素的出图，比如衣服贴近防水材质、具备宽大和半透明的袖子、运动服、人物全身像等。

3. 0.9版本使用MJ Imagine，试图达到稳定、一致的风格和成果。

以上一步的素材作为引子，再添加关于细节和艺术风格相关的提示词。我把艺术风格提示词作为提升一致性的工具，可以通过Describe功能去找一些认为不错的艺术风格素材。

4. 1.0版本最终在Photoshop处理图片，加入元素和细节，把同样用AI生成的武器和道具最后添加到素材当中，完成基本人物出图。

可以看到在这个效果图中，人物的衣服材质接近于雨衣，具有宽大的袖子，戴着战术手套；在左边也可以看到他们的武器，有匕首气钉枪以及装有腐蚀液的水枪，主要用于刺杀过程中的攻击，以及刺杀结束后逃离。人物的衣服款式、材质、武器装备等都比较符合最初的雨中杀手设定。

5. 回顾整个管线，我着重想解决的就是Prompt污染问题和一致性问题，但离工业化水平仍有差距。且目前存在难以生成手持武器或装备状态的人物，面部风格也很难做到完全一致。

基于上述流程可以总结出关于AI画图工具的四点阐述：

多样性：可以从艺术风格和生成元素两个维度探索，但会受到模型限制；
一致性：目前很难达到工业标准的一致性，设计需求的复杂性和出图一致性成反比，尽管像SD有提供强大插件试图解决，但目前最有效的方式仍是能通过大量的素材训练解决，甚至一个模型只服务于一个角色。在这种情况下，反而是工业级别的团队才有能力去进行操作。
可控性：工具可控部分有限但发展迅速，对用户愈发友好；不管是闭源还是开源的AI工具，势必要有更多对用户友好的接口，才能让大家更好的去使用和去了解；
创造性：产出率决定于使用者的方式和创造性，我希望能用大家更为熟悉的元素和文化作为基础，创造新的视觉元素，创造出让人熟悉、但是又新颖的体验，创造出符合我们感同身受的形象，甚至是IP。

最后总结：

AI为行业整体带来的正面影响大于负面。从工程学的角度来说，我们还没有将AI工具发挥到极限，如同最初的摄影师只追求还原真实，我们还处于新技术的眩晕当中，我希望我们能创造出让大家“熟悉又新颖“的事物。

Tiamat青柑分享：模型层面的技术发展

关于Tiamat：

我们最早在22年3月份开始在小红书上发布模型生成的结果，比DellE 2和MJ公测都稍早，包括Tiamat这个名字都是最早期我们核心的、帮助我们测试模型和反馈数据的用户一起投票投出来的。我们也比较了解和支持开源生态，且非常相信开源生态会带给整个行业变革。

目前公司产品有三个，一是更加专业的网页版Tiamat，二是小程序版本，三是QQ频道版本。我们希望做最有温度、最亲民的AI。

关于工作流：

我对于游戏立绘方面很感兴趣，公司也做了不少落地的项目，在这以角色设计为例讲一下我们的工作流。其实像Jim老师刚才出的那种设计稿离实际游戏内还有一段距离，在我们接触的案例中，通常是已经做好了设计草图，在得知角色的形象细节、衣服材质、整体设计观感等要素后，我们要做的是产生实际可上线游戏的素材图。

用Tiamat生成角色剪影

在有了设计稿后，我们主要关注剪影和游戏设定的感官是否一致，比如这张立绘是一个站立的角色，有倒梯形的剪影，这里不太关注角色每个设计元素是否准确，而是先定草图。

此外还要注意版权问题，所有东西都是从零生成，或是基于客户给的内部素材。
人工调整

在生成剪影的基础上，我们需要人工将相关素材贴上剪影，此时有很多设计细节仍需要人工调整，包括材质、光影等，这一步最后的质量需要达到一般二游首页立绘的水平。

Jim老师刚才说的一致性问题现在就暴露出来了，比如我现在做出来一张角色阶段一，当他变为阶段二时，我要怎么样保证他的脸、气质等设计都不变。目前解决方案仍主要靠抠图换脸，哪怕相关元素已经设计好了，要做成实际使用的产品都需要先用AI从零生成一个剪影，人手去把元素贴上去，再去用类似的技术生成出图，最后再调整面部、饰品、材质等细节。

尽管经历了上述一个不短的路径，生成的立绘依旧不能过于复杂，如果设计元素过多，AI仍无法很好地处理。

关于创作中的问题:

AI缺乏联想能力

我们比较专攻二次元游戏，而二游角色的魅力非常依赖设计细节、人物背景、世界观设定，而AI还不能完全理解这些内容。比如上图中的牧师形象，她背后的天平、小树枝等元素来自于人拿到素材或设计要求后大脑展开的联想。而AI目前的联想触手范围不足，很难从零到一的把这些步骤做好，也没有办法做精细的联想。
技术上有局限

在技术细节上，存在图像细节充分，但并不代表它的单图像素足够高，就算训练素材高清、高像素，出图却不一定有充分的细节、并且满足项目需要的像素清晰度。
背景图类美宣实现落地

AI作为一个辅助工具，在帮助快速将设计好的元素、有意思的设计落地上，已经是打通了的。在游戏领域，背景图类美宣已经能实现不错的效果，相比于对角色形象的高敏感度，人类对背景图的关注没那么强。接下来我们会着重在设计审美和想象力本身的工作上下功夫。

南瓜分享：小团队怎么样用AI

南瓜

我主要是以游戏制作人的身份展开，更偏向于前期概念跟企划上面。我们社团在AI美术上贯彻的观点是：使用AI作为工具，但我们不要变成AI的工具。AI对于我来说是作为传递感受的工具，哪怕细节上存在错误，但其他岗位的同学可以直观的了解我想要的感受，如果只读文字的话，不同人脑内产生的画面可能会有比较大误差。相比于以前策划案上可能出现的“灵魂绘图“，现在AI已经能传递出理想的氛围感。

将AI应用在背景说明上，既可以避免前面提到的问题，又能最大化发挥作用。作为概念设计图，传递感受就是目的，只有到了真正的游戏立绘上，细节才会变成目的。氛围图就是传递感受的，图像里面所有的信息都是配角，作为概念设计图，有八根手指也不会影响它氛围是那样的。但落地到真正的游戏立绘上，只有细节画的很好玩家才愿意氪金，这点我们觉得目前的功能还差的蛮远。

推荐一个我认为目前已经不错的落地场景：AI插画。比如B站上有小说音频会配一些AI的插图，尽管插图和小说内容可能不太相关，但读者的主要注意力并不在图片上，主要是配合文字传递氛围，而如果请画师去画一套，成本将非常高。

以我们制作的一个Demo为例，早期Demo的人员、资金投入非常有限，而现在各个工种非常细分，对于小团队更是容易出现人员上的捉襟见肘。

当时我们想做一个网络迪厅感的Demo，而这种会非常依赖场景和特效。但这个背景里所有的人物、场景、小的光影效果其实都是AI做的，我们只投入了两三个人，总共用时不到四小时，其中AI工具上花了两、三个小时。当后续专业的场景、美术同学接入后，会对后续方向有感知，而不是面对一张白纸或三次元参考图，节省了大量讨论和迭代成本。

我们几个初始做demo的同学使用AI作为工具生成一些我们认为很对的方向和效果，它生成的质量在该时间段是不重要的，而是传递出我们未来会有一堆观众、在一个这样子的地方，再通过一些语言描述或者配图配置，新进来的同学就能快速了解方向。

Jim

我的那套管线在探索上前前后后花了有一周多，但是流程找到后出图达到人物效果大概也是几小时左右。

ROSA

Jim老师有提到您那一套管线其实更适合大公司去做，一个模型只产出一个角色，为什么会有这个观点？

Jim

我在解决一致性问题时，发现当使用很多素材去训练其实是能达到一定的精准度。而公司它本身有自己的素材库，完全有条件、有资源、有成本去承担针对角色的训练。但面对创造新内容的场景时，大量素材就不一定完全适用了。类似南瓜老师的思路，我们不要指望AI一劳永逸的出图直接用，而是作为辅助工具，针对不同的场景去使用，这个才是目前对于大部分个人或者团队来说更好的思维方向。

ROSA

有没有可能把您那套管线像咱们传统开发的时候进行分拆，比如说草稿、三视图、以及后续物件角色的细化，让不同的同学帮你一起完成。

Jim

我觉得可以，但目前较难实现，因为会涉及到一致性问题。但如果只是作为出发点，展示表达设计需求、设计逻辑和元素，其实目前是可以的。之前提到的人物拿武器或不同姿势的状态图、服饰道具、面部等方面进行细化扩展。

北美游戏行业的AI使用情况

成志

我们对北美游戏行业的印象更多是偏成熟的、工业化的项目，对稳定性要求都更高，同时北美也是AI可能更加发达，讨论热度更高的一个地区，那实际上大家从业者或公司之间有没有在用这些工具？

Jim

各大公司一直在关注，但让AI落地于管线还需要时间。对于成熟的管线来说，我们希望有达到当前标准、直接应用的工具，另一个让人哭笑不得的事实是，当有大量的素材去训练时，其实往往有成本更低的管线去达到相同的目的。对于公司层面来说是处于保持探索和观望的态度。

从个人的角度，北美有大量的AI开发者、创作者。他们很喜欢用AI去构建虚拟世界，不只专注于人物形象本身，我自己也希望不是只专注单张的的出图，而是处于一个大世界观的框架里。

Angel分享：资深美术怎么用AI

Angel

我觉得AI可以把一些想象中很飘渺的东西变得比较落地，能够帮你把设计的想象边际拉的更宽。

我曾经有很多特别牛的想法却因为能力不足难以表达出来，比如说我想做钻石头发、黑胶裙子，这种基本要把技法练到最厉害才可能把想法落地。但AI不需要可以帮助减少这种顾虑，所有天马行空的想法都可以先用AI尝试制作。

我个人的使用流程中，人工调整的这个时间跟自己绘画的时间相比其实差别不大。如果只基于AI成品调整，反而容易被它束缚。所以一般是调整角色光影、创意广度等情况下会用到AI，接下来还是以手绘为主，或是先丢进AI渲染看看参考效果。

发行视角：AI能否助力发行

成志

对于普罗大众而言，是不是也可以开发出某种工具，尤其二次元产品讲究同人氛围，大家能更好的生成自己想象中的OC。比如想给我们喜欢的游戏做一套漫画，现在是可以落地的吗？

青柑

目前让漫画从业者来看是不够的，但如果只是自己玩OC、四格漫画类是可以的。虽然一致性还不强但也够用。四格漫画对于分镜的要求很高，AI还没有在这方面做专门优化。

技术侧的探索方向

成志

接下来这一年你觉得AI作画会朝什么方向发展，学术上在探索什么？

青柑

一是更多模态的输入带来的控制，二是更精确的文本控制。

目前AI在控制生成内容上的能力并不强，主要是跟数据集和训练方法有关，CLIP技术是OpenAI的，但开源出来的不是完整版，基于此做的文本图像配对可控性肯定不如DellE 3，基于此延展出两个可能的方向：一是把语言的精细控制做到最强，同时打通视觉模型，把AI当作乙方，不断的修改生成结果。

二是在图片输入侧增加更多模态的输入，就像刚才Jim老师提的为什么第一步用blend而不是Imagine，就是希望用图片自带的信息去生成。

控制变得更加精细，其实变相把不同人使用工具的差距拉开了。我们都还处于技术最早的探索阶段，但如果它要上升成工具，人参与的程度要变得更重。只有人与人之间使用工具的能力拉开很明显差距，它才能帮助我们去做更好的创作和设计。

但最后，非常精细的控制是不是创作者所需要的呢？因为文字的模糊性可以带来想象力，这也是为什么最早文生图能火的很快，让每个人都能把自己的创意表达出来。带有一定模糊性的Midjourney把审美做的很好，又富有想象力，所以它的社区氛围也好，大家用它的动力很强。

注：以上内容仅代表嘉宾个人观点，不形成任何普适性结论。