离开阿里创业后融资上亿，为何莉莉丝等大厂会青睐他们的AI技术？

假如给你的游戏安排一个7x24小时不吃不睡，能打出高中低水平，运用成百上千种风格和策略的虚拟玩家，你会用它来做什么？

在三年前创业的时候，袁泉和龙海涛并没有什么明确的设想和答案，他们只是看中了AI兴起的趋势，从阿里出来创办了新公司启元世界。游戏圈的朋友可能不太了解，这两位都是大神级的科学家，在阿里留下了辉煌的战果。

袁泉曾在阿里认知计算实验室担任负责人、资深总监，缔造了手机淘宝、手机天猫的推荐算法，是阿里算法技术的P10科学家。龙海涛曾是IBM中国研究院研究员，在阿里期间从事搜索广告业务的架构设计，主导了离线系统、在线引擎和搜索内核的升级换代。

今年6月，启元世界研究的星际AI以两个2：0的成绩击败了《星际争霸I/II》全国冠军黄慧明（TooDming），以及黄金总决赛三连冠选手李培楠（TIME），也意味着中国星际AI首次在公开比赛中战胜国内顶级职业选手。

拿到这样的成绩之后，启元世界也越发被资本关注。目前，该公司已累计获得上亿人民币融资，由高榕资本等知名机构投资。不仅如此，不少一线游戏厂商也看中了启元AI的应用前景。

从今年起，启元团队陆陆续续接触了不少一线游戏厂商，发现大家的需求和想法远高于预期，有的厂商则已经开始实际投入运用了。

“会决策”的新一代AI

几年前，AI领域正是AlphaGo火爆的时候，对启元的创始团队而言，它就像是打开了一个新的窗口：“不需要大量的标注数据，就能训练出一个打败世界冠军的AI。”看到这个契机，他们决定离开阿里自行创业，并选择了决策智能和强化学习方向，用《星际争霸II》来尝试技术突破。

与人脸识别等AI选择的监督学习技术不同，强化学习要求AI像人一样，能做出连续的动态决策。

举个简单的例子，同样是面对猫和狗的两类数据，监督学习会对数据标注“猫”和“狗”的标签，让AI进行分类学习，然后用未标注的数据，让AI辨别，最后通过神经网络的结合，优化AI的识别效率；强化学习则不会具体标注是“猫”还是“狗”，同时还需要训练出的AI看到猫以后，能做出“撸猫”的决策，看到狗还会做出“上前逗一逗它”的决策。

这种更高门槛的技术要求，带来了不少的难题，也使得业内挑战这一领域的团队偏少：从商业化的角度考虑，这套技术的成本一定要控制在比较低的水平，否则成本降不下来，无法大规模商业化。

从技术底层的角度来看，首先强化学习需要很大的算力，算力的组织如果做的不好，实现的效果会产生几个数量级的差距；其次是算法需要结合具体的应用场景做大量的最佳实践积累；第三是整个团队的专注和极致深耕能力。

好在，启元世界在强化学习领域起步早，核心团队在BAT、Netflix、香港科大等一流的工业场景和研究平台上积累了多年，他们渐渐积累了一支近百人的技术团队，专攻这一方向。而为了让启元AI达到现在《星际争霸II》的“职业玩家”水平，他们做了几百组的实验，来筛选和优化合适的算法。

0 (1).png

去年底在加拿大NeurIPS 2019会场上，启元星际AI首次公开

经过三年的打磨，终于攻克了这些难关。现在启元AI相比海内外大厂的同类AI，基本可以节省一到两个数量级的算力。有了这套底层的技术，启元AI才能在今年6月战胜国内星际顶级选手。

在今年China Joy参展之后，龙海涛明显感受到来自游戏厂商的关注，包括莉莉丝等来自上海、广州的一线大厂，原因在于新一代游戏AI设计的需求在变多。

游戏AI存在了非常多年，但传统游戏AI设计至今一直鲜有变化，与游戏图形技术的高速进化形成了鲜明的对比。“传统游戏AI依靠行为树的规则来设计，它的弊端在于规则是写死的，当游戏复杂度超出程序员设定的框架，AI就不知道该怎么办了。”

所以基于行为树，既不能写出能战胜柯洁的AI，更不可能写出能通过经验反馈不断自我学习、还能表现出高维度即时策略的复杂智能体。这就好比是很多竞技游戏中的“人机”、“机器人”，它们并不像人。

启元团队发现，其实大家对AI的强度并没有太高的追求，但对它的拟真度、真实性会有很高的要求，这恰好是模仿学习、强化学习、演化学习的强项。

比如在训练启元星际AI的时候，他们实现了260种TvT（指《星际争霸II》人族内战）的战术，包括开局打法、兵种组合，以及多种即时性的随机应变策略等。它的拟真度，高到足以让职业选手无法分辨真伪。

在之前举办的比赛上，《星际争霸I/II》全国冠军黄慧明打完以后告诉他们，说完全看不出像机器人，还用“像一个贱贱的高手”来形容启元AI：“看起来操作不太行，有失误，觉得自己是有机会的，但实际打上去又打不过。”很多职业选手与启元AI切磋之后，同样有这种被下了套的感觉。

不过这只是AI的一面，启元AI的泛化能力也很强：“由于AI可以不停地学习，只要算力足够，它就可以覆盖很多的场景，套路更多，也会更加灵活。”

这样的AI，放到游戏里能做什么？

与数十家一线游戏厂商交流之后，启元团队收到了很多的建议，比如大DAU产品冷启动、新手过渡保护、加速匹配、掉线托管等方面。还有模拟战局、大体量数据的平衡性调试，以及PVE活动设计、玩家行为分析等方方面面。

从目前已有的合作案例来看，启元AI具体有两个方向的应用：虚拟玩家陪玩和线下数值测试。

虚拟玩家陪玩，是目前厂商反馈中最普遍的一类应用模式。在前面对抗星际顶尖选手的时候，启元AI用的是训练了上千万对局的智能体，但在训练中的每个阶段，启元AI都可以调用出不同水平、不同风格的智能体。

“在线下训练的时候，智能体会自己打足够的时间，通过自我对抗来提升水平，我们会设置类似天梯的规则，让智能体打出不同的水平。这时候我们会计算一个分值，来区分不同水平的智能体，然后用人工校准一下，来对齐现实玩家的段位水平。”

这时候，尽管智能体的最终目标都是取胜，但不同段位不同局面之下，它会体现出猥琐、激进、稳健等不同的风格和打法。将这些智能体部署到服务端，通过调节参数调用的方式，就可以生成对应段位、打法、风格的智能体，成为一个虚拟的玩家。

在这个基础上能做的事情就非常多了。

首先是大DAU产品的冷启动。对于大DAU游戏而言，前期用户体量决定游戏给人的热度和匹配体验，而如今买量成本高居不下，适度投放虚拟玩家就可以降低启动门槛。

据了解，由于服务端的部署采用了团队擅长的分布式架构、在线服务器集群等设计，所以现在他们可以做到智能体的大规模并发服务，这带来的益处是成本的大幅度降低：“一个虚拟玩家的成本差不多只有真实玩家获客成本的几十分之一。”

其次可以实现更好的新手保护机制。在上手门槛较高的游戏里，再加上竞技游戏老手炸鱼的问题，往往给新手的体验会很差，匹配AI就可以很好地保护新手体验。而虚拟玩家比常规AI的拟真度高出很多，当玩家察觉不出是否为真人的时候，保护机制带来的体验就会更好，最终这些正向反馈，都会提高游戏的新手留存率。

第三是长线运营上的玩家维稳和唤醒。对于运营时间较长的游戏，往往需要厂商花很大的精力防止流失和召回老玩家，而在提高现有玩家活跃度的过程中，加入智能体可以更好地烘托气氛，提高匹配速度、避免玩家长时间找不到人一起玩的问题。

最后是高端对局的加速匹配。在绝大多数游戏当中，排除游戏刚上线的情况下，新手区间和高玩区间的人数分布往往偏少，大多数人会集中在中间的水平，所以与新手体验需要保护一样，高端局的匹配速度也可以借助智能体来提高。

总体来看，虚拟玩家最有价值的地方，是它能以相对低的成本对流量缺口进行适度的填补。“相当于是有一部分非付费玩家来帮你玩游戏。”

除了虚拟玩家陪玩，线下数值测试也是一个很有价值的应用方向。因为启元AI可以基于算力，在短时间内产生大量的对局，而且可以衍生出不同水平，甚至极端水平的智能体。所以在不招募大量玩家的前提下，就可以借助智能体来进行游戏数值平衡性的测试，预知问题点并进行调整。

“与我们合作的一款游戏，在做线下测试的时候，发现某个武器的胜率只有40%，整体偏低，在反馈给策划调整属性之后，武器的胜率提升到了45%以上，这时候对局的平衡性就比较正常了。”类似的，通过调整不同的参数，比如英雄属性、技能看英雄胜率，同样可以针对性地调整平衡性。

如果仔细挖掘，启元AI还有一些更细节的、功能化的应用空间。比如通过胜率预测来做玩法指引、操作指引，引导玩家做出更有效的决策；又如最强人机挑战等PVE玩法，提供不同水平、有独特风格、能随机应变的智能体供玩家挑战；还有掉线托管，降低同队伍其他玩家的负面体验等等。

要实现这些功能也得做一些准备。

首先是对接。把游戏的环境改造成AI可学习的环境，通过智能体与游戏的信息交互来训练。通过启元提供的SDK开发工具，一般复杂度的游戏几周时间就可以完成对接。

其次是训练。构建好学习环境后，启元AI会在私有云上部署，通过智能体联赛，来进行自我学习，学习的时间视游戏复杂度和所需智能体水平而定。比如用《星际争霸II》训练职业水平的智能体花了两个月的时间，尤其在99%胜率到99.8%胜率训练过程中，消耗的算力和时间最多。但低复杂度的游戏、中低水平的AI耗时会少很多。

第三是部署。训练好的智能体会通过服务器部署，游戏通过设定相应难度、风格，直接调用智能体进行真实的游戏对局。“你可以理解成7x24小时，不吃不睡，智能体就在那儿等着，随时可以匹配你的游戏对局，打完一局以后就再打一局。”

技术是产品想象力的基石

总体来看，现在启元世界的AI技术更多的是应用在MOBA、FPS、MMO、SLG等需要大量用户，存在多人交互场景的游戏当中，但它的应用空间其实远不止这些。

从短期来看，既然启元AI可以模仿RTS、MOBA、FPS等重度竞技类游戏的玩家，那么在受众门槛更低的休闲竞技品类中，自然也有发挥的空间。比如《糖豆人》、《荒野乱斗》、“.io”类，以及《我飞刀玩得贼溜》等游戏，其实都可以引入虚拟玩家，来产生多变对局体验。

稍微长远一些来看，NPC真实模拟，如3A大作中有自己生活规律，随时可与玩家进行多种互动的角色，也是可以借助AI来实现的。再放大来看，基于这种NPC模拟，去构建开放世界中一个自主运转的城市、国家、种族，都是可以遐想的做法。

为了更进一步实现这些想法，启元世界的AI技术也在快速迭代中。目前他们正着手研发第二个大版本，除了在算力效率上会提高数倍之外，也会突破更多的算法效果，真正实现“Have Fun with AI”的愿景。

其实，对启元世界这样钻研技术服务的公司来说，他们能提供的，更多还是承载想象力的智能工具和平台。怎么用新一代的游戏AI技术这个问题，归根结底是对游戏创意设计的拷问：“假如你有一个随时可以调用、拟人化的、高水平的、能适应不同风格的虚拟玩家，你打算怎么用？”