救命!找教练却被吊打,这届火影AI到底有多离谱?

来自 魔方工作室 2022-06-16

[ 转载自 魔方工作室 ]

救命!找教练却被吊打,这届火影AI到底有多离谱?

游戏陪练大家都不陌生,但是能力堪比“电竞选手”的“AI陪练”你见过吗?这位“电竞陪练”不需要玩家花一分钱,就能感受到其各种逆天操作,甚至……被虐。

这种神奇现象的造成都是来源于《火影忍者》手游「晓·觉醒」活动,活动一上线便引发了玩家的热烈反响。多数玩家高呼“太难了”、“有手我也过不了”、“策划出来挨打”以及“一心想证明自己,今天誓要摸AI头”的态度,直言要和人机大战三百回合的爆肝行为。

图3.png图2.png图1.png图4.png

「晓·觉醒」AI是如何练就超影般的实力,成为玩家们热衷于挑战的大BOSS呢?本期魔方技术力邀请Elvis老师一起揭开「晓·觉醒」AI的秘密!


「晓·觉醒」背后的大佬

图5.png

魔方引擎中心专家的Elvis老师是本次「晓·觉醒」活动研发团队领头人。在Elvis的带领下,刚刚成立一年多的引擎中心AI组,便主导了「晓·觉醒」活动中的AI策略输出,让玩家体验与AI对战的“快乐”。既然「晓·觉醒」的身世已被揭晓,下面就有请技术大佬带我们了解「晓·觉醒」AI“超影级”实力的秘密!


大佬带你快速看懂AI智能体

我们AI团队基于《火影忍者》手游中决斗场的对战玩法,构建起针对全忍者的训练与评估体系。包括适用全忍者的通用AI模型与针对特定忍者的定制化风格AI模型。初衷是利用深度强化学习技术为动作格斗游戏提供多样化的拟人类 Bot AI,为玩家提供全新的格斗体验,这项技术所具备的优势:

能力上限高

多样化机制多

自动化训练,人工成本低

强势的AI是玩家提升技术陪练的不二之选,决斗过程中玩家需要不断适应,花心思调整对决策略和操作准确性,收获挑战成功后的喜悦。这个过程,各种决斗套路也将被玩家掌握并实际运用。

相较于传统AI,我们团队带来的全新AI在对决场景的实际表现——攻击范围和伤害与玩家的操作输出保持一致,寻求更高层次的策略博弈与玩家对战,因此大家可以看见AI智能体可以像人类玩家一样在移动、技能或通灵秘卷释放等多个维度上同时决策做出实时反应,掌握的技能包括了位置、血量、忍术点、技能、通灵秘卷等信息,并组合出最优的“临场反应”。这也是玩家感受到AI强大压迫感的原因。“收手吧,村民们!决斗场上都是我的技能”。

在决斗场表现如此抢眼的AI,从诞生到技术成熟,AI经历了我们团队三个阶段的训练,最终获得“超影”实力。

基础“体能”训练——通用策略训练

“战术”训练——BR互打训练

“实操”演练——最强版本问世


AI是如何炼成的:“体能训练”

「晓·觉醒」AI不俗的实力,源自我们像训练运动员一般训练我们的智能体。运动员日常训练基本功是体能训练,对于我们的AI而言,如何在决斗场上“花式走位”是至关重要的基本功,好的走位能够合理规避对手进攻和反打对手方式,这是非常实用的行为逻辑。在AI初期通用策略下,AI已经演化出了一套它自身的进攻和躲避的方式,对手向自己靠近,AI的反映行为是会直接走位拉远距离进行躲避;而当自己技能CD好了,就会果断根据对手和自身的位置放出技能,这种策略逻辑看似很合理,但却过于简单粗暴,没有充分利用忍者各自的独有机制控制局势。在这个基础训练之上我们需要有所升级。

QQ截图20220616174359.jpg


AI是如何炼成的:“战术训练”

众所周知,火影忍者手游拥有众多忍者角色,但是每个角色也有着自身的能力上限,不同角色的技能机制上也有着一定的克制关系,这个阶段目标就是让AI智能体在掌握初期通用策略的基础上,做针对性训练。

这个阶段的训练,我们要教授AI智能体定制化的“战术套路”,让它根据对手战术“见招拆招”,提升自身技能攻击精准性和灵敏度。我们采用了Best-response(BR)训练的方式将演化出每个角色掌握自己的“肌肉记忆”,每个角色可以灵活掌握进攻与防守的平衡。

图6.png

01 从自博弈中涨经验

训练AI自身时,我们从静态角色池中随机抽取对手,固定对手的模型,每次只会训练一个角色的表现,通过自博弈方式,自己PK自己来提高自身策略,在反复迭代过程中,AI会保留了一个个历史版本的“自己”,通过战胜过去较弱的“自己”涨经验。

QQ截图20220616174816.jpg

视频中所示自博弈的多次循环迭代,宇智波鼬逐渐意识到哪些动作能使自己在博弈中取胜的概率最大化,最后的对决中,大家可以看到AI在少量的HP损耗下一波输出带走前一个版本的自己。BR训练方式力求让每个忍者充分理解自身的机制从而演进出特有的一套策略,而这套策略其他忍者学不来也不可复用。如此每个角色至少有一个自身特有的模型,不同角色的表现得到充分的分化。AI完成上述训练的人机学习后,才会进入新一轮角色抽样进行学习。

QQ截图20220616174825.jpg

02 策略训练下忍者独特表现

例如宇智波鼬的技能,虽然没有灵活的位移,但是有着霸体效果,AI会在学习迭代的过程中学会用霸体顶掉对手的控制技能,合理地用“硬刚”的策略打出爆发性伤害 。

QQ截图20220616174834.jpg

而像宇智波斑、新春小南这样有多段位移,且在位移期间免控的角色,则会利用这些位移技能骗取敌人关键技能和躲伤害。例如敌人一放通灵,AI就会用位移拉开距离;当敌人放出伤害技能,AI则会用位移技能躲开后进行反打。

QQ截图20220616174842.jpg

03 额外“奖惩”

对于我们人类而言,奖励是我们常见的学习动力。同样在AI的人机训练中,我们为了达成一个特定优化的目标,加入了奖惩机制。完成目标过程中,AI的正确行为会得到奖励,而错误的行为会受到惩罚。在这样做时,我们可以试图将AI的错误降到最低并将正确率提高,将我们的AI比喻成一名短跑运动员,它的最终目标便是找到最佳竞技状态并赢得冠军,为了重回巅峰状态便制定了一系列正向机制。第一步策略——减脂,降低自身体重,使跑步的速度得以提升;第二步训练——加强核心和大腿肌肉锻炼,在肌肉的强化下,使其速度更快,并让肌肉记住这种状态;最后一步便是摸索出专属自己的起跑姿势,突破瓶颈,找到最好的状态拿下冠军。

QQ截图20220616174856.jpg

针对不同的角色,我们在常规的通用奖惩外定制了各自专属的奖惩机制,包括通灵秘卷的不同释放时机、自身技能的组合方式等,AI 做出了对应的决策便会获得奖励,奖励便会让 AI 强化这次决策的“记忆”,在下次有更高的几率做出类似的决策。最初我们原先设计AI的奖惩只考虑了HP的变化,即当AI采取了导致“自身HP进一步领先与对手HP”的动作时给予正向奖励,鼓励后续在类似状态下采用相同的动作;但这种设计导致了AI在行为上过于单一激进,不能很好地利用自身忍者设计机制、通灵秘卷的功能等,表现上也和真实玩家相差很大。

QQ截图20220616174904.jpg

因此后续我们引入了更为丰富的奖惩体系,举例来说:“替身反击”奖赏会鼓励AI在替身后利用无敌时间来进行走位与技能牵制,避免替身后仅仅是拉远距离而忽视了创造优势;“三技能使用”奖赏即为“奥义奖赏”,鼓励AI在奥义无法衔接技能时仅斩杀对手,避免局中释放奥义使得自身没有忍术点而处于劣势;“优势避战”引导的则是保证AI在获得了血量优势后,依旧可以正常进行对战博弈,避免AI在优势下仅仅利用自己走位来规避战斗,给玩家带来非常不好的对局体验。这样客制化的奖励让 AI 能够更合理的利用角色机制,分化出更丰富的打法。

QQ截图20220616174911.jpg


AI是如何炼成的:“实战演练”

最终呈现到玩家面前的「晓·觉醒」活动AI是最强版本智能体,它可以自主预判对手的技能释放,从而根据实际情况判断何时进行伤害输出或者躲避,同时也可以根据双方忍者的属性,灵活的利用技能进行走位或骗取玩家的替身。

对于人类玩家而言,意外情况下被对手先手压制,被动使用替身技企图反打,这是一场"豪赌",漫长的15sCD冷却时间玩家可以成功反制,也可能被骗替身一波带走。

对战中一旦玩家提前释放了替身而没能成功反击,玩家将在接下来的15s中眼睁睁看着自己被AI暴打却毫无办法;而AI是具有大局观的,并不是只考虑当下那一刻的动作,它的目标始终是为了获得最终的胜利,我们确保它的视野能关注到至少10s内的全部对战情况,大局观和前瞻性让AI对替身时机的把握更加精准,甚至AI还会用通灵、秘卷等特殊技能来顶掉对方的控制效果,以此来重新获取对战博弈中的主动权。

QQ截图20220616174919.jpg

AI可以利用好这种特殊的机制也是为AI的能力上限提供了更大的空间。活动上线后,超影玩家被虐的名场面陆续发生。


01 特定角色的自身技能机制

对于特定的角色来说:比如具有较长攻击距离的飞段会倾向于用手长的优势,在安全距离反复消耗对手。小南、阿飞这样的技能自带位移+霸体免控的英雄,会利用自身的霸体技能打出很秀的灵活躲技能后反打的操作。

而像佩恩、迪达拉这样具有组合技能(具体表现为佩恩的1,2技能有多段伤害,迪达拉可以上鸟后释放不同形态的技能),AI也会充分利用派生技能打满伤害,充分利用自己的技能机制。

QQ截图20220616174946.jpg


AI留一线,日后再相见

《火影忍者》手游的「晓•觉醒」活动,引起了玩家广泛的关注与讨论并参与这场特殊的“科学实验”,本次人机大战上线的AI,是我们研发团队上千万次训练的最强版本,根据活动完结后的数据统计,玩家们在整个活动期间三个AI挑战阶段的胜率分别是40%、20%和10%。在这场人机的巅峰对决,依然有玩家展现出比AI更强大的操作,10%的玩家击败最强阶段AI,为这10%的玩家掌声奉上,“AI很强,但是我们人类依然是不可战胜的!”

图10.png图9.png图8.png

最后秉持“不负责、不确认”的态度带来爆料:不少玩家表示在「晓•觉醒」活动中学到几手骚操作,在决斗场上轻松上分,强烈建议保留AI陪练(活动的“科学意义”不就来了嘛),各位小伙伴不妨可以期待《火影忍者》手游强大的AI陪练功能再次与大家见面吧,助力童靴们在决斗场的强势发挥!

图11.png

感谢elvis大佬的分享,「晓•觉醒」活动虽然不少玩家大倒苦水,但是小魔方却看到大家不服输的斗志,在夺取称号中一次又一次不屈的挑战,最后获得挑战boss成功后的喜悦。「晓·觉醒」的出现让我们切身体会到AI的强大之处,设计AI挑战活动的重要目标之一就是给玩家带来全新的游戏体验和新的难度挑战机制,而未来还会有更多像电竞教练一样的AI,帮助玩家不断提升自己的操作意识和打击手感,在决斗场中找到自己的专属节奏。

文章评论
游戏葡萄订阅号