腾讯研究人员利用热门游戏《王者荣耀》作为训练平台,展开了一项创新研究,旨在让AI在游戏中学会“战略性思考”,并研发出了全新的TiG(Think in Games)框架。相关研究成果已在Hugging Face平台和arXiv期刊上发表。
研究团队指出,当前AI模型在游戏中存在明显的功能局限:以游戏为取向的AI虽能正常游玩,却无法理解自身决策;而语言模型虽能推理策略,却难以执行实际操作。为此,他们开发了TiG框架,使模型能在游戏中同步进行思考与行动。
研究过程中,团队以《王者荣耀》为训练范本,首先利用匿名且标准化的赛事数据,定义了推上路、击杀暴君、守家等40种宏观行动,确保AI模型在各种场景下都能选择最佳策略,并解释其战略意图。训练分为两个阶段:先是监督学习,让AI弄清策略的基本机制;再通过奖励机制进行强化学习,正确行动得1分,错误行动得0分。
在模型测试阶段,团队选用了多种语言模型,包括Qwen2.5(7B、14B、32B)、Qwen3-14B模型,并使用Deepseek-R1大模型作为对照。通过从Deepseek-R1提炼高质量训练数据,并运用群体相对策略优化(GRPO)技术,比较不同策略之间的优劣。 |