腾讯用《王者荣耀》训练AI“战略性思考”，新框架显成效

223 |0

数码小喇叭 发表于 25-10-4 21:17:26 | 显示全部楼层 |阅读模式

12 px

26 px

腾讯研究人员利用热门游戏《王者荣耀》作为训练平台，展开了一项创新研究，旨在让AI在游戏中学会“战略性思考”，并研发出了全新的TiG（Think in Games）框架。相关研究成果已在Hugging Face平台和arXiv期刊上发表。

研究团队指出，当前AI模型在游戏中存在明显的功能局限：以游戏为取向的AI虽能正常游玩，却无法理解自身决策；而语言模型虽能推理策略，却难以执行实际操作。为此，他们开发了TiG框架，使模型能在游戏中同步进行思考与行动。

研究过程中，团队以《王者荣耀》为训练范本，首先利用匿名且标准化的赛事数据，定义了推上路、击杀暴君、守家等40种宏观行动，确保AI模型在各种场景下都能选择最佳策略，并解释其战略意图。训练分为两个阶段：先是监督学习，让AI弄清策略的基本机制；再通过奖励机制进行强化学习，正确行动得1分，错误行动得0分。

在模型测试阶段，团队选用了多种语言模型，包括Qwen2.5（7B、14B、32B）、Qwen3-14B模型，并使用Deepseek-R1大模型作为对照。通过从Deepseek-R1提炼高质量训练数据，并运用群体相对策略优化（GRPO）技术，比较不同策略之间的优劣。

模型, AI, 训练, 策略, 行动

腾讯用《王者荣耀》训练AI“战略性思考”，新框架显成效

相关帖子

浏览过的版块

腾讯用《王者荣耀》训练AI“战略性思考”，新框架显成效

相关帖子

浏览过的版块

注册