智谱发布工业级语音合成系统GLM-TTS，开启语音合成新篇章

未来视野 · 发表于 25-12-11 22:50:46

12 px

26 px

12月11日，智谱正式推出其工业级语音合成系统GLM-TTS，并在Hugging Face和ModelScope平台上开放了模型权重，标志着该系统正式走向开源，用户可在智谱开放平台（bigmodel）、智谱清言及Z.ai上体验其强大功能。

GLM-TTS以其独特的技术优势脱颖而出，仅需3秒的语音样本，便能精准捕捉并学习说话人的音色与说话习惯，从而在通用朗读、情感配音、教育评测、电子书及有声客服等多个场景中，实现自然流畅、贴近真人的语音输出。该系统不仅追求AI“会说话”，更致力于在恰当场景下，让AI说出既像真人又符合情境情绪的声音。

为实现这一目标，GLM-TTS在架构设计上采用了两阶段生成策略，并在训练过程中引入了基于GRPO的强化学习方案，使其在公开评测的字错误率和情感表达上均达到了开源SOTA水平。尤为值得一提的是，GLM-TTS仅使用了10万小时的训练数据，远低于行业主流商用模型，同时兼顾了训练成本与效果。预训练阶段，单机4天即可达成开源SOTA的发音准确度与超高音色还原度，精品音色LORA和强化学习也仅需单机1天完成训练，成本远低于行业平均。

在教育场景中，GLM-TTS展现出了强大的适应能力，能够准确适配多音字、生僻字及公式符号，为教材和题库批量生成标准发音示范音频，并在口语评测、听力训练等任务中保持大规模合成的一致性和准确度。例如，在高中数学教材示范中，它能准确计算并朗读复杂算式；在古诗词朗读中，能正确处理多音字和生僻字，使朗读更加自然、有耐心。

电子书与有声内容领域，GLM-TTS同样表现出色。它既可以用单一音色完成整本书的朗读，也能为不同角色配置专属音色，适配长篇小说、纪实、社科等不同文体的节奏与情绪，且以较低推理成本支撑大体量内容库的自动化生产。无论是开心、悲伤还是愤怒的情绪文本，GLM-TTS都能准确呈现。

在智能客服与语音助手场景中，GLM-TTS为机器人客服打造了温和但克制的声音形象，降低了机械感，能在通话脚本中自然插入变量信息而不打乱整体韵律，与上游NLU/NLG模块协同，支持从理解到回应的端到端语音交互，为用户提供更加自然、流畅的客服体验。

GLM-TTS的强化学习策略基于GRPO框架，引入了多维度奖励和稳定训练机制，有效解决了TTS领域奖励设计难、训练不稳定等问题。通过训练数据与合成数据相结合的数据构造模式，实现了几乎零成本的数据生成，并避免了奖励欺骗，保证了模型性能的真实性和泛化能力。

为方便开发者、研究者和企业评估与集成GLM-TTS，智谱同步开放了模型权重、推理代码和在线调用接口。相关资源可在GitHub、Hugging Face及魔搭社区等主流开源社区获取，开发者可基于主流推理框架在GPU环境中快速部署GLM-TTS，并按需进行二次开发。同时，智谱还提供了开放平台与API接口，支持多种计费和QPS配置，覆盖从Demo试用到生产级大规模调用的全方位需求。用户可通过audio.z.ai上传文本或短语音Prompt生成专属声音，或在智谱清言App/网页版中体验多风格朗读与音色克隆功能。

[AI] 智谱发布工业级语音合成系统GLM-TTS，开启语音合成新篇章

相关帖子

[AI] 智谱发布工业级语音合成系统GLM-TTS，开启语音合成新篇章

相关帖子

注册