发帖
客户端
扫码下载

[AI] 智谱发布工业级语音合成系统GLM-TTS,开启语音合成新篇章

[复制链接]
3 |0
未来视野 发表于 昨天 22:50 | 显示全部楼层 |阅读模式
这里可以调整气泡内文字大小!滑动试试吧! ×
12 px
26 px
12月11日,智谱正式推出其工业级语音合成系统GLM-TTS,并在Hugging Face和ModelScope平台上开放了模型权重,标志着该系统正式走向开源,用户可在智谱开放平台(bigmodel)、智谱清言及Z.ai上体验其强大功能。

GLM-TTS以其独特的技术优势脱颖而出,仅需3秒的语音样本,便能精准捕捉并学习说话人的音色与说话习惯,从而在通用朗读、情感配音、教育评测、电子书及有声客服等多个场景中,实现自然流畅、贴近真人的语音输出。该系统不仅追求AI“会说话”,更致力于在恰当场景下,让AI说出既像真人又符合情境情绪的声音。

为实现这一目标,GLM-TTS在架构设计上采用了两阶段生成策略,并在训练过程中引入了基于GRPO的强化学习方案,使其在公开评测的字错误率和情感表达上均达到了开源SOTA水平。尤为值得一提的是,GLM-TTS仅使用了10万小时的训练数据,远低于行业主流商用模型,同时兼顾了训练成本与效果。预训练阶段,单机4天即可达成开源SOTA的发音准确度与超高音色还原度,精品音色LORA和强化学习也仅需单机1天完成训练,成本远低于行业平均。

在教育场景中,GLM-TTS展现出了强大的适应能力,能够准确适配多音字、生僻字及公式符号,为教材和题库批量生成标准发音示范音频,并在口语评测、听力训练等任务中保持大规模合成的一致性和准确度。例如,在高中数学教材示范中,它能准确计算并朗读复杂算式;在古诗词朗读中,能正确处理多音字和生僻字,使朗读更加自然、有耐心。

电子书与有声内容领域,GLM-TTS同样表现出色。它既可以用单一音色完成整本书的朗读,也能为不同角色配置专属音色,适配长篇小说、纪实、社科等不同文体的节奏与情绪,且以较低推理成本支撑大体量内容库的自动化生产。无论是开心、悲伤还是愤怒的情绪文本,GLM-TTS都能准确呈现。

在智能客服与语音助手场景中,GLM-TTS为机器人客服打造了温和但克制的声音形象,降低了机械感,能在通话脚本中自然插入变量信息而不打乱整体韵律,与上游NLU/NLG模块协同,支持从理解到回应的端到端语音交互,为用户提供更加自然、流畅的客服体验。

GLM-TTS的强化学习策略基于GRPO框架,引入了多维度奖励和稳定训练机制,有效解决了TTS领域奖励设计难、训练不稳定等问题。通过训练数据与合成数据相结合的数据构造模式,实现了几乎零成本的数据生成,并避免了奖励欺骗,保证了模型性能的真实性和泛化能力。

为方便开发者、研究者和企业评估与集成GLM-TTS,智谱同步开放了模型权重、推理代码和在线调用接口。相关资源可在GitHub、Hugging Face及魔搭社区等主流开源社区获取,开发者可基于主流推理框架在GPU环境中快速部署GLM-TTS,并按需进行二次开发。同时,智谱还提供了开放平台与API接口,支持多种计费和QPS配置,覆盖从Demo试用到生产级大规模调用的全方位需求。用户可通过audio.z.ai上传文本或短语音Prompt生成专属声音,或在智谱清言App/网页版中体验多风格朗读与音色克隆功能。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

热门版块
数码资讯
最新数码动态,尽在掌握。
快速回复 返回顶部 返回列表