12月9日,阿里Qwen团队推出新一代原生全模态大模型Qwen3-Omni-Flash-2025-12-01,该模型在Qwen3-Omni基础上实现全面升级,支持文本、图像、音频和视频的无缝输入与实时流式输出。通过实时响应机制,模型可同步生成高质量文本与自然语音,解决多模态交互中存在的语速拖沓、机械呆板等问题,语音自然度与拟人化程度逼近真人水平。
技术亮点方面,模型显著增强对音视频指令的理解能力,提升多轮对话稳定性与连贯性,并开放System Prompt自定义权限,允许用户通过设定特定人设风格、口语化偏好及回复长度等参数精细调控模型行为。语言支持上,模型覆盖119种文本语言交互、19种语音识别语言及10种语音合成语言,确保跨语言场景下的准确响应。性能测试数据显示,其在逻辑推理、代码生成和多学科视觉问答任务中的得分分别提升5.6、9.3和4.7,展现出更强的复杂指令遵循与深度分析能力。 |