阿里云今日对其旗舰版Qwen3模型进行重要更新,推出Qwen3-235B-A22B-FP8非思考模式(Non-thinking)的升级版本,命名为Qwen3-235B-A22B-Instruct-2507-FP8。此次更新基于社区反馈与战略调整,阿里云决定停止混合思考模式,转而分别训练Instruct和Thinking模型以提升性能质量。
新模型在通用能力上实现显著突破,涵盖指令遵循、逻辑推理、文本理解、数学计算、科学分析、编程能力及工具应用等领域。在GQPA知识测评、AIME25数学竞赛基准、LiveCodeBench编程评估、Arena-Hard人类偏好对齐测试及BFCL智能体能力评测中,Qwen3-235B-A22B-Instruct-2507-FP8均展现出超越Kimi-K2、DeepSeek-V3等开源模型及Claude-Opus4-Non-thinking等闭源模型的实力。
技术参数方面,该因果语言模型采用预训练与后训练架构,总参数量达2350亿,激活参数量220亿,配备94层深度网络、64个查询注意力头与4个键值注意力头,集成128个专家模块并激活8个核心专家,支持原生262,144 token超长上下文窗口。FP8版本进一步强化多语言长尾知识覆盖,提升主观任务与开放场景下的用户偏好契合度,文本生成质量与256K长文本理解能力均获增强。
目前,Qwen3-235B-A22B-Instruct-2507-FP8已在魔搭社区与HuggingFace平台同步开源,开发者可访问官方渠道获取模型资源。 |