阿里通义千问团队宣布,Qwen3-VL家族迎来重要扩展,新增了2B与32B两个密集模型尺寸,实现了从轻量级到高性能级的全面覆盖,满足各类视觉语言理解场景的需求。官方强调,新模型不仅能在手机上流畅运行,而且更加贴合开发者的使用习惯。
此次发布的模型提供了两种版本供选择:Instruct版响应迅速、执行稳定,非常适合对话和工具调用场景;而Thinking版则强化了长链推理和复杂视觉理解能力,能够“看图思考”,轻松应对高难度任务。
据官方介绍,Qwen3-VL-32B模型在STEM、视觉问答(VQA)、光学字符识别(OCR)、视频理解以及代理任务等多个领域的表现均优于GPT-5 mini和Claude 4 Sonnet。该模型仅使用32B参数,便达到了与参数高达235B的模型相媲美的效果,甚至在OSWorld评测中超越了后者。与此同时,Qwen3-VL-2B模型在小体量下展现出了惊人的性能,能够在资源极为有限的端侧设备上运行,为开发者提供了更加轻便的实验和部署选择。 |