发帖
客户端
扫码下载

[AI] 阿里通义千问Qwen3-VL家族新增模型,全线覆盖视觉语言理解场景

[复制链接]
3 |0
数码小喇叭 发表于 昨天 23:23 | 显示全部楼层 |阅读模式
这里可以调整气泡内文字大小!滑动试试吧! ×
12 px
26 px
阿里通义千问团队宣布,Qwen3-VL家族迎来重要扩展,新增了2B与32B两个密集模型尺寸,实现了从轻量级到高性能级的全面覆盖,满足各类视觉语言理解场景的需求。官方强调,新模型不仅能在手机上流畅运行,而且更加贴合开发者的使用习惯。

此次发布的模型提供了两种版本供选择:Instruct版响应迅速、执行稳定,非常适合对话和工具调用场景;而Thinking版则强化了长链推理和复杂视觉理解能力,能够“看图思考”,轻松应对高难度任务。

据官方介绍,Qwen3-VL-32B模型在STEM、视觉问答(VQA)、光学字符识别(OCR)、视频理解以及代理任务等多个领域的表现均优于GPT-5 mini和Claude 4 Sonnet。该模型仅使用32B参数,便达到了与参数高达235B的模型相媲美的效果,甚至在OSWorld评测中超越了后者。与此同时,Qwen3-VL-2B模型在小体量下展现出了惊人的性能,能够在资源极为有限的端侧设备上运行,为开发者提供了更加轻便的实验和部署选择。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

热门版块
数码资讯
最新数码动态,尽在掌握。
快速回复 返回顶部 返回列表