阿里通义千问全新视觉理解模型 Qwen2.5-VL 开源：三尺寸版本、支持理解长视频和捕捉事件等能力-周佳软件园

感谢本站网友 Hi_World、Skyraver 的线索投递！

本站 1 月 28 日消息，阿里通义千问官方今日发文宣布，开源全新的视觉理解模型 Qwen2.5-VL——Qwen 模型家族的旗舰视觉语言模型，推出了 3B、7B 和 72B 三个尺寸版本。

本站附 Qwen2.5-VL 的主要特点如下：

视觉理解：Qwen2.5-VL 不仅擅长识别常见物体，如花、鸟、鱼和昆虫，还能够分析图像中的文本、图表、图标、图形和布局。

代理：Qwen2.5-VL 直接作为一个视觉 Agent，可以推理并动态地使用工具，初步具备了使用电脑和使用手机的能力。

理解长视频和捕捉事件：Qwen2.5-VL 能够理解超过 1 小时的视频，并且这次它具备了通过精准定位相关视频片段来捕捉事件的新能力。

视觉定位：Qwen2.5-VL 可以通过生成 bounding boxes 或者 points 来准确定位图像中的物体，并能够为坐标和属性提供稳定的 JSON 输出。

结构化输出：对于发票、表单、表格等数据，Qwen2.5-VL 支持其内容的结构化输出，惠及金融、商业等领域的应用。

据官方介绍，在旗舰模型 Qwen2.5-VL-72B-Instruct 的测试中，它在一系列涵盖多个领域和任务的基准测试中表现出色，包括大学水平的问题、数学、文档理解、视觉问答、视频理解和视觉 Agent。Qwen2.5-VL 在理解文档和图表方面具有优势，并且能够作为视觉 Agent 进行操作，而无需特定任务的微调。

另外，在较小的模型方面，Qwen2.5-VL-7B-Instruct 在多个任务中超越了 GPT-4o-mini，而 Qwen2.5-VL-3B 作为端侧 AI 的潜力股，超越了之前版本 Qwen2-VL 的 7B 模型。

阿里通义千问官方表示，与 Qwen2-VL 相比，Qwen2.5-VL 增强了模型对时间和空间尺度的感知能力，并进一步简化了网络结构以提高模型效率。后续将进一步提升模型的问题解决和推理能力，同时整合更多模态，使模型变得更加智能，并向能够处理多种输入类型和任务的综合全能模型迈进。

阿里通义千问全新视觉理解模型 Qwen2.5-VL 开源：三尺寸版本、支持理解长视频和捕捉事件等能力

1

欧洲尺码与日本尺码专线对照，为何流畅不卡顿？

欧洲尺码与日本尺码专线对照，为何流畅不卡顿？
2024/12/10

2

18岁女性流白浆的不同类型及其健康隐患，如何判断是否需要就医？

18岁女性流白浆的不同类型及其健康隐患，如何判断是否需要就医？
2025/01/19

3

爆喷水洗澡91：怎样的沐浴体验能让你放松又舒适？

爆喷水洗澡91：怎样的沐浴体验能让你放松又舒适？
2025/01/19

4

如何通过77777免费观看最新热门电视剧？有哪些值得推荐的剧集？

如何通过77777免费观看最新热门电视剧？有哪些值得推荐的剧集？
2024/12/02

5

91看片浏览器为什么成为网友观看视频的首选工具？

91看片浏览器为什么成为网友观看视频的首选工具？
2025/01/26

6

混合交换5HD：全新升级的金融投资工具，助力资产配置与风险管理

混合交换5HD：全新升级的金融投资工具，助力资产配置与风险管理
2025/01/19

7

羞羞视频的流行背后原因：为什么它会成为年轻人最爱？

羞羞视频的流行背后原因：为什么它会成为年轻人最爱？
2025/01/28

8

如何理解NP文〈重口〉H的创作模式与社会争议？其对读者和社会的影响如何评估？

如何理解NP文〈重口〉H的创作模式与社会争议？其对读者和社会的影响如何评估？
2024/11/20

9

为什么宝宝睡前C1V1好满会影响宝宝的睡眠质量？如何改善宝宝睡眠？

为什么宝宝睡前C1V1好满会影响宝宝的睡眠质量？如何改善宝宝睡眠？
2024/12/07

10

校园绑定系统升级后，如何高效利用jy收集系统hpc海棠功能？

校园绑定系统升级后，如何高效利用jy收集系统hpc海棠功能？
2024/12/09

如何通过77777免费观看最新热门电视剧？有哪些值得推荐的剧集？

为什么宝宝睡前C1V1好满会影响宝宝的睡眠质量？如何改善宝宝睡眠？

为什么我们总是说“好久没C你了，黄”？背后隐藏的情感与联系如何影响我们的生活？

如何避免“被C上瘾(H)”带来的生活困扰？有哪些有效的方法？

一夜未拔h1v1会对身体造成什么影响？长期这样做是否有害？

18岁女性流白浆的不同类型及其健康隐患，如何判断是否需要就医？

一夜未拔h1v风险大吗？如何有效预防一夜未拔后的h1v感染？

91国产白浆洗澡背后隐藏的疑问：吊死重是什么？有何风险？

欧洲尺码与日本尺码专线对照，为何流畅不卡顿？

探讨乳尖(H)现象：是什么影响了我们的感官体验？