阿里通义千问全新视觉理解模型 Qwen2.5-VL 开源:三尺寸版本、支持理解长视频和捕捉事件等能力

发布时间:2025-01-29 13:33:30 来源:互联网

感谢本站网友 Hi_World、Skyraver 的线索投递!

本站 1 月 28 日消息,阿里通义千问官方今日发文宣布,开源全新的视觉理解模型 Qwen2.5-VL——Qwen 模型家族的旗舰视觉语言模型,推出了 3B、7B 和 72B 三个尺寸版本。

本站附 Qwen2.5-VL 的主要特点如下:

    视觉理解:Qwen2.5-VL 不仅擅长识别常见物体,如花、鸟、鱼和昆虫,还能够分析图像中的文本、图表、图标、图形和布局。

    代理:Qwen2.5-VL 直接作为一个视觉 Agent,可以推理并动态地使用工具,初步具备了使用电脑和使用手机的能力。

    理解长视频和捕捉事件:Qwen2.5-VL 能够理解超过 1 小时的视频,并且这次它具备了通过精准定位相关视频片段来捕捉事件的新能力。

    视觉定位:Qwen2.5-VL 可以通过生成 bounding boxes 或者 points 来准确定位图像中的物体,并能够为坐标和属性提供稳定的 JSON 输出。

    结构化输出:对于发票、表单、表格等数据,Qwen2.5-VL 支持其内容的结构化输出,惠及金融、商业等领域的应用。

    据官方介绍,在旗舰模型 Qwen2.5-VL-72B-Instruct 的测试中,它在一系列涵盖多个领域和任务的基准测试中表现出色,包括大学水平的问题、数学、文档理解、视觉问答、视频理解和视觉 Agent。Qwen2.5-VL 在理解文档和图表方面具有优势,并且能够作为视觉 Agent 进行操作,而无需特定任务的微调。

    另外,在较小的模型方面,Qwen2.5-VL-7B-Instruct 在多个任务中超越了 GPT-4o-mini,而 Qwen2.5-VL-3B 作为端侧 AI 的潜力股,超越了之前版本 Qwen2-VL 的 7B 模型。

    阿里通义千问官方表示,与 Qwen2-VL 相比,Qwen2.5-VL 增强了模型对时间和空间尺度的感知能力,并进一步简化了网络结构以提高模型效率。后续将进一步提升模型的问题解决和推理能力,同时整合更多模态,使模型变得更加智能,并向能够处理多种输入类型和任务的综合全能模型迈进。

本周热门攻略

1
欧洲尺码与日本尺码专线对照,为何流畅不卡顿?

欧洲尺码与日本尺码专线对照,为何流畅不卡顿?

2024/12/10

2
18岁女性流白浆的不同类型及其健康隐患,如何判断是否需要就医?

18岁女性流白浆的不同类型及其健康隐患,如何判断是否需要就医?

2025/01/19

3
爆喷水洗澡91:怎样的沐浴体验能让你放松又舒适?

爆喷水洗澡91:怎样的沐浴体验能让你放松又舒适?

2025/01/19

4
如何通过77777免费观看最新热门电视剧?有哪些值得推荐的剧集?

如何通过77777免费观看最新热门电视剧?有哪些值得推荐的剧集?

2024/12/02

5
91看片浏览器为什么成为网友观看视频的首选工具?

91看片浏览器为什么成为网友观看视频的首选工具?

2025/01/26

6
混合交换5HD:全新升级的金融投资工具,助力资产配置与风险管理

混合交换5HD:全新升级的金融投资工具,助力资产配置与风险管理

2025/01/19

7
羞羞视频的流行背后原因:为什么它会成为年轻人最爱?

羞羞视频的流行背后原因:为什么它会成为年轻人最爱?

2025/01/28

8
如何理解NP文〈重口〉H的创作模式与社会争议?其对读者和社会的影响如何评估?

如何理解NP文〈重口〉H的创作模式与社会争议?其对读者和社会的影响如何评估?

2024/11/20

9
为什么宝宝睡前C1V1好满会影响宝宝的睡眠质量?如何改善宝宝睡眠?

为什么宝宝睡前C1V1好满会影响宝宝的睡眠质量?如何改善宝宝睡眠?

2024/12/07

10
校园绑定系统升级后,如何高效利用jy收集系统hpc海棠功能?

校园绑定系统升级后,如何高效利用jy收集系统hpc海棠功能?

2024/12/09