Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M

发布时间:2025-01-27 11:17:53 来源:互联网

本站 1 月 26 日消息,Hugging Face 发布了两款全新多模态模型SmolVLM-256M和SmolVLM-500M,其中SmolVLM-256M号称是世界上最小的视觉语言模型(Video Language Model)。

据悉,相应模型主要基于 Hugging Face团队去年训练的 80B参数模型蒸馏而成,号称在性能和资源需求之间实现了平衡,官方称 SmolVLM-256M / 500M 两款模型均可“开箱即用”,可以直接部署在transformer MLX和ONNX平台上。

具体技术层面,SmolVLM-256M / 500M 两款模型均采用SigLIP作为图片编码器,使用 SmolLM2作为文本编码器。其中 SmolVLM-256M是目前最小的多模态模型,可以接受任意序列的图片和文本输入并生成文字输出,该模型功能包括描述图片内容、为短视频生成字幕、处理PDF 等。Hugging Face 称由于该模型整体轻巧,可在移动平台轻松运行,仅需不到1GB的GPU显存便可在单张图片上完成推理。

而 SmolVLM-500M针对需要更高性能的场景而设计,Hugging Face称相关模型非常适合部署在企业运营环境中,该模型推理单张图片仅需1.23GB的GPU显存,相对 SmolVLM-256M 虽然负载更大,但推理输出的内容更精准。

本站注意到,两款模型均采用Apache 2.0开源授权,研究团队提供了基于transformer和WebGUI的示例程序。所有模型及其演示已公开便于开发者下载和使用,具体页面可(点此访问)。

本周热门攻略

1
18岁女性流白浆的不同类型及其健康隐患,如何判断是否需要就医?

18岁女性流白浆的不同类型及其健康隐患,如何判断是否需要就医?

2025/01/19

2
欧洲尺码与日本尺码专线对照,为何流畅不卡顿?

欧洲尺码与日本尺码专线对照,为何流畅不卡顿?

2024/12/10

3
精品码产区一区二的产业优势和未来发展前景是什么?

精品码产区一区二的产业优势和未来发展前景是什么?

2025/01/14

4
17c黑料爆料18 白浆事件真相曝光,娱乐圈的潜规则到底有多少不为人知的秘密?

17c黑料爆料18 白浆事件真相曝光,娱乐圈的潜规则到底有多少不为人知的秘密?

2025/01/12

5
H多P太深拔出来痛怎么办?从生理与心理角度解析解决方案

H多P太深拔出来痛怎么办?从生理与心理角度解析解决方案

2025/01/03

6
一夜未拔H圆房~h是什么意思?性行为中的心理、责任与沟通要如何把握?

一夜未拔H圆房~h是什么意思?性行为中的心理、责任与沟通要如何把握?

2025/01/09

7
混合交换5HD:全新升级的金融投资工具,助力资产配置与风险管理

混合交换5HD:全新升级的金融投资工具,助力资产配置与风险管理

2025/01/19

8
爆喷水洗澡91:怎样的沐浴体验能让你放松又舒适?

爆喷水洗澡91:怎样的沐浴体验能让你放松又舒适?

2025/01/19

9
97视频:为什么它成为了人们日常娱乐的首选平台?

97视频:为什么它成为了人们日常娱乐的首选平台?

2025/01/14

10
如何解决性生活中H多p太深拔出来疼痛的问题?

如何解决性生活中H多p太深拔出来疼痛的问题?

2025/01/06