当前位置:100EC>产业数字化>小红书开源首款多模态模型
小红书开源首款多模态模型
网经社发布时间:2025年08月08日 09:27:28

(网经社讯)8月7日消息,小红书hi lab(人文智能实验室)开源了其首款多模态大模型dots.vlm1,这一模型基于DeepSeek V3打造,并配备了由小红书自研的12亿参数视觉编码器NaViT,具备多模态理解与推理能力。

在主要的视觉评测集上,dots.vlm1的整体表现已接近当前领先模型,如Gemini 2.5 Pro与Seed-VL1.5 thinking,尤其在MMMU、MathVision、OCR Reasoning等多个基准测试中显示出较强的图文理解与推理能力。

据网经社云计算台(CC.100EC.CN)了解,这一模型可以看懂复杂的图文交错图表,理解表情包背后的含义,分析两款产品的配料表差异,还能判断博物馆中文物、画作的名称和背景信息。

在主流视觉评测数据集上,dots.vlm1的整体性能已逼近当前处于领先地位的Gemini2.5Pro和Seed-VL1.5thinking模型。特别是在MMMU、MathVision、OCRReasoning等多个基准测试中,它展现出极具竞争力的成果,充分彰显了其出色的图文理解与推理能力。

在AIME、GPQA、LiveCodeBench等典型文本推理任务中,dots.vlm1的表现与DeepSeek-R1-0528大致相当。这表明它在数学和代码能力方面已具备一定的通用性,但在GPQA等涵盖范围更广的推理任务上,仍存在明显差距。

综合而言,dots.vlm1在视觉多模态能力上已接近当前最佳水平,文本推理能力也达到了主流模型的标准。不过,在部分细分任务中,它与最优结果仍有一定距离,未来还需在架构设计和训练数据两方面进行进一步优化。

浙江网经社信息科技公司拥有18年历史,作为中国领先的数字经济新媒体、服务商,提供“媒体+智库”、“会员+孵化”服务;(1)面向电商平台、头部服务商等PR条线提供媒体传播服务;(2)面向各类企事业单位、政府部门、培训机构、电商平台等提供智库服务;(3)面向各类电商渠道方、品牌方、商家、供应链公司等提供“千电万商”生态圈服务;(4)面向各类初创公司提供创业孵化器服务。

网经社“电数宝”电商大数据库(DATA.100EC.CN,免费注册体验全库)基于电商行业18年沉淀,包含100+上市公司、新三板公司数据,150+独角兽、200+千里马公司数据,4000+起投融资数据以及10万+互联网APP数据,全面覆盖“头部+腰部+长尾”电商,旨在通过数据可视化形式帮助了解电商行业,挖掘行业市场潜力,助力企业决策,做电商人研究、决策的“好参谋”。

【投诉曝光】 更多>

【版权声明】秉承互联网开放、包容的精神,网经社欢迎各方(自)媒体、机构转载、引用我们原创内容,但要严格注明来源网经社;同时,我们倡导尊重与保护知识产权,如发现本站文章存在版权问题,烦请将版权疑问、授权证明、版权证明、联系方式等,发邮件至NEWS@netsun.com,我们将第一时间核实、处理。

        平台名称
        平台回复率
        回复时效性
        用户满意度
        微信公众号
        微信二维码 打开微信“扫一扫”
        微信小程序
        小程序二维码 打开微信“扫一扫”