格灵深瞳视觉编码器升级成多模态大模型视觉底座

作者：日新 1小时前

来源：爱集微 #格灵深瞳#

1006

格灵深瞳在5月20日举行的业绩说明会上披露，其最新升级的视觉编码器Glint-MVT v2.0已作为LLaVA-OneVision-2.0的视觉基座模型，在性能与功能上实现显著突破，旨在为多模态大模型提供更高效的视觉理解能力。

根据公司发布的投资者关系活动记录表，Glint-MVT v2.0在技术指标上表现突出。在全帧率分析的情况下，其处理速度较之前方案提升5倍。在视频理解任务的效果上，公司称其已超过SigLIP2模型。功能层面，该编码器原生支持全帧率和高速运动分析，这是传统抽帧方案难以实现的技术特性。

公司技术负责人进一步透露，根据内部“灵感实验室”的测试结果，在使用更少token的情况下，基于Glint-MVT v2.0构建的LLaVA-OneVision-2.0在部分视频理解任务上已接近Qwen3-VL的效果。对于未来的技术演进方向，公司规划聚焦三点：一是追求更高效率，目标是实现视频流直接输入、直接分析；二是发展流式（Streaming）实时分析能力，使视觉大模型能像体育解说一样实时处理视频流；三是兼容3D重建技术，如Gaussian Splatting或NeRF，实现从视频直接生成3D场景或点云。

在产品化与商业化落地方面，格灵深瞳于2025年至今相继推出了睿镜运营智算解决方案、深眸视觉智能工坊以及Glint Box视觉智能工坊。其中，Glint Box视觉智能工坊覆盖算法生产全生命周期，主打设备到场即插即用，无需工程师长期驻场，旨在帮助企业以更低门槛和成本获得持续进化的AI能力，改变传统“一次性算法交付”的模式。

在渠道合作上，公司于今年3月与佳都科技集团股份有限公司达成授权合作协议。佳都科技将作为格灵深瞳的全国总经销商，推广和销售其智慧金融、政务及智慧教育等领域的软硬一体产品。公司确认此次合作并非独家，目前相关商机正在持续推进中。

为推进业务落地，公司近期已在深圳、杭州等地相继成立分公司。管理层在说明会上表示，人工智能行业属于人才密集型行业，公司始终欢迎各路英才加入。（校对/邓秋贤）