格灵深瞳视觉编码器升级 成多模态大模型视觉底座

来源:爱集微 #格灵深瞳#
1006

格灵深瞳在5月20日举行的业绩说明会上披露,其最新升级的视觉编码器Glint-MVT v2.0已作为LLaVA-OneVision-2.0的视觉基座模型,在性能与功能上实现显著突破,旨在为多模态大模型提供更高效的视觉理解能力。

根据公司发布的投资者关系活动记录表,Glint-MVT v2.0在技术指标上表现突出。在全帧率分析的情况下,其处理速度较之前方案提升5倍。在视频理解任务的效果上,公司称其已超过SigLIP2模型。功能层面,该编码器原生支持全帧率和高速运动分析,这是传统抽帧方案难以实现的技术特性。

公司技术负责人进一步透露,根据内部“灵感实验室”的测试结果,在使用更少token的情况下,基于Glint-MVT v2.0构建的LLaVA-OneVision-2.0在部分视频理解任务上已接近Qwen3-VL的效果。对于未来的技术演进方向,公司规划聚焦三点:一是追求更高效率,目标是实现视频流直接输入、直接分析;二是发展流式(Streaming)实时分析能力,使视觉大模型能像体育解说一样实时处理视频流;三是兼容3D重建技术,如Gaussian Splatting或NeRF,实现从视频直接生成3D场景或点云。

在产品化与商业化落地方面,格灵深瞳于2025年至今相继推出了睿镜运营智算解决方案、深眸视觉智能工坊以及Glint Box视觉智能工坊。其中,Glint Box视觉智能工坊覆盖算法生产全生命周期,主打设备到场即插即用,无需工程师长期驻场,旨在帮助企业以更低门槛和成本获得持续进化的AI能力,改变传统“一次性算法交付”的模式。

在渠道合作上,公司于今年3月与佳都科技集团股份有限公司达成授权合作协议。佳都科技将作为格灵深瞳的全国总经销商,推广和销售其智慧金融、政务及智慧教育等领域的软硬一体产品。公司确认此次合作并非独家,目前相关商机正在持续推进中。

为推进业务落地,公司近期已在深圳、杭州等地相继成立分公司。管理层在说明会上表示,人工智能行业属于人才密集型行业,公司始终欢迎各路英才加入。(校对/邓秋贤)

责编: 秋贤
来源:爱集微 #格灵深瞳#
THE END

*此内容为集微网原创,著作权归集微网所有,爱集微,爱原创

关闭
加载

PDF 加载中...