电子科技大学计算机(网安)学院数据智能团队(DIG)在全球计算机视觉顶会CVPR 2026发表多篇论文

来源:电子科技大学 #计算机视觉# #CVPR# #论文发表#
1158

近日,2026 IEEE国际计算机视觉与模式识别会议(IEEE Conference on Computer Vision and Pattern Recognition,简称CVPR)官方公布论文收录结果,本届CVPR收到了创新高的16092份论文,最终录用4090篇,接收率为25.42%。计算机(网安)学院数据智能团队(DIG)此次共发表11篇论文,其中本科生为第一作者发表2篇(2023级本科生吴皓岩、2022级本科生李祺帆)。

2023级本科生吴皓岩以共同第一作者撰写的论文《Dynamic Logits Adjustment and Exploration for Test-Time Adaptation in Vision Language Models》(通讯作者:李文教授)针对视觉语言模型在迁移至下游任务过程中,由于不同类别识别能力不均衡而引发的优化坍塌问题,提出了“动态调整与探索框架”。实验结果表明,该框架在兼顾计算效率的同时,显著提升了模型的泛化能力,为视觉语言模型在下游任务中的高效迁移与稳定优化提供了新的思路。

2022级本科生李祺帆以第一作者撰写的论文《Taming Sampling Perturbations with Variance Expansion Loss for Latent Diffusion Models》(通讯作者:顾舒航教授)观察到一种反直觉现象:在潜扩散模型中,高重建精度与低扩散损失的模型有时反而生成低质量结果。通过2-D实验分析,发现常用的β-VAE倾向于学习紧凑的潜流形,使模型易受采样扰动影响,导致生成退化。因此该论文引入方差膨胀损失来对抗由重建目标引起的方差坍缩,在保持重建保真度的同时构建对采样扰动具有高度鲁棒性的潜空间,从而提升生成结果的质量。

2025级博士生周星宇以第一作者撰写的论文《Guiding a Diffusion Transformer with the Internal Dynamics of Itself》(通讯作者:顾舒航教授)提出仅在扩散Transformer网络结构的浅层额外施加一个监督信号,利用深层网络输出和浅层网络输出进行一定程度外插,即可在推理阶段大幅提高生成结果。实验结果表明该方法在ImageNet数据集上取得了当前图像生成的最先进的结果。

2025级博士生孙文灏以第一作者撰写的论文《Just-in-Time: Training-Free Spatial Acceleration for Diffusion Transformers》(通讯作者:刘昭强教授)指出扩散模型加速常忽略空间冗余。该研究提出免调优的JiT框架,通过构建空间近似生成ODE(SAG-ODE)利用稀疏锚点计算驱动全局潜状态演化,并结合确定性微流(DMF)保障新token激活时的分布一致性与无缝过渡。实验结果显示该方法在FLUX.1-dev、HunyuanVideo-1.5模型上实现了高达7倍的近无损加速。

2025级博士生郑洋以第一作者撰写的论文《Outlier-Robust Diffusion Solvers for Inverse Problems》(通讯作者:刘昭强教授)针对扩散模型求解逆问题时易受异常值干扰的问题,提出了鲁棒求解框架。该研究首先通过显式噪声估计修正观测数据,并基于Huber损失构建优化目标来抑制异常值,同时采用共轭梯度法优化求解策略,避免了繁琐的学习率调参。大量实验验证了该方法对异常值的显著鲁棒性以及相比现有方法的性能优势。

2025级硕士生林程星以第一作者撰写的论文《Deformation-based In-Context Learning for Point Cloud Understanding》(通讯作者:李文教授)发现现有点云上下文学习方法缺乏显式空间结构建模且训练与推理目标不一致的问题,因此提出基于形变的点云上下文学习方法——DeformPIC。实验结果表明,该方法通过提示样例引导查询点云逐步形变到目标形态,实现几何变换信息的提取与迁移,在ShapeNet In-Context数据集和跨域泛化基准上取得了较好的效果。

2024级博士生龙伟以第一作者撰写的论文《IDESplat:Iterative Depth Probability Estimation for Generalizable 3D Gaussian Splatting》(通讯作者:顾舒航教授)发现现有的可泛化三维高斯溅射方法在深度估计上存在的单次特征变换不稳定问题,而通过引入深度概率增强单元(DPBU)以乘法方式整合级联特征变换生成的极线注意力图,并构建迭代深度估计过程,即可在场景重建阶段逐步细化深度图,大幅提高高斯均值预测的准确度。

2024级博士生陈卓以共同第一作者撰写的论文《The Devil is in Attention Sharing: Improving Complex Non-rigid Image Editing Faithfulness via Attention Synergy》(通讯作者:李文教授)发现了现有图像编辑方法在处理复杂非刚性编辑时存在“注意力坍塌”问题,导致过度编辑或编辑不足,因此提出协同位置与语义信息的注意力协同(SynPS)方法。实验结果表明,该方法通过引入量化编辑幅度的度量标准,设计注意力协同流水线动态调节特征影响,使模型有效平衡了语义修改与细节保真,在基准测试中取得了出色的图像编辑性能与保真度。

2024级硕士生江世银以第一作者撰写的论文《Differentiable Vector Quantization for Rate-Distortion Optimization of Generative Image Compression》(通讯作者:顾舒航教授)指出,传统矢量量化(VQ)因离散索引不可导导致梯度断裂,阻碍了联合率失真优化。为此提出RDVQ框架:引入可微的码本软松弛策略恢复梯度流,结合自回归熵模型,实现端到端优化与零样本可变速率控制。实验表明,该极轻量架构在Kodak等数据集的感知压缩质量均达SOTA水平。

2024级硕士生陈恺以第一作者撰写的论文《Task-Aware Image Signal Processor for Advanced Visual Perception》(通讯作者:顾舒航教授)针对现有视觉感知方法在处理RAW数据时计算开销大、表示能力受限的问题,提出任务感知图像信号处理器(TA-ISP)框架,通过轻量级多尺度调制算子在全局、区域和像素层面对RAW图像进行定制化处理。实验表明,该方法在提升下游任务精度的同时显著降低计算开销。

2022级博士生吴海峰以第一作者撰写的论文《iSplat: Iterative Learning for Fine-Grained Gaussian Splatting》(通讯作者:李文教授)针对现有3D Gaussian Splatting方法依赖单次前向回归、难以修正初始预测误差的问题展开研究。提出了迭代式前馈3D Gaussian Splatting方法iSplat,将三维重建过程建模为迭代细化过程,并引入基于GRU的循环优化器,在多轮迭代中协同更新几何与外观表示,从而逐步修正误差、提升重建质量。实验结果表明,该方法能够实现更加稳健、更加精确的三维重建。

责编: 集小微
来源:电子科技大学 #计算机视觉# #CVPR# #论文发表#
THE END
关闭
加载

PDF 加载中...