🎉 课题组郑子维同学的 DeepEyes 工作,被人工智能顶级会议ICLR 2026录用
- 发布时间:
- 2026-02-03
- 文章标题:
- 🎉 课题组郑子维同学的 DeepEyes 工作,被人工智能顶级会议ICLR 2026录用
- 内容:
DeepEyes是一个具备像o3一样“边看图边思考”的能力的模型,我们基于Qwen2.5-VL-7B-Instruct的原生能力,没有SFT冷启,也不依赖外部专家模型,完全端到端RL训练,用outcome reward signal来激发VLM图像思考能力。
在最终结果上,DeepEyes-7B模型测试性能指标全面超过了Qwen2.5-VL的32B版本,V*上接近Open-AI o3/o4-mini的水平,并且在数学、visual grounding、幻觉等任务上也有不错的表现.
为了和Open-AI中门对狙,我们展示了o3/o4-mini博客里的图片在我们模型上的表现,以及一些自己用手机拍的照片。
Paper:https://arxiv.org/abs/2505.14362
Code:https://github.com/Visual-Agent/DeepEyes
Homepage:https://visual-agent.github.io/
知乎:https://zhuanlan.zhihu.com/p/1908543355161417216?share_code=tqwt8ANI5X9D&utm_psn=190938563655471107




