🔥 我们构建并开源了首个端到端【对标Open-AI o3模型】的图像思维链推理框架,DeepEyes
- 发布时间:
- 2025-05-27
- 文章标题:
- 🔥 我们构建并开源了首个端到端【对标Open-AI o3模型】的图像思维链推理框架,DeepEyes
- 内容:
近日,团队构建了首个对标Open-AI o3模型的【开源】图像推理框架【DeepEyes】。

DeepEyes是一个具备像o3一样“边看图边思考”的能力的模型,我们基于Qwen2.5-VL-7B-Instruct的原生能力,没有SFT冷启,也不依赖外部专家模型,完全端到端RL训练,用outcome reward signal来激发VLM图像思考能力。
在最终结果上,DeepEyes-7B模型测试性能指标全面超过了Qwen2.5-VL的32B版本,V*上接近Open-AI o3/o4-mini的水平,并且在数学、visual grounding、幻觉等任务上也有不错的表现.
为了和Open-AI中门对狙,我们展示了o3/o4-mini博客里的图片在我们模型上的表现,以及一些自己用手机拍的照片。
Paper:https://arxiv.org/abs/2505.14362
Code:https://github.com/Visual-Agent/DeepEyes
Homepage:https://visual-agent.github.io/
知乎:https://zhuanlan.zhihu.com/p/1908543355161417216?share_code=tqwt8ANI5X9D&utm_psn=190938563655471107




