杨乐西安交通大学教师主页管理系统中文主页

🔥 我们构建并开源了首个端到端【对标Open-AI o3模型】的图像思维链推理框架，DeepEyes

发布时间：2025-05-27

点击次数：

内容：

近日，团队构建了首个对标Open-AI o3模型的【开源】图像推理框架【DeepEyes】。

DeepEyes是一个具备像o3一样“边看图边思考”的能力的模型，我们基于Qwen2.5-VL-7B-Instruct的原生能力，没有SFT冷启，也不依赖外部专家模型，完全端到端RL训练，用outcome reward signal来激发VLM图像思考能力。

在最终结果上，DeepEyes-7B模型测试性能指标全面超过了Qwen2.5-VL的32B版本，V*上接近Open-AI o3/o4-mini的水平，并且在数学、visual grounding、幻觉等任务上也有不错的表现.

为了和Open-AI中门对狙，我们展示了o3/o4-mini博客里的图片在我们模型上的表现，以及一些自己用手机拍的照片。

Paper：https://arxiv.org/abs/2505.14362

Code：https://github.com/Visual-Agent/DeepEyes

Homepage：https://visual-agent.github.io/

知乎：https://zhuanlan.zhihu.com/p/1908543355161417216?share_code=tqwt8ANI5X9D&utm_psn=190938563655471107