搜索 校内登录
  • 杨乐

  • 研究员

电子邮箱:

所在单位: 信息与通信工程学院

学历: 直博

办公地点: 兴庆校区:彭康楼
创新港校区:泓理楼8034

性别: 男

学位: 博士

博士生导师: 是

硕士生导师: 是

学科: 信息与通信工程

我的新闻

当前位置: 中文主页 - 我的新闻

🔥 我们构建并开源了首个端到端【对标Open-AI o3模型】的图像思维链推理框架,DeepEyes

发布时间:2025-05-27
点击次数:
发布时间:
2025-05-27
文章标题:
🔥 我们构建并开源了首个端到端【对标Open-AI o3模型】的图像思维链推理框架,DeepEyes
内容:

    近日,团队构建了首个对标Open-AI o3模型的【开源】图像推理框架【DeepEyes】。

 

 

 

    DeepEyes是一个具备像o3一样“边看图边思考”的能力的模型,我们基于Qwen2.5-VL-7B-Instruct的原生能力,没有SFT冷启,也不依赖外部专家模型,完全端到端RL训练,用outcome reward signal来激发VLM图像思考能力。

 

    在最终结果上,DeepEyes-7B模型测试性能指标全面超过了Qwen2.5-VL的32B版本,V*上接近Open-AI o3/o4-mini的水平,并且在数学、visual grounding、幻觉等任务上也有不错的表现.

 

    为了和Open-AI中门对狙,我们展示了o3/o4-mini博客里的图片在我们模型上的表现,以及一些自己用手机拍的照片。

 

Paper:https://arxiv.org/abs/2505.14362

Code:https://github.com/Visual-Agent/DeepEyes

Homepage:https://visual-agent.github.io/

知乎:https://zhuanlan.zhihu.com/p/1908543355161417216?share_code=tqwt8ANI5X9D&utm_psn=190938563655471107