月之暗面发布首个自主强化学习Agent Kimi-Researcher,性能超越OpenAI与Gemini

6月23日消息,月之暗面(Moonshot AI)宣布推出其首个自主Agent产品——Kimi-Researcher,该模型基于端到端自主强化学习(end-to-end agentic RL)技术训练,在多项基准测试中表现优异,甚至超越了OpenAI和Google Gemini的同类模型。

核心亮点

  1. 强大的自主研究能力Kimi-Researcher 能够自主规划任务流程,平均执行23步推理,规划74个关键词,搜索206个网址,并筛选出质量最高的3.2%信息,确保研究报告的高信源质量。支持调用浏览器、代码等工具,自动处理数据并生成分析结论,最终交付万字深度报告和动态可视化报告。
  2. 超越OpenAI和Gemini的基准表现在专为AI设计的超高难度测试“人类最后一场考试”(Humanity’s Last Exam, HLE)中,Kimi-Researcher 的 Pass@1准确率达26.9%,Pass@4达40.17%,超过Claude 4 Opus(10.7%)、Gemini 2.5 Pro(21.6%),并与OpenAI Deep Research(26.6%)持平。在xbench-DeepSearch任务中,其平均通过率高达69%,优于配备搜索工具的O3等模型。
  3. 端到端强化学习训练,自适应能力强不同于传统基于提示词或预设流程的Agent,Kimi-Researcher完全依赖自主强化学习,通过试错优化策略,适应动态环境和长程任务。研究团队采用REINFORCE算法,结合格式奖励和正确性奖励机制,确保模型在复杂任务中的稳定性。

应用场景

Kimi-Researcher 已成功应用于:

  • 学术研究(如算法Benchmark分析)
  • 商业分析(行业趋势、企业财报)
  • 法律政策(全球数据隐私法规检索)
  • 医疗研究(临床证据审查)。

目前,Kimi-Researcher 已开放内测申请(kimi.com),并计划在未来几个月开源其基础模型及强化学习框架。

此次发布标志着月之暗面在AI Agent领域的重要突破,其自主强化学习架构或将成为下一代AI研究的新标杆。

image.png

月之暗面发布首个自主强化学习Agent Kimi-Researcher,性能超越OpenAI与Gemini

6月23日消息,月之暗面(Moonshot AI)宣布推出其

长按识别二维码