查看: 1266|回复: 2

MiniMax发布新一代大模型M2.7 [复制链接]

coffee198375

军衔等级：

大元帅

注册：2007-12-10 点赞数

2781

电梯直达

1^# 大中小

发表于 2026-3-19 11:13:11 |只看该作者 |倒序浏览

3月18日，MiniMax发布新一代模型M2.7，并将其定位为面向Agent场景的旗舰模型，首次展示“模型自我进化”路径。与此前版本相比，M2.7此次发布的重点不只是常规性能提升，还包括一套被称为Agent Harness的执行框架。MiniMax表示，该框架可让模型更深度地参与数据处理、实验设计、训练调优与评测反馈等研发流程。在部分内部研发场景中，相关系统可承担约30%至50%的工作量，并在内部评测集上带来约30%的效果提升。

01、以Agent为核心的自我进化系统

从技术路径来看，M2.7构建了一套以Agent为核心的自我进化系统。在该体系中，模型不仅承担生成与推理任务，还通过构建复杂的Agent Harness（智能体执行框架），参与数据处理、实验设计、训练调优与评测反馈等完整研发流程。换言之，模型开始成为模型研发流程的一部分，而非单一工具。

具体实践中，MiniMax将M2系列早期版本引导为一个研究型Agent，可与不同项目组协同工作，覆盖数据流水线、训练环境、评测体系以及跨团队协作。以强化学习（RL）场景为例，Agent能够从实验设想出发，通过与研究员讨论，协助研究员完成文献调研、实验设计、任务执行，并在过程中自动进行日志分析、Bug排查、指标优化和代码修复，显著降低人工介入频率。Minimax官方数据显示，在部分研发流程中，M2.7已可承担30%至50%的工作量。

M2.7具备“自我优化闭环”。在内部测试中，模型可连续执行超过100轮“分析—改进—验证”的循环，自主调整采样参数、优化工作流策略，并在内部评测集中实现约30%的效果提升。这种能力意味着，模型不再完全依赖人工调参，而是具备一定程度的“自主进化能力”。

02、强化在软件工程、办公生产力与专业领域能力

在具体能力表现上，M2.7继续强化其在软件工程领域的优势。在SWE-bench Pro测试中，其正确率达到56.22%，接近国际顶级模型水平；在更贴近真实场景的VIBE-Pro与Terminal Bench 2测试中，分别取得55.6%和57.0%的成绩，体现出其在端到端项目交付和复杂系统理解上的能力。MiniMax表示，基于M2.7，部分线上生产系统故障的修复时间已可缩短至3分钟以内。

在真实的软件工程中，模型能够深入理解真实工程语境。在线上生产环境故障调试等常见工程环境中，M2.7不仅能够生成代码，还能结合监控指标、部署时间线进行因果分析，甚至主动连接数据库验证假设，并提出工程级解决方案。

在办公与生产力场景，M2.7在 GDPval-AA的ELO得分1495。针对Word、Excel、PPT等常见工具，模型不仅可以生成内容，还支持多轮高保真编辑，并在复杂任务中保持高达97%的指令遵循率。此外，在Toolathon等工具调用评测中，表现领先。

03、Agent进阶，多智能体协作与交互范式探索

值得关注的是，M2.7强化了“多智能体协作”（Agent Teams）能力。在这一模式下，模型需同时承担多个角色，进行对抗性推理与协同决策。这对模型的身份保持、逻辑一致性与协议遵循提出更高要求，也被视为Agent应用从单点能力走向复杂系统的重要标志。

与此同时，MiniMax也在探索Agent的“非生产力边界”。通过增强模型的人设保持与情感交互能力，M2.7开始具备更强的互动属性，并支撑起MiniMax最新推出的互动娱乐产品OpenRoom，将AI交互延伸至沉浸式Web环境，探索“对话即界面”的新交互范式。

目前，M2.7已在MiniMax Agent及开放平台上线。随着开发者与企业用户的持续接入，其在真实场景中的表现，将成为检验“自我进化模型”商业价值的关键。

0 举报本楼

本帖有 2 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图

GMT+8, 2026-8-2 00:19 , Processed in 0.124926 second(s), 15 queries , Gzip On.

Discuz Licensed

		自动登录	找回密码
密码			注册