
图源:MiniMax
引言:一个不再以版本号论英雄的时代
2026年的春节档,成为了AI行业一场军备竞赛的缩影。巨头与创业公司密集发布新模型,技术迭代的周期从过去的半年一更,被无情地压缩至按月刷新。在这个技术领先窗口期被加速压缩的时代,任何单一时点的Benchmark排名都已迅速失去意义。
行业对护城河的定义正在悄然改变。曾经,某个版本的性能优势就是坚固的壁垒,但现在,焦点正转向其背后支撑高速迭代的系统性进化能力。评估一家AI公司的标准,也从它现在有多强,转变为它能以多快的速度变强。
正是在这个背景下,MiniMax M2.5的出现,将这个趋势以一种极端的方式摆在了台面上。
它在关键的编程能力基准SWE-Bench Verified上,取得了80.2%的成绩,几乎追平了最昂贵的对手Claude Opus 4.6(80.8%)。而实现这一切的代价,却被压缩到了极致:在100 TPS的高速推理下,连续工作一小时仅需1美金,价格是同级模型的十分之一到二十分之一。这种极致的性能与成本组合,使其不再只是一个简单的技术升级。
刷新多个行业SOTA,SWE-Bench Verified(80.2%),Multi-SWE-Bench(51.3%),BrowseComp(76.3%;图源:MiniMax
在100 TPS的高速推理下,连续工作一小时仅需1美金;图源:MiniMax
当一个物种同时具备顶级的捕食能力和极低的能量消耗,它就拥有了改写生态的潜力。
但数字本身会误导。真正的故事,无关M2.5此刻有多强。它关乎创造它的那套进化引擎有多快。这一事实,正迫使我们重新审视整个AI行业的竞争法则。
AI的自然选择:游戏规则正在重写
M2.5的出现并非偶然,它是AI行业演化方向的集中体现。游戏规则正在被重写,主要体现在两个层面:战场的迁移与标尺的重塑。
战场的迁移:从知道到做到
AI竞争的重心,正从预训练阶段依赖Scaling Law的暴力美学,迅速滑向以Agent为核心的后训练阶段。在预训练阶段,模型的核心任务是学习与记忆,比拼的是谁能用更多的算力和数据,构建一个更博学的知识大脑。而进入后训练阶段,核心任务转变为执行与完成,比拼的是谁能让模型在真实世界中高效地解决问题。
模型的价值不再仅仅是作为一个知晓一切的数字图书馆,而是作为一个能真正完成任务的数字化劳动力。整个行业正在从比拼谁更博学,转向比拼谁更实干。
标尺的重塑:从解题到解决问题
随着战场的迁移,评价模型的标尺也随之改变。能聊天和能干活,是两回事。新的标尺不再满足于学术化的闭卷考试,而是更贴近真实、开放的工作流,衡量模型在充满不确定性和复杂交互的现实世界中的问题解决能力。
成为高水平工程师。
这是模型作为“数字化劳动力”的基础。新的评测标准不再是完成零散的算法题,而是像真实世界的软件工程师一样,在复杂的代码库中定位并修复问题。在最具代表性的编程基准SWE-Bench上,M2.5取得了80.2%的成绩,接近行业顶尖水平,证明了其强大的工程实现能力。
更进一步,M2.5演化出了原生Spec行为:在动手写代码前,像架构师一样主动拆解功能、规划结构。在一个案例中,M2.5接到的任务是:
“从0到1构建一个3D太空飞行游戏(Project LEO-DRIFT),要求在单个HTML文件中完成,包含飞船驾驶、躲避随机出现的小行星等复杂交互功能。”
最终,M2.5独立规划并利用Three.js完成了整个游戏的开发。最终生成的游戏不仅功能完整、代码结构清晰,其视觉效果和交互体验也达到了相当高的水准,展现了模型从概念到可玩原型的端到端交付能力。
MiniMax 2.5 制作的 3D太空飞行游戏
超越代码,理解产品与美学。
如果说强大的代码能力证明了模型可以胜任工程师的角色,那么M2.5则进一步展现了理解商业、设计与用户体验的能力,类似于产品经理和设计师的视角。
真正的挑战,在于将人类模糊、抽象、充满感性描述的“创意”,转化为一个功能完备、审美在线的商业产品。这考验的不再是纯粹的逻辑,而是对“产品感”和“美学”的理解。
深度办公交付
从文本生成转向成果交付。简单的信息提取已是基础,新的标准看重能否直接交付可用的工作成果。M2.5能够熟练操作Word、Excel和PowerPoint,将自己变成一个能直接产出最终文件的数字员工
“请列出2019年至2024年(包括2024年)每年福布斯全球亿万富翁排行榜的前10名个人。对于每个人,包括他们的姓名、排名、净资产、财富来源和当年年底的年龄。以表格格式呈现信息。您的所有数据都应来自福布斯,这意味着年龄和净资产是根据发布日期计算的。\n\n请以一种Excel表格格式呈现组织的数据。\n列标题按顺序应为:\n年份、排名、姓名、净资产(以USD十亿计)、年龄、财富来源。\n\n不要问我任何问题。”
MiniMax 2.5 制作的榜单
在这片新战场和新标尺之下,静态的性能优势变得短暂易逝。能够最快适应新环境、在新标尺下持续取得高分的能力——即进化速度,成为了决定生死的唯一关键变量。要理解这种速度的真实面貌,我们需要把M2.5放到时间轴上去观察。
M2.5,一条公开的加速度曲线
M2.5最值得关注的,并非其当下的性能数据,而是其清晰可见的进化加速度。
108天内的效率跃迁
M2.5的进化速度并非体感,在过去的108天里,MiniMax陆续更新了M2、M2.1和M2.5三个版本。在最具代表性的SWE-Bench上,分数从M2.1的74.0%提升至M2.5的80.2%,保持了极快的进步速度。
MiniMax M系列模型保持了行业最快的进步速度
加速度背后的引擎
这种加速度的背后,指向MiniMax为Agent迭代专门设计的系统:Forge。它并非一个简单的技术叠加,而是一套为加速进化本身而设计的工厂。
Forge - 原生 Agent RL 框架;图源:https://zhuanlan.zhihu.com/p/2005742716252861435
这套系统的核心,是通过一个中间层,解耦了底层的训推引擎与上层的Agent。这个设计好比一个万能的发动机测试平台,可以快速测试任何品牌的汽车底盘(Agent),而无需为每款车都重建一套测试系统。这种架构使其能高效接入并优化数十万个不同的真实环境,将真实世界的复杂性规模化地转化为模型的养料。
为了让这个“工厂”高效运转,一系列算法与工程设计协同工作。例如,CISPO算法就像一个安全阀,确保强大的MoE模型在高速训练中不会失控。而过程奖励机制则解决了长任务的归因难题,确保在漫长的任务中,每一个正确步骤都能得到奖励,让模型学会复杂的长流程。配合异步调度、树状合并训练样本等工程优化,最终实现了约40倍的训练加速。
商业的催化剂:让Agent时代成为可能
如果说技术架构是因,那么极具冲击力的商业模式就是果。M2.5的低成本和高效率,正在让Agent从一个昂贵的设想,变成触手可及的商业现实。
M2.5将使用成本拉至一个全新的水平:在每秒输出100个词元的高速模式下,连续工作一小时仅需1美金。这重塑了企业应用AI的成本收益模型,使得AI即劳动力的范式成为可能。同时,其仅为10B的激活参数量,是第一梯队旗舰模型中最小的尺寸之一 。
当基座模型的性能足够强大且成本足够低廉时,一个全新的Agent Store应用生态便有了成长的土壤。开发者可以基于M2.5这样的高性价比平台,开发无数垂直、专业的Agent,并进行分发和销售。
重新思考护城河
M2.5的发布,战略意义远超产品本身。它是一个探针,揭示了AI竞争下半场的本质:一场关于进化系统效率的马拉松。
过去的护城河是城墙,是静态的模型性能和数据壁垒。现在的护城河是河流,是一条能够自我加速、奔腾不息的进化速度。
对于行业而言,这意味着焦点的转移。真正的核心竞争力,不再是拥有一个强大的模型,而是拥有一个能够持续、快速、低成本地制造出更强模型的系统。
能回答好后一个问题的公司,才能在这场残酷的自然选择中,赢得未来。
References:
https://zhuanlan.zhihu.com/p/2005742716252861435
https://www.minimaxi.com/news/minimax-m25
)
)
(ieee special section))
)
)
)
)
)
)
)
)
)
)
)
)
)