Minimax 相关整理(2025-2026)

Kevin 吴嘉文大约 15 分钟

Minimax-01

25 年 1 月开始开源的模型，

huggingfaceopen in new window，arxivopen in new window

模型对标，对标 DeepSeek V3，GPT-4o 等模型

模型架构采用 MoE，优化最大的是 attention 部分，

MoE 训练过程中，除了使用 GShard 类的 Auxiliary Loss 平衡专家外，也采用了全局路由来控制 expert token 的分配（猜测就是简单的同步每个 expert 全局被选次数？）。

Scaling

文中对不同 attention 进行了 scaling laws 拟合，结论表明 lightning attention 更好。同时 scaling laws 也被用于选取模型大小，以及确定训练时候的 batch size。

MiniMax M1

25 年 6 月左右发布 arxivopen in new window, huggingfaceopen in new window

MOE 架构，456B-A46B，32 个 expert，部分 attention 采用 lightning attention 来节省长文本推理时候的开销。
对 MiniMax-Text-01 继续预训练 7.5T token
SFT 中加入 CoT 模型。数学和编程样本约占全部数据的 60%。
RL 用了 CISPO，用 512 张 H800，花了 3 周完成 RL 的训练，成本大约 53 万美元。
做长度扩充训练

RL

RL 中基于规则奖励（答案正确+format reward）的训练：

数学推理： 50K，用强推理模型筛选保留合适难度的数学题。
逻辑推理： 包含 41 种任务，53K 样本；同样对难度上限和下限进行了控制。用 SynLogic 实现数据合成流程。
竞赛编程： 30K 竞赛编程数据样本，同样保留难度适中且质量较高的算法题。
软件工程： 包含 bug 定位，代码修复，测试用例生产；团队开发了一个复杂的、基于容器的 sandbox 环境，用来模拟真实的软件开发流程。这个环境下能够提供倾析的反馈信号（正奖励或失败奖励）

RL 中基于 reward model 的训练（约 25K 个样本）：

有标准答案、但难以通过规则验证的任务
- 通过比较 GenRM 选出的 Best-of-N（BoN）回答和多个 benchmark 上的 pass@N 指标，评估 GenRM 的有效性。
没有标准答案的任务
- 首先使用多个内部和外部模型生成回答，然后这些参考答案会经过内部质量评估。
- 采用 成对比较框架 ，与参考答案对比来评估模型回答。
最优的 GenRM 后，他们会在整个训练数据集上执行 Swiss Round 评分系统 ，从而为 RL 训练确定最合适的参考答案
还在 RL 侧系统性地采用了 reward shapin 个，value clipping，normalization 降低奖励信号对一些表面特征（例如长度）极端值的敏感性。

在 RL 事后，采用了一个经过精细管理的 curriculum 和动态加权策略，用于在 CISPO 框架下进行 RL 训练：

一开始只训练那些带有基于规则奖励的高推理强度任务
然后逐步混入一般领域任务

长度扩展策略

高效训练一个支持 80K 输出长度 的 RL 模型。

采用了一种 分阶段窗口扩展的 RL 策略 。按 48K → 56K → 64K → 72K → 80K 逐级上升。

这种分阶段推进的方法可以确保每一步都维持训练稳定性。是否进入下一阶段长度窗口，则由一组经验指标来决定。这些指标包括：

生成序列上的 perplexity 是否已经收敛
输出长度的 99 分位数 是否接近当前上下文窗口上限

这些信号可以帮助判断模型是否已经准备好继续扩展长度，从而使整个扩展过程中的训练保持稳健。为了支持更长 thinking，他们不仅扩展长度窗口，还重新调整了训练数据：

去掉太容易的样本
提高难题比例
减少会诱发重复和同质化的 synthetic reasoning data

关键的长输出 RL 问题：pattern collapse

随着长度变长，负样本更容易撑满窗口，后半段积累大量负梯度，最终导致后文生成崩坏、乱码化。

这种不平衡来自两个因素：

GRPO 中 advantage normalization 本身具有不对称性
他们采用的是 token-level loss

为了解决这个问题，他们提出了三项关键措施：

（1）检测重复模式并提前停止

他们会检测重复模式，例如连续出现高概率 token 的情况，并采用 early stopping，防止重复性回答过度消耗上下文窗口。

（2）结合 sample-level loss 与 token-level normalization

他们引入了 sample-level loss + token-level normalization 的组合，用来缓解正负样本之间的不平衡，降低这种不利影响。

（3）进一步降低 gradient clipping threshold 和 ε_IS^high

他们还降低了梯度裁剪阈值以及 ε_IS^high，以进一步稳定生成过程。

MiniMax M2

似乎是 25 年 10 月发布的模型：有 huggingfaceopen in new window，和三个官方博客：

架构 230B-A10B MOE，主要与 GPT-5，Claude Sonnet 4.5 等对标。

M2 对比 M1，主要用了 Full Attn

核心原因有三层：

第一，efficient attention 的目的主要是省 compute。 ：MiniMax 说，在 compute 有限的情况下，我们需要用同样预算获得更高性能；efficient attention 的核心价值是让训练和推理更便宜。
第二，benchmark 容易误导架构选择。 ：小规模实验和已有 benchmark 上，hybrid attention 可能看起来很接近 full attention；但更大规模和更复杂任务下，可能暴露 multi-hop reasoning 缺陷。
第三，真实瓶颈不是设计一个 attention，而是评测它是否真的可靠。 ：MiniMax 说，越强的模型越难评估。很多架构问题只有 scale up 后才暴露，而发现问题本身比解决问题还难。
第四，linear/sparse attention 的基础设施还不够成熟。 ：低精度 state storage、prefix caching、speculative decoding 都是必须解决的问题。尤其在真实对话和 agent 服务中，prefix cache 命中率很高，新架构必须很好支持。
第五，SWA / hybrid 尝试失败的原因是长上下文退化。 ：MiniMax 说它们尝试过 Hybrid SWA，但随着上下文增长，性能明显下降；并且 retrieval head、induction head 等全局注意力模式在 pretraining 早期已经形成，后续 CPT 很难完全调整。

M2 主打 agent/coding model

为 coding and agentic workflows 设计的模型，擅长 multi-file edits、coding-run-fix loops、test-validated repairs，以及 shell、browser、retrieval、code runner 等复杂 toolchain。

M2 的重点不是单次长 CoT，而是 agent loop：

plan → act → observe → think → revise → act → verify

什么才是好的 Reasoning 数据？

CoT 的质量体现为逻辑完整而不过度冗余。他们做了多样性的格式混淆，同时，对于 CoT 和 Response 中可能存在的 Badcase，如幻觉、指令遵循、逻辑错误等，我们进行了规则+LLM-as-a-judge 的清洗。
实验中也发现了 math 和 code 数据是 Reasoning 能力提升的关键。
需要足够多样的数据覆盖更多的 domain，比如逻辑推理、科学类、指令遵循、以及开放创意类任务。不同领域的任务有相异的思考范式, Reasoning 的多样性是能力泛化的基础。
更加难、复杂的 query 对模型的训练更有效，所以要根据 passrate (for verifiable) 或复杂度评分 (non-verifiable) 进行数据分布的调整
当数据质量和多样性都过关时，数据规模的提升总能带来显著收益。不论是增加 query 数量、做“1Q 多 A”、多 epoch 训练，甚至是混合不同方向的数据带来更多的训练步数，模型都会稳步变好。
根据任务特点对所有的数据做了归并，分为 Verifiable 和 Non-Verifiable 两条数据管线进行自动化数据合成与处理。

Agent 泛化

Interleaved Thinking

MiniMax 认为 agent 需要 Interleaved Thinking 。也就是说，模型不是只在开头想一次，然后一直执行；而是在任务过程中可以反复 thinking。

原因是 agent 任务里上下文很长，而且工具返回会不断改变环境。模型需要根据新的 tool outputs 重新判断、诊断错误、提取信息、调整计划。

这也解释了为什么该模型 HF 模型卡要求保留 <think>...</think> 历史。MiniMax 明确说，M2 是 interleaved thinking model，使用时必须把 assistant 历史消息里的 thinking content 原样传回(这一点和推理模型不同, 推理模型使用中通常会把前文的 thinking 内容删掉)，删除 <think>...</think> 会伤害模型表现。

Generalization is about perturbation

Agent 泛化不仅仅是适应新工具, 它是关于在模型一切可能的操作空间上的扰动适应这件事。 真正的 agent generalization 是对整个 operational space 的 perturbation 稳定，包括：

tool info 和 toolset 变化
system prompt 变化
user prompt 变化
environment 变化，比如文件、代码库、API
tool responses 变化

它们认为旧的 tool scaling 只覆盖了 tool info，而没有覆盖 agent 运行过程中的其他扰动。于是它们建立了 full-trajectory generalization 的数据管线，通过这样链路产生的数据, 可以保证在绝大多数的扰动下, 让模型在每一步都对 perturbations 更稳定。

Minimax-M2.1

26 年 1 月左右发布的，huggingfaceopen in new window，和 2 个博客：

架构与 M2 大致相同，该模型主要针对 agent 能力进行了提升。

M2.1 的提升不是靠单纯刷 SWE-Bench，而是把 coding agent 的训练目标从“修 Python bug”扩展到“真实软件工程”

他们遇到的问题	他们进行的操作
SWE-Bench 不能完全代表真实 coding 场景：它主要是 Python bug fixing，覆盖面太窄。	不只围绕 SWE-Bench 训练，而是扩展到真实软件工程任务，包括多语言开发、测试生成、性能优化、code review 等。
语言覆盖不足：真实项目不只是 Python，还包括 Java、Go、TypeScript、Rust、C++ 等。	从 GitHub 收集大量 issues、PRs 和测试用例，构建覆盖 10+ 主流语言的数据管线。
多语言环境很难搭建：编译型语言有复杂工具链、版本兼容、依赖管理和测试框架。	建立大规模多语言训练环境，并针对不同语言设计测试执行、依赖处理和错误解析逻辑。
真实环境训练成本很高：大量代码任务需要真实运行、测试和验证。	搭建高并发 sandbox 基础设施，可快速启动数千个隔离执行环境，支持大规模 RL 训练。
真实开发不只是修 bug ：还包括写测试、性能优化、code review 等。	为不同任务设计专门训练数据和 reward signals，让模型学习多任务 coding 能力。
模型写的测试可能太简单，导致错误代码也能被选中。	基于 GitHub PR 和自生成 code patches 合成训练样本，强化高质量 test generation。
代码不仅要正确，还要高效。	训练模型关注算法复杂度、内存使用、并发处理和 API 最佳实践，提升 performance optimization 能力。
Code review 容易 hallucinate ：模型可能指出不存在的问题。	构建 SWE-Review benchmark，同时考察缺陷召回率和误报率，要求找对问题且不能乱报。
模型容易绑定某一个 scaffold ：在 Claude Code 里强，不代表在 Cursor、自研框架、Droid、mini-swe-agent 里也强。	做 OOD scaffold generalization 训练，并在多个 scaffold 上评估 SWE-Bench 表现。
不同 scaffold 的 context management 不一样，有些会丢弃历史 thinking content，影响 interleaved thinking。	一方面继续推荐使用 interleaved thinking，另一方面训练模型适应不同上下文管理策略。
复杂开发任务有很多约束：system prompt、user query、memory、tool schema、Agents.md、Skill.md 等都要遵守。	强化 long-range instruction following，让模型在长程任务中持续遵守复合指令约束。
M2.1 仍有 over-exploration ：会重复读文件、重复跑测试。	计划通过更好的 planning、code localization、memory mechanism 和 adaptive thinking depth 提升效率。
只看任务是否完成不够，开发者体验也重要。	计划定义 developer experience reward，包括代码质量、响应延迟、信息透明度、commit message、PR 描述等。
真实环境执行太贵。	计划构建 Coding World Model，预测测试是否通过、错误信息和程序行为，减少真实执行成本。
用户需求常常模糊、会中途变化。	计划构建 User Simulator，模拟真实开发者和 agent 的交互模式。
高质量数据是瓶颈。	建立自动化 data flywheel：发现 GitHub 任务、评估难度、增强任务、分析失败案例、生成新训练数据。

后训练技术与实践经验

链接：MiniMax M2.1：在 Agent 场景下的后训练技术与实践经验open in new window

SWE Scaling：从 GitHub 构建可验证软件工程任务

这是 M2.1 coding agent 训练最核心的数据来源。

MiniMax 的做法是利用 GitHub 中大量结构化数据，比如 PR 和 Commit，构建各种 verifiable software engineering tasks 。这些任务可以用于 SFT、拒绝采样，也可以用于 RL。

流程大致是：

第一步，筛选 GitHub PR / Commit。 例如筛选最终被 merge 的 PR，或者带有相关测试用例的 PR。

第二步，为 PR 构建可运行 Docker 环境。 这一步很难。MiniMax 会让 agent 在代码沙盒里反复 build，根据 build 结果自我迭代，尝试把环境搭起来。某些语言或库版本较复杂时，还需要专家经验来优化 agent 的执行流程，相当于给 agent 注入 skill。

第三步，对 PR 做 tagging 和分流。 PR 类型很多，包括 bugfix、新 feature、性能优化、测试构建、重构等。不同类型的 PR 后续处理方式不同。

比如 bugfix 任务可以抽取 F2P 和 P2P 测试：

F2P ：修复前 fail，修复后 pass，用来验证 bug 是否被修好。
P2P ：修复前 pass，修复后仍 pass，用来防止修 bug 时引入新 bug。

而 feature 任务、性能优化任务、测试生成任务的 reward 构造方式又不同。

第四步，用模型校验任务一致性。 因为原始 GitHub PR 不一定规范，issue 描述和测试用例也可能不完全一致，所以 MiniMax 会用模型检查问题描述、测试用例和代码修改是否匹配。如果缺少关键信息，还会补充问题描述，让任务变成自包含任务。

这一节最关键的思想是：

把 GitHub PR / Commit 转化成多种可验证任务，而不是只做 SWE-Bench 风格的 bug fixing。

AppDev

AppDev 属于从零到一完成全栈软件开发任务。

Expert in the Loop ：在 AppDev 场景中，MiniMax 使用 Expert in the Loop 。也就是说，由相关领域的数据专家参与数据生成和迭代。
Meta Query 与 Rubric-based Reward ：专家写 Prompt 或 Meta Query；Meta Query 结合特定场景的 Random Seed，能合成多样化的用户 Query；采样前构建 Rubric-based Reward
专家经验注入与 Prompt Distillation ：专家采样时候把一些开发经验放到 system prompt 中，但训练时去掉，这样专家的 Best Practice 就会变成模型的默认行为，
Agent as a Verifier ：前端、App 这类任务只看静态代码很难判断质量。MiniMax 会让模型在沙盒环境中完整部署项目，再通过 Playwright 等工具与界面交互，根据交互后的状态变化，对照 Rubric 打分。

WebExplorer

提高 query 难度 ：先探索真实信息链，再通过 query evolution 去掉明显入口，让任务变得更长、更难、更像真实搜索。去掉入口如“：移除容易搜索到的信息，模糊化具体线索，替换显著信息
用平均解决轮次衡量难度 ：初始问题平均约 7.9 轮 解决，query evolution 进化后达到 9.9 轮 。

Agent 评测

VIBE ：评估模型从零到一构建应用的能力。reward 包括真实运行环境检查应用是否能编译、交互逻辑是否正确、视觉效果是否符合要求。
SWE-Review ：测试模型能不能像 code reviewer 一样发现代码缺陷。
OctoBench ：评估 Agent 的复杂指令遵循能力

Minimax M2.5

似乎是 26 年 2 月左右出的模型。huggingfaceopen in new window，还有博客：

Forge: Scalable Agent RL Framework and Algorithmopen in new window
Coding：从“修代码”到“像架构师一样规划系统”

M2.5 更强调复杂项目中的 0-to-1 system design 和 完整开发生命周期 。MiniMax 说，M2.5 在训练中形成了类似软件架构师的行为：在写代码之前，会主动从功能、结构、UI 设计等角度拆解和规划项目。

Search and Tool Calling： M2.5 相比 M2.1 使用约 20% 更少的轮次，但取得更好结果。
Office Work： 和金融、法律、社会科学等领域的资深专业人士合作，让这些专家设计需求、提供反馈、参与标准定义，并直接参与数据构建，把行业 tacit knowledge 纳入训练管线。
效率和成本 ：M2.5 原生服务速度达到 100 tokens/s ，接近其他 frontier models 的两倍；M2.5 平均每个任务消耗 3.52M tokens ，M2.1 是 3.72M tokens 。

Minimax M2.7

26 年 4 月左右的模型。huggingfaceopen in new window

架构与前几代相似。主打 self-improvement、自主构建 agent harness、复杂工程交付、专业办公交付，以及多 agent 协作。

Minimax 相关整理(2025-2026)

# Minimax-01

# MiniMax M1

# RL

# 长度扩展策略

# 关键的长输出 RL 问题：pattern collapse

# MiniMax M2

# M2 对比 M1，主要用了 Full Attn

# M2 主打 agent/coding model

# 什么才是好的 Reasoning 数据？

# Agent 泛化

# Minimax-M2.1

# 后训练技术与实践经验

# Minimax M2.5

# Minimax M2.7