跳至主要內容

Minimax 相关整理(2025-2026)

Kevin 吴嘉文大约 15 分钟知识笔记AIGCLLM

Minimax-01

25 年 1 月开始开源的模型,

huggingfaceopen in new windowarxivopen in new window

模型对标,对标 DeepSeek V3,GPT-4o 等模型

image-20260322201749042
image-20260322201749042

模型架构采用 MoE,优化最大的是 attention 部分,

image-20260322200815700
image-20260322200815700

MoE 训练过程中,除了使用 GShard 类的 Auxiliary Loss 平衡专家外,也采用了全局路由来控制 expert token 的分配(猜测就是简单的同步每个 expert 全局被选次数?)。

  • Scaling

文中对不同 attention 进行了 scaling laws 拟合,结论表明 lightning attention 更好。同时 scaling laws 也被用于选取模型大小,以及确定训练时候的 batch size。

image-20260421194146926
image-20260421194146926

MiniMax M1

25 年 6 月左右发布 arxivopen in new window, huggingfaceopen in new window

  • MOE 架构,456B-A46B,32 个 expert,部分 attention 采用 lightning attention 来节省长文本推理时候的开销。
  • 对 MiniMax-Text-01 继续预训练 7.5T token
  • SFT 中加入 CoT 模型。数学和编程样本约占全部数据的 60%。
  • RL 用了 CISPO,用 512 张 H800, 花了 3 周完成 RL 的训练,成本大约 53 万美元。
  • 做长度扩充训练

RL

RL 中基于规则奖励(答案正确+format reward)的训练:

  • 数学推理: 50K,用强推理模型筛选保留合适难度的数学题。
  • 逻辑推理: 包含 41 种任务,53K 样本;同样对难度上限和下限进行了控制。用 SynLogic 实现数据合成流程。
  • 竞赛编程: 30K 竞赛编程数据样本,同样保留难度适中且质量较高的算法题。
  • 软件工程: 包含 bug 定位,代码修复,测试用例生产;团队开发了一个复杂的、基于容器的 sandbox 环境,用来模拟真实的软件开发流程。这个环境下能够提供倾析的反馈信号(正奖励或失败奖励)

RL 中基于 reward model 的训练(约 25K 个样本):

  • 有标准答案、但难以通过规则验证的任务

    • 通过比较 GenRM 选出的 Best-of-N(BoN)回答和多个 benchmark 上的 pass@N 指标,评估 GenRM 的有效性。
  • 没有标准答案的任务

    • 首先使用多个内部和外部模型生成回答,然后这些参考答案会经过内部质量评估。
    • 采用 成对比较框架 ,与参考答案对比来评估模型回答。
  • 最优的 GenRM 后,他们会在整个训练数据集上执行 Swiss Round 评分系统 ,从而为 RL 训练确定最合适的参考答案

  • 还在 RL 侧系统性地采用了 reward shapin 个,value clipping,normalization 降低奖励信号对一些表面特征(例如长度)极端值的敏感性。

在 RL 事后,采用了一个经过精细管理的 curriculum 和动态加权策略,用于在 CISPO 框架下进行 RL 训练:

  • 一开始只训练那些带有基于规则奖励的高推理强度任务
  • 然后逐步混入一般领域任务

长度扩展策略

高效训练一个支持 80K 输出长度 的 RL 模型。

采用了一种 分阶段窗口扩展的 RL 策略 。按 48K → 56K → 64K → 72K → 80K 逐级上升。

这种分阶段推进的方法可以确保每一步都维持训练稳定性。是否进入下一阶段长度窗口,则由一组经验指标来决定。这些指标包括:

  • 生成序列上的 perplexity 是否已经收敛
  • 输出长度的 99 分位数 是否接近当前上下文窗口上限

这些信号可以帮助判断模型是否已经准备好继续扩展长度,从而使整个扩展过程中的训练保持稳健。为了支持更长 thinking,他们不仅扩展长度窗口,还重新调整了训练数据:

  • 去掉太容易的样本
  • 提高难题比例
  • 减少会诱发重复和同质化的 synthetic reasoning data

关键的长输出 RL 问题:pattern collapse

随着长度变长,负样本更容易撑满窗口,后半段积累大量负梯度,最终导致后文生成崩坏、乱码化。

这种不平衡来自两个因素:

  • GRPO 中 advantage normalization 本身具有不对称性
  • 他们采用的是 token-level loss

为了解决这个问题,他们提出了三项关键措施:

(1)检测重复模式并提前停止

他们会检测重复模式,例如连续出现高概率 token 的情况,并采用 early stopping,防止重复性回答过度消耗上下文窗口。

(2)结合 sample-level loss 与 token-level normalization

他们引入了 sample-level loss + token-level normalization 的组合,用来缓解正负样本之间的不平衡,降低这种不利影响。

(3)进一步降低 gradient clipping threshold 和 ε_IS^high

他们还降低了梯度裁剪阈值以及 ε_IS^high,以进一步稳定生成过程。


MiniMax M2

似乎是 25 年 10 月发布的模型:有 huggingfaceopen in new window,和三个官方博客:

架构 230B-A10B MOE,主要与 GPT-5,Claude Sonnet 4.5 等对标。

image-20260430194002678
image-20260430194002678

M2 对比 M1,主要用了 Full Attn

核心原因有三层:

  • 第一,efficient attention 的目的主要是省 compute。 :MiniMax 说,在 compute 有限的情况下,我们需要用同样预算获得更高性能;efficient attention 的核心价值是让训练和推理更便宜。
  • 第二,benchmark 容易误导架构选择。 :小规模实验和已有 benchmark 上,hybrid attention 可能看起来很接近 full attention;但更大规模和更复杂任务下,可能暴露 multi-hop reasoning 缺陷。
  • 第三,真实瓶颈不是设计一个 attention,而是评测它是否真的可靠。 :MiniMax 说,越强的模型越难评估。很多架构问题只有 scale up 后才暴露,而发现问题本身比解决问题还难。
  • 第四,linear/sparse attention 的基础设施还不够成熟。 :低精度 state storage、prefix caching、speculative decoding 都是必须解决的问题。尤其在真实对话和 agent 服务中,prefix cache 命中率很高,新架构必须很好支持。
  • 第五,SWA / hybrid 尝试失败的原因是长上下文退化。 :MiniMax 说它们尝试过 Hybrid SWA,但随着上下文增长,性能明显下降;并且 retrieval head、induction head 等全局注意力模式在 pretraining 早期已经形成,后续 CPT 很难完全调整。

M2 主打 agent/coding model

coding and agentic workflows 设计的模型,擅长 multi-file edits、coding-run-fix loops、test-validated repairs,以及 shell、browser、retrieval、code runner 等复杂 toolchain。

M2 的重点不是单次长 CoT,而是 agent loop:

plan → act → observe → think → revise → act → verify


什么才是好的 Reasoning 数据?

  • CoT 的质量体现为逻辑完整而不过度冗余。他们做了多样性的格式混淆,同时,对于 CoT 和 Response 中可能存在的 Badcase,如幻觉、指令遵循、逻辑错误等,我们进行了规则+LLM-as-a-judge 的清洗。
  • 实验中也发现了 math 和 code 数据是 Reasoning 能力提升的关键。
  • 需要足够多样的数据覆盖更多的 domain,比如逻辑推理、科学类、指令遵循、以及开放创意类任务。不同领域的任务有相异的思考范式, Reasoning 的多样性是能力泛化的基础。
  • 更加难、复杂的 query 对模型的训练更有效,所以要根据 passrate (for verifiable) 或复杂度评分 (non-verifiable) 进行数据分布的调整
  • 当数据质量和多样性都过关时,数据规模的提升总能带来显著收益。不论是增加 query 数量、做“1Q 多 A”、多 epoch 训练,甚至是混合不同方向的数据带来更多的训练步数,模型都会稳步变好。
  • 根据任务特点对所有的数据做了归并,分为 Verifiable 和 Non-Verifiable 两条数据管线进行自动化数据合成与处理。

Agent 泛化

  1. Interleaved Thinking

MiniMax 认为 agent 需要 Interleaved Thinking 。也就是说,模型不是只在开头想一次,然后一直执行;而是在任务过程中可以反复 thinking。

原因是 agent 任务里上下文很长,而且工具返回会不断改变环境。模型需要根据新的 tool outputs 重新判断、诊断错误、提取信息、调整计划。

这也解释了为什么该模型 HF 模型卡要求保留 <think>...</think> 历史。MiniMax 明确说,M2 是 interleaved thinking model,使用时必须把 assistant 历史消息里的 thinking content 原样传回(这一点和推理模型不同, 推理模型使用中通常会把前文的 thinking 内容删掉),删除 <think>...</think> 会伤害模型表现。

  1. Generalization is about perturbation

Agent 泛化不仅仅是适应新工具, 它是关于在模型一切可能的操作空间上的扰动适应这件事。 真正的 agent generalization 是对整个 operational space 的 perturbation 稳定,包括:

  • tool info 和 toolset 变化
  • system prompt 变化
  • user prompt 变化
  • environment 变化,比如文件、代码库、API
  • tool responses 变化

它们认为旧的 tool scaling 只覆盖了 tool info,而没有覆盖 agent 运行过程中的其他扰动。于是它们建立了 full-trajectory generalization 的数据管线,通过这样链路产生的数据, 可以保证在绝大多数的扰动下, 让模型在每一步都对 perturbations 更稳定。


Minimax-M2.1

26 年 1 月左右发布的,huggingfaceopen in new window,和 2 个博客:

架构与 M2 大致相同,该模型主要针对 agent 能力进行了提升。


M2.1 的提升不是靠单纯刷 SWE-Bench,而是把 coding agent 的训练目标从“修 Python bug”扩展到“真实软件工程”

他们遇到的问题他们进行的操作
SWE-Bench 不能完全代表真实 coding 场景 :它主要是 Python bug fixing,覆盖面太窄。不只围绕 SWE-Bench 训练,而是扩展到真实软件工程任务,包括多语言开发、测试生成、性能优化、code review 等。
语言覆盖不足 :真实项目不只是 Python,还包括 Java、Go、TypeScript、Rust、C++ 等。从 GitHub 收集大量 issues、PRs 和测试用例,构建覆盖 10+ 主流语言的数据管线。
多语言环境很难搭建 :编译型语言有复杂工具链、版本兼容、依赖管理和测试框架。建立大规模多语言训练环境,并针对不同语言设计测试执行、依赖处理和错误解析逻辑。
真实环境训练成本很高 :大量代码任务需要真实运行、测试和验证。搭建高并发 sandbox 基础设施,可快速启动数千个隔离执行环境,支持大规模 RL 训练。
真实开发不只是修 bug :还包括写测试、性能优化、code review 等。为不同任务设计专门训练数据和 reward signals,让模型学习多任务 coding 能力。
模型写的测试可能太简单 ,导致错误代码也能被选中。基于 GitHub PR 和自生成 code patches 合成训练样本,强化高质量 test generation。
代码不仅要正确,还要高效训练模型关注算法复杂度、内存使用、并发处理和 API 最佳实践,提升 performance optimization 能力。
Code review 容易 hallucinate :模型可能指出不存在的问题。构建 SWE-Review benchmark,同时考察缺陷召回率和误报率,要求找对问题且不能乱报。
模型容易绑定某一个 scaffold :在 Claude Code 里强,不代表在 Cursor、自研框架、Droid、mini-swe-agent 里也强。做 OOD scaffold generalization 训练,并在多个 scaffold 上评估 SWE-Bench 表现。
不同 scaffold 的 context management 不一样 ,有些会丢弃历史 thinking content,影响 interleaved thinking。一方面继续推荐使用 interleaved thinking,另一方面训练模型适应不同上下文管理策略。
复杂开发任务有很多约束 :system prompt、user query、memory、tool schema、Agents.md、Skill.md 等都要遵守。强化 long-range instruction following,让模型在长程任务中持续遵守复合指令约束。
M2.1 仍有 over-exploration :会重复读文件、重复跑测试。计划通过更好的 planning、code localization、memory mechanism 和 adaptive thinking depth 提升效率。
只看任务是否完成不够 ,开发者体验也重要。计划定义 developer experience reward,包括代码质量、响应延迟、信息透明度、commit message、PR 描述等。
真实环境执行太贵计划构建 Coding World Model,预测测试是否通过、错误信息和程序行为,减少真实执行成本。
用户需求常常模糊、会中途变化计划构建 User Simulator,模拟真实开发者和 agent 的交互模式。
高质量数据是瓶颈建立自动化 data flywheel:发现 GitHub 任务、评估难度、增强任务、分析失败案例、生成新训练数据。

后训练技术与实践经验

链接:MiniMax M2.1:在 Agent 场景下的后训练技术与实践经验open in new window

  • SWE Scaling:从 GitHub 构建可验证软件工程任务

这是 M2.1 coding agent 训练最核心的数据来源。

MiniMax 的做法是利用 GitHub 中大量结构化数据,比如 PR 和 Commit,构建各种 verifiable software engineering tasks 。这些任务可以用于 SFT、拒绝采样,也可以用于 RL。

流程大致是:

第一步,筛选 GitHub PR / Commit。 例如筛选最终被 merge 的 PR,或者带有相关测试用例的 PR。

第二步,为 PR 构建可运行 Docker 环境。 这一步很难。MiniMax 会让 agent 在代码沙盒里反复 build,根据 build 结果自我迭代,尝试把环境搭起来。某些语言或库版本较复杂时,还需要专家经验来优化 agent 的执行流程,相当于给 agent 注入 skill。

第三步,对 PR 做 tagging 和分流。 PR 类型很多,包括 bugfix、新 feature、性能优化、测试构建、重构等。不同类型的 PR 后续处理方式不同。

比如 bugfix 任务可以抽取 F2PP2P 测试:

  • F2P :修复前 fail,修复后 pass,用来验证 bug 是否被修好。
  • P2P :修复前 pass,修复后仍 pass,用来防止修 bug 时引入新 bug。

而 feature 任务、性能优化任务、测试生成任务的 reward 构造方式又不同。

第四步,用模型校验任务一致性。 因为原始 GitHub PR 不一定规范,issue 描述和测试用例也可能不完全一致,所以 MiniMax 会用模型检查问题描述、测试用例和代码修改是否匹配。如果缺少关键信息,还会补充问题描述,让任务变成自包含任务。

这一节最关键的思想是:

把 GitHub PR / Commit 转化成多种可验证任务,而不是只做 SWE-Bench 风格的 bug fixing。


AppDev

AppDev 属于从零到一完成全栈软件开发任务。

  • Expert in the Loop :在 AppDev 场景中,MiniMax 使用 Expert in the Loop 。也就是说,由相关领域的数据专家参与数据生成和迭代。
  • Meta Query 与 Rubric-based Reward :专家写 Prompt 或 Meta Query;Meta Query 结合特定场景的 Random Seed,能合成多样化的用户 Query;采样前构建 Rubric-based Reward
  • 专家经验注入与 Prompt Distillation :专家采样时候把一些开发经验放到 system prompt 中,但训练时去掉,这样专家的 Best Practice 就会变成模型的默认行为,
  • Agent as a Verifier :前端、App 这类任务只看静态代码很难判断质量。MiniMax 会让模型在沙盒环境中完整部署项目,再通过 Playwright 等工具与界面交互,根据交互后的状态变化,对照 Rubric 打分。

WebExplorer

  • 提高 query 难度 :先探索真实信息链,再通过 query evolution 去掉明显入口,让任务变得更长、更难、更像真实搜索。去掉入口如“:移除容易搜索到的信息,模糊化具体线索,替换显著信息
  • 用平均解决轮次衡量难度 :初始问题平均约 7.9 轮 解决,query evolution 进化后达到 9.9 轮

Agent 评测

  • VIBE :评估模型从零到一构建应用的能力。reward 包括真实运行环境检查应用是否能编译、交互逻辑是否正确、视觉效果是否符合要求。
  • SWE-Review :测试模型能不能像 code reviewer 一样发现代码缺陷。
  • OctoBench :评估 Agent 的复杂指令遵循能力

Minimax M2.5

似乎是 26 年 2 月左右出的模型。huggingfaceopen in new window,还有博客:

M2.5 更强调复杂项目中的 0-to-1 system design完整开发生命周期 。MiniMax 说,M2.5 在训练中形成了类似软件架构师的行为:在写代码之前,会主动从功能、结构、UI 设计等角度拆解和规划项目。

  • Search and Tool Calling: M2.5 相比 M2.1 使用约 20% 更少的轮次,但取得更好结果。

  • Office Work: 和金融、法律、社会科学等领域的资深专业人士合作,让这些专家设计需求、提供反馈、参与标准定义,并直接参与数据构建,把行业 tacit knowledge 纳入训练管线。

  • 效率和成本 :M2.5 原生服务速度达到 100 tokens/s ,接近其他 frontier models 的两倍;M2.5 平均每个任务消耗 3.52M tokens ,M2.1 是 3.72M tokens


Minimax M2.7

26 年 4 月左右的模型。huggingfaceopen in new window

架构与前几代相似。主打 self-improvement、自主构建 agent harness、复杂工程交付、专业办公交付,以及多 agent 协作。