DoNews12月17日音问,据APPSO报说念,刚刚,小米厚爱发布并开源新模子 MiMo-V2-Flash。MiMo-V2-Flash 总参数 3090 亿,活跃参数 150 亿,采纳众人羼杂架构 (MoE),性能还能和 DeepSeek-V3.2、Kimi-K2 这些头部开源模子掰掰手腕。

此外,MiMo-V2-Flash 采纳 MIT 开源条约,基础版权重也如故在 Hugging Face 上发布。撤退「开源」这一标签,新模子确实的杀手锏在于架构瞎想上的激进鼎新,把推理速率拉到了 150 tokens/秒,本钱压到了每百万 token 输入 0.1 好意思元、输出 0.3 好意思元,主打一个超绝性价比。

左证官方体验页面信息,MiMo-V2-Flash 还扶持深度想考和联网搜索功能,既能对话聊天,也能在需要及时数据、最新动态或贵府查对的场景里派上用场。

基准测试得益表示,AIME 2025 数学竞赛和 GPQA-Diamond 科学常识测试中,MiMo-V2-Flash 齐排在开源模子前两名。编程才气更是亮眼,SWE-bench Verified 得分 73.4%,卓绝总共开源模子,直逼 GPT-5-High。而这个测试是让 AI 去修真实宇宙的软件 bug,73.4% 的得胜率也意味着它能解决大部分本色编程问题。
在多话语编程基准测试 SWE-Bench Multilingual 里,MiMo-V2-Flash 的解决率为 71.7%。转看智能体任务,MiMo-V2-Flash 在τ²-Bench 分类得分中,通讯类 95.3 分,零卖类 79.5 分,航空类 66.0 分,BrowseComp 搜索代理得分 45.4,启用险峻文管制后径直飙到 58.3。
这些数据证实,MiMo-V2-Flash 不仅会写代码,还能确实结实复杂任务逻辑,施行多轮智能体交互。
更要紧的是,写稿质地也接近顶级闭源模子,这意味着 MiMo-V2-Flash 不仅仅个用具,还能当个靠谱的日常助手。
MiMo-V2-Flash 在保抓长骚人道能的同期,还镌汰了本钱,究其原因,离不开两项中枢时候鼎新。
羼杂滑动窗口谨防力机制:传统大模子处理长文本时,全局谨防力机制会导致规画量二次爆炸,存储中间纵脱的 KV 缓存也随着飙升。
小米此次采纳了 5 比 1 的激进比例,5 层滑动窗口谨防力搭配 1 层全局谨防力轮流使用,滑动窗口只看 128 个 token。
这种瞎想让 KV 缓存存储量径直减少了近 6 倍,但长文本才气却没打扣头,最长扶持 256k 险峻文窗口。
且模子即使在这样激进的窗口设立下,照样能稳住长骚人道能。
对此,罗福莉在草率平台上极端指出一个反直观的发现:窗口大小 128 是「最好甜点值」。实考判辨,盲目扩大窗口(如增至 512)反而会导致性能下跌。同期她强调,在实施该机制时,sink values 是看护性能的要津,毫不成概略。
另一个黑科技是轻量级多 Token 猜想 (MTP)。
传统模子生成文本时一次只可吐一个 token,就像打字员一个字一个字敲。MiMo-V2-Flash 通过原生集成的 MTP 模块,能并行猜想多个 token,一次性猜出接下来好几个 token。
实测平均能吸收 2.8 到 3.6 个 token,推理速率径直擢升 2 到 2.6 倍,不仅在推理时管用,测验阶段也能加快采样,减少 GPU 空转,属于事半功倍。
罗福莉提到,在三层 MTP 设立下,他们不雅察到平均吸收长度跨越 3,编码任务速率擢升约 2.5 倍。它灵验解决了小批量 On-Policy 强化学习中「长尾样本」带来的 GPU 欣喜期间浪费问题。
啥叫长尾样本?等于那些极端难、极端慢的任务,拖着其他任务沿途等,GPU 就在那干怒目。MTP 把这个问题给解了,极大提高了后果。
不外罗福莉也坦诚,此次因为期间要紧没能把 MTP 完满集成进 RL 测验轮回,但它与该历程高度契合。小米如故把三层 MTP 开源了,便捷人人在我方的花样中使用与开导。
算力只用 1/50,性能如何不打折?
预测验阶段,新模子使用 FP8 羼杂精度,在 27 万亿 token 数据上完成测验,原生扶持 32k 序列长度。
FP8 羼杂精度是一种压缩数值暗示的时候,能在保抓精度的同期减少显存占用和加快测验。这种测验花样在业界并不常见,需要对底层框架进行深度优化。
而在后测验阶段,小米整了个大活,提议了多磨真金不怕火在线计谋蒸馏 (MOPD)。
传统的监督微调加强化学习管线,不仅测验不踏实,算力耗尽还贼高。MOPD 的想路是让学生模子在我方的计谋散播上采样,然后由多个众人磨真金不怕火在每个 token 位置提供密集的奖励信号。
MOPD Architecture Diagram
平淡点说等于,学生模子我方写功课,解释在每个字上齐给评分,无谓等写完满篇才打分。这样一来,学生模子能快速从磨真金不怕火那儿学到精髓,何况测验过程踏实得多。
最夸张的是后果擢升,MOPD 只需要传统才能 1/50 的算力,就能让学生模子达到磨真金不怕火性能峰值。这意味着小米能用更少的资源,更快地迭代模子。
何况 MOPD 扶持活泼接入新磨真金不怕火,学生模子成长后还能反过来当磨真金不怕火,造成「教与学」的闭环自我进化。今天的学生,未来的解释,后天又能教出更强的学生,套娃玩法属实有点东西。
用罗福莉的话来说,他们模仿 Thinking Machine 的 On-Policy Distillation 才能,将多个强化学习模子进行和会,纵脱带来了惊东说念主的后果擢升。这为构建一个自我强化轮回系统奠定了基础,学生模子不错慢慢进化,最终成为更强的磨真金不怕火模子。
On-Policy Distillation - Thinking Machines Lab
在智能体强化学习膨胀上,小米 MiMo-V2-Flash 商榷团队基于真实 GitHub issue 构建了跨越 10 万个可考证任务,自动化活水线跑在 Kubernetes 集群上,并发能开 10000 多个 Pod,环境部署得胜率 70%。
针对网页开导任务,还故意搞了个多模态考证器,通过录制视频而非静态截图来考证代码施行纵脱,径直减少视觉幻觉,确保功能正确。
关于开导者而言,MiMo-V2-Flash 能与 Claude Code、Cursor、Cline 等主流开导环境无缝互助,256k 的超长险峻文窗口扶持数百轮智能体交互与用具调用。
256k 是什么办法? 莽撞荒谬于一册中等篇幅的演义,或者几十页时候文档。这意味着开导者不错把 MiMo-V2-Flash 径直融入现存责任流,不需要特地适配,拿来就用。
小米还把总共推理代码孝敬给了 SGLang,并在 LMSYS 博客共享了推理优化教育。
时候陈诉公开了完满模子细节,模子权重 (包括 MiMo-V2-Flash-Base) 在 Hugging Face 上以 MIT 许可条约发布。这种全面开源的魄力,在国内大厂里属实罕有。
当今 MiMo-V2-Flash 如故在 API Platform 限时免费盛开,开导者不错径直上手体验。