价格策略 Agent mimo 多模态 SGLang KV缓存

小米MiMo降价99%，不是促销是永久，账户躺着一堆0，数都数不过来

DE

DeepBlog · 2026-05-27 · 4 分钟阅读 · 352 次浏览 ·AI资讯

小米MiMo降价后输入输出价格与竞品一致，缓存场景降幅达99%。技术上通过SGLang HiCache优化KV缓存，降低数据搬运量。同时套餐额度提升5-8倍，适合高频用户。模型在多模态和Agent能力领先，但编程生态较弱。

昨晚，小米MiMo这波降价，我仔细算了一笔账，有点狠！

凌晨睡不着，刷到小米AI的MiMo模型降价公告，看完直接坐起来了。降幅最高99%，而且价格定得一分钱不差地贴着某竞品打——缓存命中场景下，每百万tokens只要两分五。

为了省钱，我又仔细研究了下技术细节和坊间讨论，发现事情没有“打骨折”那么简单。

一、价格分析：是真“白菜价”，还是“数字游戏”？

先看硬价格。MiMo-V2.5 Pro降价后，输入¥3/百万tokens，输出¥6，和某头部竞品完全一致。但公告里那个醒目的99%降幅，需要拆开看。

这主要针对缓存命中场景。如果你频繁调用重复的上下文（比如长文档问答、Agent记忆），价格确实低到尘埃里。但如果是短平快的单次交互，降幅没那么多。

关键来了！ 小米同步把付费套餐“Token Plan”的额度提升了5-8倍，并且重置了所有有效期内用户的用量。这意味着对于已经付费用户，未来几个月基本等于白嫖。

说到这，我必须提一嘴——上个月小米搞的那个 “百万亿Token创造者激励计划”，很多人手头的免费额度5月底就到期了。掐指一算，还剩不到3天。更“刺激”的是，这次额度重置后，我的账户里躺着380亿个token。

380亿。我盯着那一长串0数了三遍。

我现在特别焦虑。求助各位大佬：如何在三天内用完380亿额度？ 全生成《甄嬛传》剧本能把整个后宫聊到建国吗？还是让AI帮我写完这辈子所有的周报和年终总结？评论区救救我，在线等，挺急的。

（开个玩笑，但额度是真的多到离谱。）

二、效果对比：被市场忽视的“优等生”

为什么这么大力度的降价？我感觉是小米真急了。

明明模型能力不弱，在Artificial Analysis的综合智能指数上与某竞品并列开源第一，甚至Agent能力还略有领先，但在OpenRouter的调用量前十榜上，完全看不到MiMo的身影。在编程、智能体等细分领域，更是被对手远远甩开。

更扎心的是，同期小米Q1财报显示净利润同比下降56.5%，但研发投入却猛增。这让我感觉，MiMo这波降价不是因为有底气，更像是一场必须打、且要赢的突围战。

三、技术分析：降价背后的工程肌肉

公告里提到的技术细节特别有意思。小米提到基于SGLang HiCache完整支持了SWA注意力机制，把KV缓存的数据搬运量降至原来的1/7，可缓存token数量提升近5倍。

简单说，就是把模型推理时的“记忆”复用效率最大化，从GPU显存到SSD全部利用起来。最终用工程优化换成本，再用成本换市场——这步棋走得挺务实。

四、我的选择建议与优劣总结

仔细权衡后，我整理了一份优缺点表格，给纠结的朋友参考：

优势	劣势
缓存场景极便宜：适合长对话、RAG、Agent	真实降幅依赖用法：短场景用户感受不到99%
套餐额度暴增：高频用户实际成本趋近于零	市场生态弱：调用量远不及对手，社区素材少
多模态原生支持：图文音视频理解，竞品暂不具备	编程能力稍逊：纯代码场景不如专业代码模型
Agent能力领先：更适合复杂任务编排	品牌认知度低：开发者习惯用“老几家”

我的看法：如果你做多模态应用、复杂Agent或长上下文记忆型产品，现在MiMo的性价比极高，尤其趁着额度重置，值得梭哈试试。但如果你是纯代码生成或追求稳定社区生态，竞品暂时还是更稳的选择。

总之，价格战卷到现在，受益的终究是我们开发者。希望小米这波猛追，能真正搅动市场。我已经在开始测试迁移了，省下的钱，买杯咖啡岂不美哉？

哦对了，那380亿的额度……各位有主意了记得敲我。

评论

发表评论

暂无评论，快来发表第一条评论吧！