小米的 MiMo-V2.5 系列开源:1T 参数,相较 GPT-5.4 令牌效率更优

Gate News message, April 27 — Xiaomi’s MiMo team has open-sourced the MiMo-V2.5 series of large language models under MIT license, supporting commercial deployment, continued training, and fine-tuning. Both models feature a 1 million token context window. MiMo-V2.5-Pro is a pure-text mixture-of-experts (MoE) model with 1.02 trillion total parameters and 42 billion active parameters, while MiMo-V2.5 is a native multimodal model with 310 billion total parameters and 15 billion active parameters, supporting text, image, video, and audio understanding.

MiMo-V2.5-Pro targets complex agent and programming tasks. In ClawEval benchmarks, it achieved 64% Pass@3 while consuming approximately 70,000 tokens per task trajectory—40% to 60% fewer tokens than Claude Opus, Gemini 3.1 Pro, and GPT-5.4. The model scored 78.9 on SWE-bench Verified. In a demonstration, V2.5-Pro independently implemented a complete SysY-to-RISC-V compiler for a Peking University compiler course project in 4.3 hours with 672 tool calls, achieving a perfect score of 233/233 on hidden test sets.

MiMo-V2.5 is designed for multimodal agent scenarios, equipped with a dedicated vision encoder (729 million parameters) and audio encoder (261 million parameters), scoring 62.3 on the Claw-Eval general subset. Both models employ a hybrid architecture combining sliding window attention (SWA) and global attention (GA), paired with a 3-layer multi-token prediction (MTP) module for accelerated inference. Model weights are available on Hugging Face.

Alongside the open-source release, the MiMo team launched the “Orbit Quadrillion Token Creator Incentive Program,” offering 100 quadrillion tokens free over 30 days to global users. Individual developers, teams, and enterprises can apply via the program page with an evaluation cycle of approximately 3 business days; approved benefits are distributed as Token Plans or direct credits, compatible with tools like Claude Code and Cursor.

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

ASML 随着 AI 数据中心需求增长,EUV 产量提升 36%

荷兰芯片设备制造商ASML计划在2026年将极紫外(EUV)光刻机的产量提高约36%,原因是AI数据中心扩张带来的需求上升。根据该公司的最新指引。 ASML的目标是至少制造60套标准EUV系统 i

Crypto Frontier18 分钟前

OpenAI 未达用户增长与销售目标,引发对人工智能基础设施支出能力的担忧

Gate News 消息,4 月 28 日——据《华尔街日报》报道,OpenAI 未能达到其在新增用户获取和销售增长方面的内部目标,这引发了公司内部对其能否持续在人工智能基础设施上进行巨额支出的担忧

GateNews19 分钟前

微软向 743,000 名埃森哲员工部署 Copilot

路透社称,微软正在向埃森哲的所有743,000名员工全面推出 Microsoft 365 Copilot,这是截至目前其最大的企业级部署。该举措将埃森哲的2024计划扩大到为多达300,000名员工提供 Copilot。 埃森哲调查

Crypto Frontier1小时前

DeepSeek 注册资本增加50%,创始人梁文峰持股增至34%

Gate 新闻消息,4月28日——据企查查数据,DeepSeek (杭州深度求索人工智能基础技术研究有限公司)将注册资本从1000万元增加至1500万元。创始人梁文峰的注册资本出资额从100万元增加至510万元

GateNews1小时前

Meta 储备 1GW+ 太阳能与储能,用于 AI 数据中心

据《经济时报》报道,Meta已与Overview Energy和Noon Energy签署能源协议,以确保其人工智能数据中心的电力产能。该公司预留了最高1吉瓦

Crypto Frontier1小时前

智谱 Z.ai 将 GLM Coding 计划三倍额度促销延长至 6月30日

Gate 新闻消息,4月28日——智谱 Z.ai 宣布,将其 GLM Coding 计划三倍额度促销从原定的 4月30日截止日期延长至 6月30日,覆盖 GLM-5.1 和 GLM-5-Turbo 两种模型。 该促销活动适用于美国东部时间次日 6:00 AM 至 2:00 AM 期间。GLM Coding 计划是一项面向开发者的订阅服务,使用户能够在包括 Claude Code、Cursor 和 OpenCode 在内的编程工具中调用 GLM 模型。 三倍额度促销最初于 3月16日推出,当时覆盖仅限于 GLM-5-Turbo,后来在发布 GLM-5.1 后扩展至同时覆盖两种模型。

GateNews1小时前
评论
0/400
暂无评论