Rakuten Loudly Launches "Japan's Largest AI Model," Community Discovers Core is DeepSeek V3

動區BlockTempo

乐天集团今日发布 Rakuten AI 3.0,以“日本最大高性能 AI 模型”对外宣传,号称自主研发 671B 参数 MoE 模型并免费开源,却在几小时内被社区翻出 HuggingFace 上的 config.json,赫然写着 model_type: deepseek_v3,实为 DeepSeek V3 的日语微调版。
(前情提要:彭博:DeepSeek 强势崛起,中国正对美国 AI 霸主地位构成“巨大威胁”)
(背景补充:DeepSeek V4 宣布弃用辉达!中国 AI“算力独立”突围战走到哪了?)

乐天集团(Rakuten)创始人暨执行长三木谷浩史(Hiroshi Mikitani)今日高调发布 Rakuten AI 3.0,对外定位是“日本最大高性能 AI 模型”,以 Apache 2.0 协议完全免费开源,宣称在多项日语基准测试中超越 GPT-4o。公告出来不到几小时,社区就翻出一个让场面尴尬的细节。

打开 HuggingFace 上的模型页面,config.json 白纸黑字写着:model_type: deepseek_v3、architectures: DeepseekV3ForCausalLM。

总参数 671B、推理启用 37B、上下文窗口 128K,每一个数字都和 DeepSeek V3 完全一致。换句话说,Rakuten AI 3.0 不是自己研发的模型,而是拿 DeepSeek V3 作为底座,再用日语资料微调出来的版本。

日本政府资助,底层却是中国模型

更值得关注的是这个模型的官方身份。Rakuten AI 3.0 是日本经济产业省(METI)与新能源产业技术综合开发机构(NEDO)联合推进的 GENIAC 计划(Generative AI Accelerator Challenge)成果,日本政府为其提供了部分训练算力资助。

乐天在公告中仅以“充分利用开源社区最优成果”一笔带过基础模型来源,没有点名 DeepSeek。

DeepSeek V3 多强?

DeepSeek V3 于 2024 年 12 月发布,是中国 AI 公司深度求索推出的开源旗舰模型,训练成本仅约 500 至 600 万美元,比 GPT-4 便宜超过 20 倍,却在多项基准测试中打平甚至超越顶尖闭源模型,在 AI 圈引发震动。

正因为 DeepSeek 采用 Apache 2.0 开源授权,任何人都可以拿来商用、微调、重新发布,法律上没有问题。但“合法” 和“诚实公开”是两件事。

Rakuten AI 3.0 的参数配置一览:

  • 架构:MoE(混合专家),底层为 DeepSeek V3
  • 总参数:671B,推理启用:37B
  • 上下文窗口:128K tokens
  • 语言优化:日语为主
  • 授权:Apache 2.0(商业使用无限制)

DeepSeek 的影响力已经渗透到一个有趣的层次,乐天这种日本电商巨头,拿着政府补贴的算力,在中国开源模型上微调,然后贴上自己的品牌名发布。DeepSeek 没有花营销费,却成了最好的广告。

查看原文
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论