Yifan ZhangがDeepSeek V4の完全な技術仕様を開示:1.6Tパラメータ、6アクティベーション搭載の384人のエキスパート

Gate Newsの告知、4月22日——プリンストン大学の博士課程学生、Yifan Zhangが、4月19日の予告に続いてX上でDeepSeek V4の完全な技術仕様を明らかにした。V4は総パラメータ数1.6兆のほか、パラメータ2850億の軽量版V4-Liteを備える。

このモデルはDSA2のアテンション・メカニズムを採用しており、V3.2のDeepSeekの既存DSA (DeepSeek Sparse Attention)と、512次元のヘッド埋め込みを用いたNSA (Native Sparse Attention)を組み合わせる。さらに、Sparse Multi-Query Attention (MQA)とSliding Window Attention (SWA)を組み合わせる。MoE (Mixture of Experts)の層には、順伝播の1回あたり6つが活性化される384人のエキスパートが含まれ、Fused MoE Mega-Kernelを使用する。残差接続はHyper-Connectionsアーキテクチャを用いる。

初めて明らかにされたトレーニングの詳細には、Muonオプティマイザの使用が含まれており、(applying Newton-Schulz orthogonalization to momentum updates)、32Kトークンの事前学習コンテキスト・ウィンドウ、強化学習中のKLダイバージェンス補正を伴うGRPO (Group Relative Policy Optimization)が明らかにされた。最終的なコンテキスト・ウィンドウは100万トークンまで拡張される。モデルはテキストのみ。

ZhangはDeepSeekに雇用されておらず、同社は開示された情報について公式にはコメントしていない。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

OpenAI、元Airbnb幹部のエマニュエル・マリルを指名し、EMEA拡大を率いさせる

OpenAIは、主権に関する懸念やMistral AIとの競争のさなかにEMEAの拡大を推進するため、エマニュエル・マリルをEMEAのマネジング・ディレクターに起用した。EMEAのサブスクリプションが増加している。 概要:OpenAIは、主権に関する懸念とEUの精査の中で拡大を加速するため、エマニュエル・マリルを欧州・中東・アフリカのマネジング・ディレクターに指名した。この動きは、増え続けるEMEAのサブスクリプションに続くもので、Mistral AIのような競合に対してより強固な現地の足場を築くことを狙っている。

GateNews5分前

Thinking Machines Lab、Googleとの数十億ドル規模のクラウド契約を獲得

Gate Newsのメッセージ、4月23日 — 元OpenAI幹部ミラ・ムラティが創業したAIスタートアップのThinking Machines Labは、Google Cloudとのクラウド・インフラ契約を締結し、その規模は米ドル建ての10億ドル未満の一桁台とされている。 この合意は、同社にとって大手クラウド提供企業との初めてのパートナーシップとなる

GateNews15分前

SKハイニックスの第1四半期の営業利益、AIチップ需要で406%急騰し過去最高を記録

SKハイニックスは第1四半期の営業利益が37.6兆ウォン、売上高が52.6兆ウォンと発表。AI主導のDRAMおよびNAND向け需要の急増と、リアルタイム推論への移行が背景。

GateNews1時間前

OpenAI、$1 兆ドルのプレIPOバリュエーションに到達—SpaceXとAnthropicとの競争の中で

OpenAIが$1T を介したオンチェーン賭けによる含み益のプレIPOに接近;SpaceXとAnthropicは、AIインフラのコストが高騰する中、同様のバリュエーションを狙い、サブスク収益を押し上げる一方、Anthropicは価格設定の混乱に直面している。

GateNews2時間前

DeepSeekのバリュエーションが$20 Billionを超えて急騰:TencentとAlibabaが投資を検討

DeepSeekはTencent/Alibabaが投資について協議する中、$20B を求めています;Nvidiaは米国のチップの優位性がHuaweiによって損なわれる可能性があると警告しています;AIの資金調達は引き続き急増しており、Vast Dataの$1B ラウンドやOpenAI/Anthropic/xAIへの投資が続いています。 DeepSeekはTencentおよびAlibabaとの協議の中で$20 billionを超えるバリュエーションを目指している一方で、NvidiaはAIモデルをHuaweiのチップへ移すことで米国のリードが損なわれ得ると警告しています。この記事では、Vast Dataの$1 billionラウンドが$30 billionの評価額で行われたことを含む、AI資金の世界的な急増や、OpenAI、Anthropic、xAIへの大規模投資にも言及しています。

GateNews4時間前

OpenClaw、Hermes、SillyTavernがGLM Coding Planのサポート対象として確認

Zhipu AIのPMリが、OpenClaw、Hermes、SillyTavernを対応済みのGLM Coding Planプロジェクトとして発表。その他のツールはケースバイケースで評価されます。資格情報を共有したり、サブスクリプションをAPIアクセスとして使用したりしないでください。エラー1313の場合はサポートに連絡してください。 Zhipu AIのプロダクトマネージャーLiは、OpenClaw、Hermes、SillyTavernがGLM Coding Planのもとで正式に対応プロジェクトとしてサポートされていると発表しました。注記では資格情報の共有や、サブスクリプションをAPIアクセスとして使用することへの注意が促され、エラー1313に遭遇したユーザーはサポートへ連絡するよう案内されています。

GateNews7時間前
コメント
0/400
コメントなし