GoogleがDiffusionGemmaモデルをオープンソース化:H100で1秒あたり1000トークン超、4倍の高速化

Beatingのモニタリングによると、GoogleはDiffusionGemmaと呼ばれるオープンソースのテキスト生成モデルを公開しました。このモデルは、トークンごとの逐次処理ではなく、拡散ベースの仕組みによってテキストを並列のブロックで生成します。26Bパラメータのモデルは、ミクスチャ・オブ・エキスパート構成のもとで、1回のフォワードパスにつき3.8Bパラメータのみを有効化し、ローカルGPU推論で4倍の速度向上を実現しています。

単一のNVIDIA H100 GPU上で、DiffusionGemmaは毎秒1000トークン超に到達し、コンシューマ向けのRTX 5090は毎秒700トークン超を上回ります。4ビット浮動小数点量子化の後、このモデルはVRAMが18GB未満で済みます。DiffusionGemmaの重みは現在Hugging Faceでオープンソース化されており、MLX、vLLM、Unsloth、NVIDIA NeMoにも対応しています。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし