REBEL-Quad
ハイパースケールのマルチモーダルAI∙MoEを加速させる次世代NPU
フラッグシップGPUを超える性能とエネルギー効率 - H200対比3.2倍の TPS / Watt
REBEL-Quadは次世代LLMサービスを高効率および低電力で提供できます。混合精度コアやPredictive DMA、UCIeインターコネクトを通じて、高い演算効率と早いデータ処理を実現します。ラック·スケールの性能とモジュールの拡張性を基に、あらゆる環境でも即時にデプロイし、安定的な運用ができます。
4-homogeneous-chiplet SoC based on
UCIe-Advanced
1,024 TFLOPS (FP16)
2,048 TFLOPS (FP8)
HBM3E 144GB 4.8TB/s
16Gbps
1TB/s per channel
2x (64GB/s + 64GB/s)
2x PCIe Gen5 x16
Up to 600W
Native-support of PyTorch 2.x, vLLM and Triton
REBEL-Quad vs. H200
Throughput
(TPS)
Efficiency
(TPS/Watt)
Power Consumption
(Watt)
- Benchmark Condition
- Performance measured on Llama 3.3 70B (TP2, FP8) with runtime input/output length 2048/2048.
One Engine.
Mixed Precision.
REBEL-QuadはFP8とFP16演算を一つの混合精度パイプラインで同時に処理します。ブロックの追加やカーネルの再コンパイルが不要です。ATOM™対比2.8倍高い演算密度を提供します。
Prefetch Smarter.
Decode Faster.
REBEL-Quadは KVデータを事前にロードするために、ソフトウェア制御方式の予測基盤DMAエンジンをオンチップ・メッシュネットワークと密結合します。2.7TB/sの帯域幅が実現でき、32K+ context LLMでもトークンレベルのレイテンシを画期的に短縮します。
Modular Architecture.
Monolithic Efficiency.
REBEL-QuadはUCIe-Advancedインターコネクトを通じて、チップ全体のメッシュ構造を拡張します。チャンネルごとに両方向1TB/s、11nsのレイテンシで接続しているチップレットが、一つのバーチャルダイのように動作します。ソフトウェア修正も、I/Oボトルネックもなく、円滑に拡張できます。
No Stalls.
Full Throughput.
REBEL-Quadは256個のルーターとフルメッシュハードウェアの同期に対応します。演算の偏差が大きい場合や希少なワークロードでも、すべてのチップレットとモデル間で、リソースの活用効率を高く維持します。