REBEL-Quad

ハイパースケールのマルチモーダルAI∙MoEを加速させる次世代NPU

フラッグシップGPUを超える性能とエネルギー効率 - H200対比3.2倍の TPS / Watt

REBEL-Quadは次世代LLMサービスを高効率および低電力で提供できます。混合精度コアやPredictive DMA、UCIeインターコネクトを通じて、高い演算効率と早いデータ処理を実現します。ラック·スケールの性能とモジュールの拡張性を基に、あらゆる環境でも即時にデプロイし、安定的な運用ができます。

Architecture

4-homogeneous-chiplet SoC based on
UCIe-Advanced

Compute (Dense)

1,024 TFLOPS (FP16)
2,048 TFLOPS (FP8)

External Memory

HBM3E 144GB 4.8TB/s

Chiplet Interface (UCIe-A)

16Gbps
1TB/s per channel

Host Connection

2x (64GB/s + 64GB/s)
2x PCIe Gen5 x16

Power Consumption

Up to 600W

Software

Native-support of PyTorch 2.x, vLLM and Triton

REBEL-Quad vs. H200

REBEL-Quad
H200

Throughput
(TPS)

1.6

Efficiency
(TPS/Watt)

3.2

Power Consumption
(Watt)

0.5 (~50% Less Power Consumption)
Benchmark Condition
Performance measured on Llama 3.3 70B (TP2, FP8) with runtime input/output length 2048/2048.

One Engine.
Mixed Precision.

REBEL-QuadはFP8とFP16演算を一つの混合精度パイプラインで同時に処理します。ブロックの追加やカーネルの再コンパイルが不要です。ATOM™対比2.8倍高い演算密度を提供します。

Prefetch Smarter.
Decode Faster.

REBEL-Quadは KVデータを事前にロードするために、ソフトウェア制御方式の予測基盤DMAエンジンをオンチップ・メッシュネットワークと密結合します。2.7TB/sの帯域幅が実現でき、32K+ context LLMでもトークンレベルのレイテンシを画期的に短縮します。

Modular Architecture.
Monolithic Efficiency.

REBEL-QuadはUCIe-Advancedインターコネクトを通じて、チップ全体のメッシュ構造を拡張します。チャンネルごとに両方向1TB/s、11nsのレイテンシで接続しているチップレットが、一つのバーチャルダイのように動作します。ソフトウェア修正も、I/Oボトルネックもなく、円滑に拡張できます。

No Stalls.
Full Throughput.

REBEL-Quadは256個のルーターとフルメッシュハードウェアの同期に対応します。演算の偏差が大きい場合や希少なワークロードでも、すべてのチップレットとモデル間で、リソースの活用効率を高く維持します。

Let's Talk

大規模AIプロジェクトから、カスタマイズされたソリューションの提供まで、Rebellionsと一緒なら実現できます。詳細はお問い合わせフォームよりご連絡ください。

*」は必須フィールドを示します

このフィールドは入力チェック用です。変更しないでください。
このフィールドはフォームの表示時には非表示になります