REBEL-Quad

ハイパースケールのマルチモーダルAI∙MoEを加速させる次世代NPU

Contact Sales Download Brochure

フラッグシップGPUを超える性能とエネルギー効率 -　H200対比3.2倍の TPS / Watt

REBEL-Quadは次世代LLMサービスを高効率および低電力で提供できます。混合精度コアやPredictive DMA、UCIeインターコネクトを通じて、高い演算効率と早いデータ処理を実現します。ラック·スケールの性能とモジュールの拡張性を基に、あらゆる環境でも即時にデプロイし、安定的な運用ができます。

Read White Paper

Architecture

4-homogeneous-chiplet SoC based on
UCIe-Advanced

Compute (Dense)

1,024 TFLOPS (FP16)
2,048 TFLOPS (FP8)

External Memory

HBM3E 144GB 4.8TB/s

Chiplet Interface (UCIe-A)

16Gbps
1TB/s per channel

Host Connection

2x (64GB/s + 64GB/s)
2x PCIe Gen5 x16

Power Consumption

Up to 600W

Software

Native-support of PyTorch 2.x, vLLM and Triton

REBEL-Quad vs. H200

REBEL-Quad

H200

Throughput
(TPS)

1.6

Efficiency
(TPS/Watt)

3.2

Power Consumption
(Watt)

0.5 (~50% Less Power Consumption)

Benchmark Condition: Performance measured on Llama 3.3 70B (TP2, FP8) with runtime input/output length 2048/2048.

One Engine.
Mixed Precision.

REBEL-QuadはFP8とFP16演算を一つの混合精度パイプラインで同時に処理します。ブロックの追加やカーネルの再コンパイルが不要です。ATOM™対比2.8倍高い演算密度を提供します。

Prefetch Smarter.
Decode Faster.

REBEL-Quadは KVデータを事前にロードするために、ソフトウェア制御方式の予測基盤DMAエンジンをオンチップ・メッシュネットワークと密結合します。2.7TB/sの帯域幅が実現でき、32K+ context LLMでもトークンレベルのレイテンシを画期的に短縮します。

Modular Architecture.
Monolithic Efficiency.

REBEL-QuadはUCIe-Advancedインターコネクトを通じて、チップ全体のメッシュ構造を拡張します。チャンネルごとに両方向1TB/s、11nsのレイテンシで接続しているチップレットが、一つのバーチャルダイのように動作します。ソフトウェア修正も、I/Oボトルネックもなく、円滑に拡張できます。

No Stalls.
Full Throughput.

REBEL-Quadは256個のルーターとフルメッシュハードウェアの同期に対応します。演算の偏差が大きい場合や希少なワークロードでも、すべてのチップレットとモデル間で、リソースの活用効率を高く維持します。

Featured Resources

White Papers

Let's Talk

大規模AIプロジェクトから、カスタマイズされたソリューションの提供まで、Rebellionsと一緒なら実現できます。詳細はお問い合わせフォームよりご連絡ください。

「*」は必須フィールドを示します

Facebook

このフィールドは入力チェック用です。変更しないでください。

担当者名*

機関/企業名*

Eメール*

お問い合わせ

このフィールドはフォームの表示時には非表示になります

Product Inquiry

内容*

CAPTCHA

REBEL-Quad

フラッグシップGPUを超える性能とエネルギー効率 -　H200対比3.2倍の TPS / Watt

4-homogeneous-chiplet SoC based on
UCIe-Advanced

1,024 TFLOPS (FP16)
2,048 TFLOPS (FP8)

HBM3E 144GB 4.8TB/s

16Gbps
1TB/s per channel

2x (64GB/s + 64GB/s)
2x PCIe Gen5 x16

Up to 600W

Native-support of PyTorch 2.x, vLLM and Triton

REBEL-Quad vs. H200

Throughput
(TPS)

Efficiency
(TPS/Watt)

Power Consumption
(Watt)

One Engine.
Mixed Precision.

Prefetch Smarter.
Decode Faster.

Modular Architecture.
Monolithic Efficiency.

No Stalls.
Full Throughput.

Breaking Barriers in Physical AI: Cosmos Runs on ATOM™

Peta-Scale SoC for Massive AI Serving: REBEL-Quad

Rebellions Scalable Design

Rebellions’ Software Stack: Silent Support

Let's Talk

REBEL-Quad

フラッグシップGPUを超える性能とエネルギー効率 - H200対比3.2倍の TPS / Watt

4-homogeneous-chiplet SoC based on UCIe-Advanced

1,024 TFLOPS (FP16) 2,048 TFLOPS (FP8)

HBM3E 144GB 4.8TB/s

16Gbps 1TB/s per channel

2x (64GB/s + 64GB/s) 2x PCIe Gen5 x16

Up to 600W

Native-support of PyTorch 2.x, vLLM and Triton

REBEL-Quad vs. H200

Throughput(TPS)

Efficiency(TPS/Watt)

Power Consumption(Watt)

One Engine. Mixed Precision.

Prefetch Smarter. Decode Faster.

Modular Architecture. Monolithic Efficiency.

No Stalls. Full Throughput.

Featured Resources

Related Products

Let's Talk

フラッグシップGPUを超える性能とエネルギー効率 -　H200対比3.2倍の TPS / Watt

4-homogeneous-chiplet SoC based on
UCIe-Advanced

1,024 TFLOPS (FP16)
2,048 TFLOPS (FP8)

16Gbps
1TB/s per channel

2x (64GB/s + 64GB/s)
2x PCIe Gen5 x16

Throughput
(TPS)

Efficiency
(TPS/Watt)

Power Consumption
(Watt)

One Engine.
Mixed Precision.

Prefetch Smarter.
Decode Faster.

Modular Architecture.
Monolithic Efficiency.

No Stalls.
Full Throughput.