Rebel100™

하이퍼스케일 멀티모달 AI·MoE 가속을 위한 차세대 NPU

Contact Sales 브로슈어 다운로드

플래그십 GPU를 뛰어넘는 성능과 에너지 효율 - H200 대비 3.2배의 TPS/Watt

Rebel100™는 차세대 LLM 서비스를 고효율∙저전력으로 제공하며, 혼합 정밀도 코어와 Predictive DMA, 그리고 UCIe 인터커넥트를 통해 높은 연산 활용률과 신속한 데이터 처리를 실현합니다. 랙 스케일의 성능과 모듈형 확장성을 기반으로 다양한 환경에 즉시 배포해 안정적으로 운영할 수 있도록 지원합니다.

White Paper 읽기

Architecture

4-homogeneous-chiplet SoC based on
UCIe-Advanced

Compute (Dense)

1,024 TFLOPS (FP16)
2,048 TFLOPS (FP8)

External Memory

HBM3E 144GB 4.8TB/s

Chiplet Interface (UCIe-A)

16Gbps
1TB/s per channel

Host Connection

2x (64GB/s + 64GB/s)
2x PCIe Gen5 x16

Power Consumption

Up to 600W

Software

Native-support of PyTorch 2.x, vLLM and Triton

One Engine.
Mixed Precision.

Rebel100™는 FP8과 FP16 연산을 하나의 혼합 정밀도 파이프라인에서 동시에 처리합니다. 추가 블록도, 커널 재컴파일도 필요 없습니다. ATOM™ 대비 2.8배 높은 연산 밀도를 제공합니다.

Prefetch Smarter.
Decode Faster.

Rebel100™는 KV 데이터를 사전 로딩하기 위해 소프트웨어 제어 방식의 예측 기반 DMA 엔진을 온칩 메시 네트워크와 밀접하게 결합합니다. 2.7TB/s의 유효 대역폭을 달성하며, 32K+ context LLM에서도 토큰 레벨 레이턴시를 획기적으로 줄입니다.

Modular Architecture.
Monolithic Efficiency.

Rebel100™는 UCIe-Advanced 인터커넥트를 통해 칩 전체 메시 구조를 확장합니다. 채널당 양방향 1TB/s, 11ns 지연 속도로 연결된 칩렛들이 하나의 가상 다이처럼 동작합니다. 소프트웨어 수정도, I/O 병목도 없이 자연스럽게 확장됩니다.

No Stalls.
Full Throughput.

Rebel100™는 256개 라우터 간 풀-메시 하드웨어 동기화를 지원합니다. 연산 편차가 크거나 희소한 워크로드에서도 모든 칩렛과 모델 구간에 걸쳐 높은 자원 활용률을 유지합니다.

Rebel100™

플래그십 GPU를 뛰어넘는 성능과 에너지 효율 - H200 대비 3.2배의 TPS/Watt

4-homogeneous-chiplet SoC based on UCIe-Advanced

1,024 TFLOPS (FP16) 2,048 TFLOPS (FP8)

HBM3E 144GB 4.8TB/s

16Gbps 1TB/s per channel

2x (64GB/s + 64GB/s) 2x PCIe Gen5 x16

Up to 600W

Native-support of PyTorch 2.x, vLLM and Triton

One Engine. Mixed Precision.

Prefetch Smarter. Decode Faster.

Modular Architecture. Monolithic Efficiency.

No Stalls. Full Throughput.

Related Products

RebelServer™

ATOM™-Max Server

ATOM™-Max POD

Enterprise Al Solution

도입 문의하기