국내 최초 단일 카드에서 OpenAI의 최신 오픈소스 모델 및 서버에서 MiniMax 기반의 AI 코딩 에이전트 구현
서버를 넘어 랙스케일로 엔비디아와 데이터센터 추론 시장 정면 승부
리벨리온은 고성능 데이터센터 서버향 AI반도체인 Rebel을 통해, OpenAI의 최신 오픈소스 리즈닝(Reasoning) 모델 gpt-oss-120b에서 세계 최고 수준의 성능을 입증했습니다. 1세대 제품인 아톰(ATOM)이 효율적으로 엔터프라이즈 고객들을 공략했다면, 최신 2세대 반도체 Rebel은 엔비디아의 데이터센터 고성능 서버향 제품 H200과 본격적인 경쟁에 돌입합니다.

Rebel은 기획 초기부터 초거대 리즈닝 모델 추론을 가장 효율적으로 지원하는 것을 핵심 가치로 삼고, 제품 스펙 전반에서 과감하면서도 전략적인 결정을 선택했습니다. 그 결과 AI 반도체 스타트업 중 최초로 UCIe 기반 칩렛 아키텍처를 도입해 페타플롭스(PetaFlops)급 연산 성능을 구현했으며, 144GB HBM3E 메모리를 탑재하고 서버 단위는 물론 랙스케일까지 확장 가능한 시스템 아키텍처를 함께 고려해 제품을 출시했습니다.
숫자로 말하는 성능: OpenAI gpt-oss-120b on a single Rebel100
[Video Demo: OpenAI gpt-oss-120b Chatbot Running on a single Rebel100]
이러한 설계 철학을 바탕으로 만들어진 Rebel100은 gpt-oss-120b, MiniMax와 같은 최신 오픈소스 리즈닝 모델의 지원을 시작으로 다양한 AI 서비스를 타겟하여 빠르게 모델 지원을 확장해 나가고 있습니다. 특히, 단 한 장의 카드만으로도 OpenAI의 오픈소스 모델인 gpt-oss-120b를 구동할 수 있는 높은 효율성을 입증했습니다. Rebel은 엔비디아 H200에 필적하는 성능을 나타내면서, 3배 이상의 전성비를 제공해 차세대 AI 추론 반도체 시장의 게임 체인저가 될 것입니다.
단일 Rebel100 카드는 efficient mode(4 TB/s)에서 gpt-oss-120b를 4.0ms TPOT(Time Per Output Token)로 구동하며, performant mode(4.8 TB/s)에서는 최대 3.2ms까지 TPOT를 구현합니다. TPOT는 사용자가 응답을 체감하는 속도를 나타내는 지표로, 실제 AI서비스 품질에 주요한 영향을 미치는 핵심 지표입니다. 단일 Rebel100 카드에서 달성한 성능을 통해 제품의 시장 경쟁력을 입증했으며, 현재 서버와 랙스케일에서도 엔비디아와 경쟁할 수 있는 시스템 레벨의 제품 준비를 통해 올해 하반기 본격 양산 제품 출시를 앞두고 있습니다.
이번에 공개한 성능은 Rebel100의 최종치가 아니라, 지속적인 소프트웨어 최적화를 통해 추가적인 성능 향상이 가능한 출발점입니다. 컴파일러와 런타임, 커널 최적화, 메모리 스케줄링, 멀티 노드 서빙 프레임워크 등 소프트웨어 스택 전반에 걸쳐 고도화를 이어가고 있으며, 이를 통해 동일한 하드웨어에서도 지연시간과 처리효율을 실시간으로 개선하고 있습니다. 특히 리즈닝 모델을 기반으로 한 Agentic AI는 실제 서비스 환경에서 입력 길이, 배치 조건, 컨텍스트 활용 방식에 따라 성능 최적화 포인트가 다양하게 존재하는 만큼, 지속적인 리벨리온 SDK 업데이트를 통해 Rebel100의 성능과 효율은 지금도 상승하고 있습니다.
서버를 넘어 랙스케일로 확장: 성능과 가격을 모두 갖춘 코딩 AI 에이전트의 대중화
MiniMax는 출시 당시 글로벌 AI 모델 토큰 사용량 1위를 차지한 후로 현재까지 꾸준히 글로벌 Top5의 상위권을 유지할 정도로 높은 인기를 끌고 있으며, 전세계 2억 명이 넘는 누적 사용자 수를 보유하고 있습니다. 특히, 앤트로픽이나 오픈AI의 코딩 서비스 대비 10배 이상 낮은 비용으로 유사한 수준의 성능을 제공하여, 속도-성능-가격의 균형을 원하는 사용자들에게 인기를 끌고 있으며 점차 국내외 기업들에서도 MiniMax 기반의 AI 코딩 에이전트 서비스를 개발 및 도입중에 있습니다.
리벨리온은 국내 AI 반도체 업계에서 최초로 고성능 오픈소스 모델인 MiniMax를 구현한 첫 사례입니다. Red Hat의 공식 지원을 받아 vLLM과 협업을 지속하는 등 MiniMax 기반의 코딩 AI 에이전트 서비스부터 리벨리온 하드웨어까지 전체 시스템 관점에서 최적화를 통해 성능을 지속적으로 고도화해 나가는 한편, SKT, LG AI 연구원, 업스테이지, 구글, 알리바바 등 국내외 기업들이 개발한 다양한 오픈소스 모델로 지원 범위를 점차 확대해 나가 범용적인 AI 추론 플랫폼으로 자리잡을 것입니다.


Share This: