300종 이상의 AI 모델을
더 쉽고 빠르게

RBLN SDK로 리벨리온 NPU로 AI 모델을 간편하게 배포하세요. 컴파일러, 런타임, 모델 라이브러리, 서빙 프레임워크 등 자세한 가이드를 참조해 개발부터 운영까지 매끄럽게 진행할 수 있습니다.

리벨리온 Model Zoo 보기 브로슈어 다운로드

업계 표준 프레임워크로 시작

Hugging Face

Rebellions SDK는 Hugging Face의 Transformer 및 Diffuser 모델을 지원합니다. Optimum RBLN 라이브러리에서 Llama3-8B, SDXL 등 최신 모델을 다운로드하고, Hugging Face Hub에서 배포하세요.

💡 리벨리온 하드웨어에서 Hugging Face 모델 실행

리벨리온 NPU에 최적화된 Hugging Face 모델 컴파일 및 추론
RBLN 런타임을 활용한 개발자 친화적인 API 지원
Llama, SDXL 등 멀티 칩 구성 지원

모델 살펴보기 Hugging Face 라이브러리

PyTorch

RBLN SDK는 PyTorch 2.0을 완벽 지원합니다. 자연어처리(NLP), 음성, 비전 모델 등 다양한 PyTorch 기반 워크로드를 리벨리온 NPU에서 빠르게 가속할 수 있습니다.

💡 PyTorch 모델 통합

리벨리온 하드웨어에 최적화된 PyTorch 모델 컴파일
RBLN 런타임을 활용한 개발자 친화적인 API 지원
사전 조정 없이 Torch 2.0 모델을 곧바로 서빙 파이프라인에 연결

모델 살펴보기 PyTorch 라이브러리

TensorFlow

RBLN SDK는 TensorFlow를 지원하며, LLM, ImageNet, YOLO 등 다양한 모델의 추론을 최적화합니다.

💡 TensorFlow 모델 통합

Keras Applications의 다양한 사전 학습 모델 즉시 활용
RBLN 런타임을 활용한 개발자 친화적인 API 지원
사전 조정 없이 TensorFlow 모델을 곧바로 서빙 파이프라인에 연결

모델 살펴보기 TensorFlow 라이브러리

리벨리온 소프트웨어 스택

하드웨어 성능을 극대화하도록 설계된 리벨리온 소프트웨어 스택을 알아보세요.

머신러닝 프레임워크

자연어처리, 비전, 음성, 생성형 모델을 위한 핵심 개발 도구

PyTorch, TensorFlow, HuggingFace 등 업계 표준 프레임워크 와의 원활한 연동

개발자의 생산성을 극대화하고 배포까지 End-to-End 워크플로우 간소화

컴파일러

프론트엔드 컴파일러는 PyTorch와 TensorFlow로 작성된 모델을 리벨리온의 중간 표현(IR)으로 변환하여, 리벨리온 디바이스에서 실행할 수 있는 모델로 매끄럽게 전환

백엔드 컴파일러는 변환된 모델을 바탕으로 디바이스의 효율성을 극대화하는 명령어 스트림과 프로그램 바이너리 생성

정밀한 최적화 기술로 AI 추론 비용 절감, 간편한 연산 최적화와 메모리 관리 기능을 통해 운영 효율성 개선

컴파일러

연산 라이브러리

비전, 트랜스포머 등 다양한 AI 모델 추론에 필요한 필수 연산들 최적화

CNN (Convolutional Neural Network) 및 최신 생성형 AI 모델을 지원

확장 가능한 Neural Engine 아키텍처를 기반으로 고도화된 연산 최적화

연산 라이브러리

런타임 모듈

컴파일된 모델과 하드웨어 간의 실행을 중재하는 핵심 구성 요소

데이터 이동, 명령 실행, 성능 모니터링을 담당하여 최적의 AI 추론 환경을 제공

런타임 모듈

드라이버

운영체제와 NPU 간 최적의 인터페이스를 제공하여 하드웨어 활용도를 극대화

커널 드라이버 및 유저 드라이버로 구성되어 하드웨어와 소프트웨어 간 원활한 통신을 지원

RBLN 컴파일러에서 생성된 커맨드 스트림을 ATOM™ 디바이스로 전달하여 실행을 관리

드라이버

펌웨어

소프트웨어와 하드웨어 간 최하위 인터페이스

메모리 계층 간 작업 조정 및 하드웨어 상태 모니터링 기능을 제공하여 안정적인 AI 추론을 보장

대규모 AI 모델을 실행하는 환경에서도 안정적인 워크로드 분배 및 예측 가능한 성능 유지를 지원

펌웨어

리벨리온 백엔드 & 리벨리온 하드웨어

FP16 기준 32 TFLOPS, INT8 기준 128 TOPS의 강력한 연산 성능과 64 MB 온 칩 SRAM을 통해 최적의 메모리 대역폭과 지연 시간 단축을 실현

전력 효율성이 중요한 데이터센터, 클라우드 AI, 온프레미스 AI 워크로드에서 최상의 성능과 비용 효율성을 제공

머신러닝 프레임워크

컴파일러

연산 라이브러리

런타임 모듈

드라이버

펌웨어

리벨리온 백엔드 & 리벨리온 하드웨어

자주 묻는 질문

찾으시는 질문이 없나요? 여기로 연락 주세요!

Q. RBLN SDK는 어떤 AI 프레임워크와 라이브러리를 지원하나요?

RBLN SDK는 PyTorch 및 TensorFlow 기반 모델을 지원하며, Hugging Face Transformers/Diffusers 라이브러리와의 연동도 가능합니다.

지속적인 업데이트를 통해 주요 AI 프레임워크와의 호환성을 강화하고 있습니다.

Q. 기존 PyTorch 또는 TensorFlow 모델을 RBLN SDK로 컴파일하려면 코드 수정이 필요한가요?

대부분의 경우 최소한의 코드 수정만으로 RBLN SDK를 사용할 수 있습니다.

공식적으로 지원되는 Model Zoo 모델들은 제공되는 예제 코드를 바로 사용 가능합니다.

이외 모델도 Model Zoo 코드를 참고하여 컴파일할 수 있습니다.

지원하는 연산 목록을 미리 확인해보세요.

PyTorch

TensorFlow

Q. 트랜스포머 모델(예: Llama, BERT)을 리벨리온 NPU에서 실행할 때 성능을 향상시키는 설정이나 권장 옵션이 있나요?

트랜스포머 계열 모델의 성능을 극대화하려면 다음을 고려하세요:

rbln_tensor_parallel_size 값을 적절히 설정하여 NPU 병렬성 활용
입력 시퀀스 길이 및 배치 크기 튜닝

Q. RBLN Runtime APIs를 C/C++에서 사용할 수 있나요?

RBLN SDK는 파이썬 런타임을 사용할 수 없거나 아주 낮은 지연시간을 요구하는 응용에 사용될 수 있도록 C/C++ 언어로 바인딩 된 런타임을 제공합니다.

C/C++ 가이드를 참고해주세요.

Q. AI 프레임워크와의 버전 호환성을 어떻게 보장하나요?

RBLN SDK 및 컴파일러는 주요 프레임워크의 최신 버전과의 API 호환성을 유지하도록 정기적으로 업데이트됩니다. 자세한 내용은 각 릴리스 노트를 참고해주세요.

Q. 어떤 PyTorch 기능과 호환되나요?

RBLN SDK는 PyTorch 기반 모델과의 높은 호환성을 제공합니다.

torch.compile() 지원: PyTorch 2.0의 torch.compile() 기능과 호환되며, TorchDynamo 및 TorchInductor 백엔드를 기반으로 컴파일된 모델을 처리할 수 있습니다.
광범위한 연산자 지원: RBLN 컴파일러는 PyTorch 연산자의 대부분을 지원하며, 지원 연산자 목록을 통해 상세 내용을 확인할 수 있습니다. 주요 Vision, NLP, Audio 연산자도 포함되어 있어 다양한 딥러닝 모델에 활용 가능합니다.
PyTorch Model Zoo 호환: ResNet, YOLO, LLaMA, BERT 등 PyTorch Model Zoo의 대표적인 모델 다수가 지원됩니다.
JIT/Scripted 모델 지원: TorchScript를 사용해 변환된 모델도 RBLN 컴파일러에서 처리할 수 있습니다.

Q. RBLN Driver는 어떻게 설치하나요?

RBLN Driver는 제공된 deb 또는 rpm 설치 파일을 통해 설치할 수 있으며, 루트 권한이 필요합니다. 설치 시 커널 버전과 드라이버 호환성 확인이 요구됩니다.

대부분의 경우 Driver가 미리 설치된 환경을 제공해 드립니다. 설치가 필요한 경우는 설치 가이드를 참고하세요.

Q. RBLN SDK는 어떻게 설치하나요?

RBLN SDK는 아래와 같이 파이썬(Python) 환경에서 간단하게 설치 할 수 있습니다.

pip3 install --extra-index-url https://pypi.rbln.ai/simple rebel-compiler==<latest-version> optimum-rbln==<latest-version> vllm-rbln==<latest-version>

최신 패키지 버전을 확인하려면 릴리스 노트를 참고해주세요. 사용자의 환경에 따라 추가적인 파이썬 패키지 의존성이 있을 수 있습니다.

Q. RBLN SDK에서 요구하는 파이썬 버전이나 추가적인 의존성이 있나요?

기본적으로 파이썬(Python) 3.9 이상이 권장되며, numpy, torch, onnx 등 주요 패키지 의존성이 있습니다.

지원되는 OS와 파이썬 버전을 Support Matrix 페이지를 확인하세요.
요구되는 패키지는 모델에 따라 다르며, Model Zoo 코드와 함께 포함된 requirements.txt를 참고해주세요.

Q. RBLN SDK는 Windows에서 사용 가능한가요?

현재 RBLN SDK는 Linux 환경에서만 지원됩니다. Windows 지원은 추후 로드맵에 따라 검토될 예정입니다.

지원되는 OS와 파이썬(Python) 버전을 Support Matrix 페이지를 확인하세요.

Q. NPU 여러 개를 분산해서 사용할 수 있나요?

RBLN SDK는 RSD (Rebellions Scalable Design)라고 명명된 tensor parallelism 기반의 분산 추론을 지원합니다.
멀티-NPU가 지원되는 모델 리스트를 먼저 확인해주시고, 컴파일 방법은 제공된 예시를 참고해주세요.

Q. NPU에서 모델 성능을 측정하고 분석하는 방법은 무엇인가요?

SDK에 포함된 프로파일러(Profiler)를 통해 처리 시간(latency), 처리량(throughput), 메모리 사용량(memory usage) 등의 지표를 분석할 수 있습니다.

rbln-stat을 이용하면 소모 전력(power)이나 활용률(utilization)도 확인할 수 있습니다.

Q. 리벨리온 NPU에서 최적의 배치 크기를 결정하는 방법은 무엇인가요?

사용하는 NPU의 종류, 서버 구성, 서비스 요구 사항 등에 따라 최적의 배치 크기가 다를 것으로 예상합니다. 프로파일러(Profiler) 도구를 활용하고 다양한 실험을 통해 튜닝 하는 것을 권장합니다.

Q. 프로파일링 및 최적화 도구가 제공되나요?

RBLN SDK에는 성능 병목 분석을 위한 RBLN 프로파일러(Profiler)가 포함되어 있으며, 실행 시간, 메모리 사용량, 연산 의존성 등의 주요 지표를 수집합니다.

.pb 형식의 트레이스 파일은 Perfetto로 시각화할 수 있습니다.

병목 지점, 연산 간 의존성, 레이어별 처리시간(latency)등을 분석해 최적화 방향을 제시합니다.

자세한 사용법은 프로파일러(Profiler) 가이드를 참고하세요.

Q. 혼합 정밀(Mixed Precision) 모델을 지원하나요?

네, Mixed Precision 모델도 지원합니다. 다만 최적화 수준은 모델 구조에 따라 달라질 수 있으며, 별도 가이드라인 제공이 필요합니다. 자세한 내용은 포럼에 문의해주세요.

Q. 비디오 입력 파일(.mp4)은 어떻게 처리하나요?

비디오 파일을 처리하기 위해서는 OpenCV(cv2)와 같은 라이브러리를 활용하여 .mp4 파일의 각 프레임을 이미지로 추출한 뒤, 이를 모델에 입력하는 방식으로 추론을 진행합니다.

예를 들어, YOLOX와 같은 객체 탐지 모델을 사용할 경우 다음과 같은 절차를 따릅니다:

cv2.VideoCapture로 비디오 파일을 로드

프레임 단위로 이미지 추출

각 프레임을 모델 입력 형식에 맞게 전처리

모델을 통해 객체 탐지 수행

결과를 시각화하여 저장 또는 실시간 출력

Q. 어떤 FP16 포맷을 지원하나요?

Bfloat16, IEEE754, Custom FP16를 지원합니다. FP32 모델도 RBLN 컴파일러가 FP16으로 캐스팅할 수 있습니다.

Q. ATOM과 REBEL은 어떻게 다른가요?

둘 다 리벨리온의 AI 추론용 NPU이지만, REBEL은 차세대 제품으로 칩렛 기반으로 설계되었습니다. 자세한 비교표는 제품 페이지에서 확인 가능합니다.

Q. 모델 훈련(Training)도 가능한가요?

현재 RBLN SDK는 추론(Inference) 전용이며, 향후 지원 계획이 구체화되면 로드맵을 통해 공지 예정입니다.

Q. 쿠버네티스 지원하나요?

네, 쿠버네티스(Kubernetes) 플러그인을 통해 NPU 리소스를 활용할 수 있습니다.

Q. 쿠버네티스 툴은 뭐가 있나요?

Kubernetes 디바이스 플러그인: 쿠버네티스 클러스터 환경에서 RBLN NPU를 지원합니다.

NPU NPU 기능 탐지기: 쿠버네티스 노드에 설치된 RBLN NPU 디바이스에 대한 노드 레이블을 자동으로 생성합니다.

RBLN Metrics Exporter: NPU 디바이스와 관련된 상세 메트릭을 Prometheus 형식으로 노출합니다.

Q. RBLN SDK가 공식 지원하는 NPU는 무엇인가요?

2025년 5월 30일 기준으로, ATOM™+ (RBLN-CA22)와 ATOM™-Max (RBLN-CA25)가 지원됩니다. ATOM™ (RBLN-CA02)의 지원은 2025년 6월 30일에 종료되었습니다.

Q. V1 엔진을 지원하나요?

V1 엔진은 생성형 모델 및 멀티모달 모델을 개선합니다. 아래와 같이 사용할 수 있습니다.

export VLLM_USE_V1=1

Q. 어떤 서빙 프레임워크를 지원하나요?

RBLN SDK를 사용하면 vLLM, Nvidia Triton Inference Server, 그리고 TorchServe 등의 서빙 프레임워크와 연동이 가능합니다. 컨테이너 기반 배포에는 쿠버네티스(Kubernetes)와의 통합도 지원됩니다.

Q. NPU와 GPU의 차이점은 무엇인가요?

NPU(Neural Processing Unit)와 GPU(Graphics Processing Unit)는 모두 병렬 연산을 수행하지만, 최적화된 연산 방식과 사용 목적이 다릅니다.
GPU는 원래 그래픽 렌더링을 위해 설계되었지만, 대규모 병렬 연산이 가능해 AI 학습(training)과 고성능 컴퓨팅(HPC)에 활용됩니다. 일반적으로 FP32/FP16 연산을 사용하며, CUDA 코어 및 Tensor 코어를 포함하여 다양한 연산을 지원합니다.
NPU는 AI/딥러닝에 특화된 프로세서로, 저전력에서 효율적인 연산을 수행하도록 설계되었습니다. INT8, FP16과 같은 저비트 연산을 최적화하며, 신경망 연산을 가속하는 전용 하드웨어 구조를 가집니다.

Q. 파인 튜닝(Fine-tuning) 및 추론을 최적화하는 방법은 무엇인가요?

리벨리온 NPU는 추론 전용으로 설계되어 있어 현재 파인 튜닝은 불가능합니다.

추론 성능을 극대화하기 위해 아래와 같은 최적화 전략을 권장합니다:

Mixed Precision 및 양자화 사용: FP16 또는 INT8 양자화 모델을 활용하여 메모리 사용량과 연산 속도를 개선할 수 있습니다.
배치 크기 조정: 모델 특성과 입력 데이터에 맞는 최적의 배치 크기를 찾아 처리량(throughput)을 높이세요.
모델 구조 리팩토링: Layer fusion과 불필요한 연산 제거를 통해 연산 그래프를 간소화하면 성능이 향상됩니다.
이중 버퍼링(Double Buffering): AsyncRuntime의 이중 버퍼링을 활용하여 성능을 향상시킬 수 있습니다.
LLM 서빙 시 Continuous Batching 적용: 대형 언어 모델 서빙에는 vllm-rbln을 활용한 continuous batching 기법을 적용하여 NPU 활용률을 극대화할 수 있습니다.

Q. 사용자 커뮤니티 포럼이나 지원 채널이 있나요?

네, 포럼을 통해 기술 문의 및 커뮤니티 소통이 가능합니다. 여기로 메일을 보내주셔도 됩니다.

Q. NPU 펌웨어 또는 드라이버 업데이트 주기는 어떻게 되나요?

SDK는 약 한 달 주기로, 드라이버는 약 3개월 주기로 업데이트되며, 일정은 변경될 수 있습니다. 상세 내용은 최신 릴리스 노트를 참고해주세요.

Q. 모델 컴파일이 실패했습니다.

현재 RBLN Model Zoo에서 공식적으로 지원되는 모델의 경우, 제공된 컴파일 및 추론 예제 코드를 사용하실 수 있습니다.

변형된 모델 또는 Model Zoo에 포함되지 않은 모델을 사용할 경우 기술지원이 제한적이며 컴파일이 실패 할 수 있습니다.
우선 에러 코드를 확인하여 원인을 파악해 보고, 추가적인 지원이 필요한 경우 개발자 포럼을 통해 문의해주세요.

Q. 언어모델을 컴파일/추론할 때 에러가 발생합니다.

다음 항목들을 확인해 보세요:

메모리 사용량: 컴파일 시 시스템 메모리가 부족하면 컴파일이 실패할 수 있습니다.
NPU 설정 확인: rbln_tensor_parallel_size 값이 시스템에 실제로 장착된 NPU 개수보다 크지 않은지 확인하세요. 터미널에서 rbln-stat 명령어를 실행하면 NPU 수를 확인할 수 있습니다.
도커(Docker) 환경: 도커 가이드를 참고해주세요.

Q. 모델 추론 시 CPU 점유율이 너무 높아요.

RBLN_NUM_THREADS 환경 변수를 설정하여 모델 추론 시 사용하는 CPU 스레드 수를 제한할 수 있습니다. 적절한 스레드 수를 지정하면 CPU 부하를 줄이고 성능을 안정화할 수 있습니다.

개발자 리소스 및 지원

Get Started

리벨리온 NPU 설치 가이드 보기

SDK Docs

SDK 개발자 문서 보기

Developer Support

기술문의 및 지원요청

300종 이상의 AI 모델을
더 쉽고 빠르게

업계 표준 프레임워크로 시작

Hugging Face

💡 리벨리온 하드웨어에서 Hugging Face 모델 실행

PyTorch

💡 PyTorch 모델 통합

TensorFlow

💡 TensorFlow 모델 통합

ATOM™ SDK User Guide

LLM Serving with NPU: Re-engineered, Built for Scale and Efficiency

Rebellions’ Software Stack: Silent Support

Understanding RBLN Compiler

리벨리온 소프트웨어 스택

머신러닝 프레임워크

컴파일러

연산 라이브러리

런타임 모듈

드라이버

펌웨어

리벨리온 백엔드 & 리벨리온 하드웨어

자주 묻는 질문

개발자 리소스 및 지원

Get Started

SDK Docs

Developer Support

도입 문의하기

300종 이상의 AI 모델을 더 쉽고 빠르게

업계 표준 프레임워크로 시작

Hugging Face

💡 리벨리온 하드웨어에서 Hugging Face 모델 실행

PyTorch

💡 PyTorch 모델 통합

TensorFlow

💡 TensorFlow 모델 통합

최신 문서와 튜토리얼

ATOM™ SDK User Guide

LLM Serving with NPU: Re-engineered, Built for Scale and Efficiency

Rebellions’ Software Stack: Silent Support

Understanding RBLN Compiler

리벨리온 소프트웨어 스택

머신러닝 프레임워크

컴파일러

연산 라이브러리

런타임 모듈

드라이버

펌웨어

리벨리온 백엔드 & 리벨리온 하드웨어

머신러닝 프레임워크

컴파일러

연산 라이브러리

런타임 모듈

드라이버

펌웨어

리벨리온 백엔드 & 리벨리온 하드웨어

자주 묻는 질문

개발자 리소스 및 지원

Get Started

SDK Docs

Developer Support

도입 문의하기

신주발행공고

300종 이상의 AI 모델을
더 쉽고 빠르게