
vLLM KR 커뮤니티가 주관하고, 리벨리온(Rebellions), SqueezeBits, Red Hat APAC, PyTorch Korea가 함께한 vLLM Korea Meetup 2026이 4월 2일 서울에서 열렸습니다.
이번 밋업은 단순한 기술 행사 이상의 의미를 보여주었습니다. 행사 당일 높은 참여율뿐만 아니라, 종료 후 진행된 설문조사에서도 약 75%의 응답률을 기록하며 참가자들의 적극적인 참여가 이어졌습니다. 특히 설문 응답 결과에서도 전반적인 만족도가 높게 나타나, 이번 밋업이 실무 중심의 깊이 있는 콘텐츠와 커뮤니티 경험을 동시에 제공했다는 점을 확인할 수 있었습니다.
이번 행사는 다양한 기업과 연구기관의 실무 엔지니어들이 참여해, LLM을 실제 서비스 환경에 적용하는 사례와 인프라 전략을 중심으로 논의가 이루어졌습니다.
최근 AI 기술이 연구 단계를 넘어 본격적인 서비스 단계로 진입하면서, 추론(Inference) 워크로드를 얼마나 효율적으로 처리하느냐가 핵심 과제로 떠오르고 있습니다. 이러한 흐름 속에서 vLLM은 고성능 LLM 서빙을 위한 핵심 인프라로 빠르게 확산되고 있으며, 클라우드부터 엔터프라이즈까지 다양한 환경에서 채택되고 있습니다.

Intro
vLLM 생태계의 확장과 표준화
금번 vLLM 밋업의 첫 포문은 리벨리온의 김홍석 박사와 Red Hat APAC의 Li Ming이 vLLM 프로젝트의 최신 업데이트와 커뮤니티 현황을 공유하며 시작했습니다. 김홍석 박사는 vLLM KR 커뮤니티가 첫 밋업 이후 지난 6개월 동안 구축한 운영 구조를 소개하며, Steering Group을 중심으로 한 거버넌스 체계와 정기 Meetup, Hands-on 워크숍을 통해 생태계를 확장하고 있음을 설명했습니다.
기술적으로는 vLLM이 v0에서 v1 아키텍처로 완전히 전환되며 코드 구조를 단순화하고 모듈화를 강화한 점이 강조되었습니다. async scheduling, Model Runner 개선 등 내부 구조 변화와 함께, streaming API, semantic router, vLLM-Omni 등 기능 확장이 빠르게 이루어지고 있습니다.
Red Hat APAC의 Li Ming은 vLLM의 복잡한 설정을 완화하기 위한 vllm-playground를 소개했습니다. 140개 이상의 파라미터로 인해 진입 장벽이 높은 vLLM을 GUI 기반으로 구성해 초기 실행까지의 시간을 단축하고, CPU 및 MacOS 환경 지원과 성능 시각화를 통해 실험과 도입을 쉽게 만드는 방향을 제시했습니다.
이 세션이 전달한 메시지는 분명했습니다. 이제 LLM 서빙은 특정 프레임워크의 선택 문제가 아니라, 다양한 환경에서 효율적으로 운영할 수 있는 인프라 문제로 확장되고 있다는 점입니다.

AI 가속기와 vLLM의 결합
또한 김홍석 박사는 vLLM과 AI 가속기의 결합 방향도 함께 설명했습니다. 그 예로 AI 반도체 기업 리벨리온은 자사 NPU를 vLLM 생태계에 통합하기 위해 vllm-rbln 플러그인을 개발하고 있으며, paged attention, continuous batching과 같은 핵심 기능을 NPU 환경에서도 동일하게 활용할 수 있도록 이미 구현 및 지원하고 있습니다.
또한 Speculative Decoding, 분산 KV cache, Prefill/ Decode 분리 등 고도화된 최적화 기능을 개발 중이며, Rebel100™과 같은 차세대 NPU를 통해 대규모 추론 클러스터 구축 가능성도 제시했습니다.
이러한 접근은 특정 하드웨어에 종속된 최적화가 아니라, vLLM을 중심으로 다양한 가속기를 연결하는 방향으로 AI 추론인프라가 재편되고 있음을 보여줍니다.

vLLM Production Stack의 현재와 앞으로
세 번째 세션에서는 SqueezeBits의 김태수 CTO가 vLLM production stack을 주제로 발표를 진행했습니다. 이 세션에서는 vLLM production stack이 실제 운영 환경에서 어떤 기능을 제공하는지, 지금까지 어떤 방향으로 발전해왔고 앞으로 어떤 식으로 확장될 예정인지에 대한 내용이 다뤄졌습니다.
vLLM이 단순히 모델을 서빙하는 수준을 넘어 점점 더 프로덕션 환경에서 필요한 운영 기능과 확장성을 갖춰나가고 있다는 점이 강조되었습니다.

투 트랙 세션
이번 밋업은 더 많은 현장의 이야기를 공유하고 소개하기위해 중반 이후 두 개의 트랙으로 나뉘어 진행되었습니다. 참가자들은 Track 1: vLLM with Open Source와 Track 2: vLLM in Business 두 가지 트랙 중 관심있는 트랙을 선택해 들을 수 있었고, 각 트랙에는 각각 두 세션이 준비되었습니다.
Track 1 – Session 1: LLM 서빙 최적화의 방향: 메모리와 캐시
Track 1의 첫 세션에서는 CXL 3.0 기반 지능형 메모리 반도체를 만들어 대규모 데이터 처리를 가속하는 메모리-중심 컴퓨팅 스타트업 엑시나(XCENA)의 이주호님이 vLLM 프로덕션 스택과 KV cache 최적화 전략을 소개했습니다. 그는 LLM 서빙의 본질을 “클러스터 효율 문제”로 정의하며, KV cache를 어떻게 저장하고 재사용하느냐가 성능과 비용을 동시에 좌우한다고 설명했습니다.
LMCache를 활용한 KV cache tiering과 라우팅을 통해 AI Accelerator 메모리 의존도를 줄이고, CXL 메모리를 활용한 대용량 캐시 확장 구조를 통해 새로운 메모리 계층을 구성하는 방식이 소개되었습니다. 이는 단순한 연산 최적화를 넘어, 데이터 이동과 메모리 구조 자체를 최적화하는 방향으로 LLM 인프라가 발전하고 있음을 보여줍니다.
Track 1 – Session 2: 오픈소스 모델을 서비스로 만드는 과정
이어서 자체 LLM Solar를 개발하는 AI 스타트업 업스테이지의 송인서님은 오픈소스 LLM을 실제 서비스로 배포하는 과정을 공유했습니다. 발표에서는 모델 학습 이후 단계에서 필요한 엔지니어링 작업의 중요성이 강조되었습니다.
OpenAI 호환 API, 멀티턴 대화, reasoning, function calling, structured output 등 다양한 요구사항을 만족시키기 위해 Chat Template을 설계하고, 토큰 단위에서 상태를 파싱할 수 있는 구조를 만드는 과정이 소개되었습니다. 또한 vLLM과의 통합 과정에서 parser와 logits processor를 통해 generation 경로를 제어하는 방식도 설명되었습니다.
이 세션은 LLM을 “잘 만드는 것”보다 “안정적으로 서비스하는 것”이 훨씬 복잡한 문제임을 보여주는 사례였습니다.
Track 2 – Session 1: 기업 환경에서의 LLM 운영 전략
Track 2의 첫 세션은 삼성전자의 김성수님이 “vLLM으로 민감데이터 지키기”라는 주제로 발표를 진행했습니다. 발표는 실제 기업 환경에서 LLM을 운영할 때 가장 중요한 요소로 보안을 강조하며 시작되었습니다.
외부 SaaS 모델을 사용할 수 없는 환경에서, 사내 GPU 인프라 기반의 private LLM API를 구축하고 모든 요청을 폐쇄망에서 처리하는 구조를 통해 데이터 유출 위험을 원천 차단한 사례가 소개되었습니다. 약 4,000명 이상의 사용자가 활용하는 환경에서 OpenWebUI, OpenAI-compatible API, Dify, Claude Code 등 다양한 인터페이스를 통해 사용자 확산을 이끈 점도 인상적이었습니다.
또한 과제별로 분리된 RAG 기반 에이전트와 권한 관리 구조를 통해 민감 데이터 접근을 통제하고, 오픈소스 조합 기반으로 커스텀 개발을 최소화한 운영 전략이 공유되었습니다.
이 세션은 LLM 도입에서 기술 성능뿐 아니라 보안과 운영 구조가 얼마나 중요한지를 보여주는 사례였습니다.
Track 2 – Session 2: 멀티모달 시대의 서빙 아키텍처
마지막 세션은 네이버클라우드의 길재은님이 하이퍼클로바 옴니 모델 서빙 사례를 발표했습니다. 텍스트뿐 아니라 이미지, 오디오를 함께 처리하는 옴니모달 모델은 Autoregressive 구조와 Diffusion 기반 디코더가 결합된 이질적 구조를 가지며, 기존 방식으로는 효율적인 서빙이 어렵다는 점이 강조되었습니다.
이를 해결하기 위해 encoder, LLM, decoder를 각각 독립적인 stage로 분리하는 disaggregated serving 구조가 제안되었으며, 각 컴포넌트를 개별적으로 최적화하는 접근이 소개되었습니다. 특히 Vision decoder가 전체 latency의 대부분을 차지하는 병목임을 분석하고, sequence parallelism과 커널 최적화를 통해 최대 3배 이상의 성능 개선을 달성한 사례가 공유되었습니다. 이 발표는 LLM 서빙이 단일 모델 실행을 넘어, 복합적인 파이프라인 최적화 문제로 확장되고 있음을 보여주었습니다.

Closing Thoughts
vLLM을 중심으로 재편되는 LLM 인프라
이번 밋업에서 공통적으로 드러난 흐름은 분명합니다. LLM 서빙은 더 이상 특정 모델을 빠르게 실행하는 문제가 아니라, 다양한 모델과 하드웨어, 그리고 복잡한 파이프라인을 효율적으로 운영하는 인프라 문제로 진화하고 있습니다. 이번 밋업은 단순 기술 공유를 넘어, 커뮤니티의 에너지와 깊이를 확인할 수 있는 자리이기도 했습니다.
“What stood out wasn’t just the technical depth, but the vibrancy of the vLLM ecosystem in Korea.”
– Li Ming, Red Hat 발표자
또한 한 참가자는 다음과 같이 표현했습니다. “LLM serving is clearly becoming a key pillar for enterprise AI.”
“세상은 넓고 고수는 많다는 걸 다시 느꼈다… 같은 관심사(vLLM) 앞에서는 모두가 대학생이 되는 느낌이었다.”
“기업 홍보보다 기술 중심으로 준비된 점이 인상적이었다.”
이러한 현실적인 피드백과 반응은 이번 밋업이 실제 ML엔지니어 중심의 깊이 있게 커뮤니티를 활성화게하는 이벤트임을 증명하였습니다.
vLLM은 이러한 변화 속에서 중요한 역할을 하고 있으며, 하드웨어 벤더, 클라우드 서비스 제공자, AI 서비스 제공 기업 및 사용자 모두가 각자의 전략을 구축하고 있습니다. 앞으로도 vLLM을 중심으로 한 기술과 커뮤니티는 지속적으로 확장되며, 실무 중심의 사례들이 계속 공유될 것으로 보입니다.


Share This: