SS&C, GPU 워크로드 실시간 처리 아키텍처 공개

dev_tools

10분 읽기

AIB프레스 편집팀

2026.05.26

엔터프라이즈 환경에서 GPU 자원의 활용률을 높이면서도 보안과 규정 준수를 동시에 만족시키는 것은 데이터센터 운영의 오래된 과제다. SS&C Technologies의 조셉 스타인(Joseph Stein) 수석 아키텍트가 QCon San Francisco에서 이 난제를 해결한 자체 구축 AI-as-a-Service 플랫폼 아키텍처를 처음 공개했다.

SS&C는 금융, 보험, 의료 등 규제가 심한 산업을 위한 하이브리드 클라우드 제공자로, 전 세계 데이터센터에서 프라이빗 클라우드를 운영 중이다. 2년 전 내부 팀들이 고급 검색 증강 생성(RAG) 시스템을 성공적으로 구축하자, 스타인은 모든 엔지니어와 제품팀이 GPU를 사용할 수 있으면서도 비용을 억제하고 규정 준수가 보장되는 플랫폼을 구상했다. 이것이 현재의 AI클라우드 서비스 플랫폼의 시작점이었다.

GPU 풀 활용도 극대화의 열쇠: Kubernetes 스케줄링

핵심은 GPU 풀의 활용도가 낮은 부분을 최대한 압축하는 것이었다. SS&C는 Kubernetes의 다중 네임스페이스 스케줄링을 활용해 실시간 추론 워클로드와 배치 처리를 동일한 GPU 리소스에서 혼재 실행하는 구조를 설계했다. 실시간 요청이 들어올 때 배치 작업을 일시 중지했다가 재개하는 방식으로, 유휴 시간을 최소화한다.

스타인은 "처음엔 vLLM과 NVIDIA 드라이버 스택이 실제로 작동하는지 직접 프로토타입을 만들어 검증했다"며 "Linux 사운드카드 드라이버를 다룬 경험이 도움이 됐다"고 설명했다. 프라이빗 클라우드 환경에서 Kubernetes 클러스터를 신청하면 Terraform 기반 자동화로 GPU 할당이 즉시 이뤄진다.

Valkey와 Lua: 원자적 우선순위 큐와 백프레셔 제어

또 다른 혁신은 인메모리 캐시 엔진 Valkey(Redis의 포크)와 Lua 스크립팅의 조합이다. 수천 개의 추론 요청이 동시에 들어올 때, 각 요청의 우선순위와 타이머를 원자적(atomic)으로 관리해야 한다. Valkey는 이런 원자적 큐 연산을 나노초 단위로 처리하고, Lua 스크립트는 요청 스로틀링과 백프레셔(backpressure) 제어를 담당한다. 과부하 상태에서 더 이상의 요청을 받지 않도록 자동으로 차단하는 메커니즘이다.

중앙 프록시 게이트웨이를 통한 LLM 보안 강화

생성형 AI 모델의 보안 취약점은 또 다른 우려사항이다. OWASP에서 지목한 상위 10개 LLM 위험(프롬프트 인젝션, 데이터 누출, 부정확한 정보 등)을 모두 대응해야 한다는 뜻이다. SS&C는 모든 GPU 요청을 중앙 프록시 게이트웨이로 라우팅하도록 설계해, 입출력 검증, 토큰 제한, 컨텐츠 필터링을 한곳에서 통제한다. 규정 준수 로그도 동일 위치에서 수집되므로 감사(audit) 비용이 크게 절감된다.

S3-to-Kafka 프록시: 배치 처리의 우아한 확장

마지막은 배치 처리 파이프라인이다. 수십억 개의 문서나 이미지를 GPU에 돌려야 할 때, 객체 스토리지(S3)와 스트리밍 플랫폼(Kafka) 사이의 '임시 변환'을 자동화하는 커스텀 S3-to-Kafka 프록시를 개발했다. 개발자는 S3 경로를 Kafka 토픽에 맵핑하기만 하면, 스토리지의 신규 데이터가 자동으로 스트림으로 변환되어 GPU 파이프라인으로 흐른다. 이를 통해 배치와 스트리밍 경계를 흐릿하게 만들 수 있었다.

엔터프라이즈 AI 인프라의 실전 패턴

스타인의 경력은 자신의 기술 선택을 설명한다. Apache Kafka 커미터(2012~2016)로 활동했고, 블룸버그·시스코·크라우드스트라이크·브릿지워터·미쓰비시 금융 등에서 페타바이트급 실시간 배치 처리 시스템을 구축했다. 올해 발표는 "엔터프라이즈에서 GPU를 어떻게 '공유'할 것인가"라는 문제를 단순히 기술적으로만 해결한 게 아니라, 보안과 비용 효율을 동시에 담보하는 실전적 패턴을 보여준 것이 가치다.

한국의 대형 금융사나 보험사, 공공 클라우드 운영팀도 유사한 고민이 있다. GPU 자원이 제한적인 상황에서 여러 팀이 수백 개의 모델을 동시에 서빙하고 싶어하는데, 이 아키텍처는 그런 환경에 직결된 해법을 제시한다는 점에서 벤치마킹 대상이 될 만하다.

원문 출처

https://www.infoq.com/presentations/realtime-gpu-workloads/

편집 안내 | 이 기사는 AI 기술을 활용하여 글로벌 뉴스 소스를 분석·종합한 후, AIB프레스 편집팀의 검수를 거쳐 발행되었습니다. 정확한 정보 전달을 위해 노력하고 있으며, 원문 출처를 함께 제공합니다.

엔터프라이즈 AI

GPU 스케줄링

AI-as-a-Service

Kubernetes

Kafka

LLM 보안

AIB프레스

SS&C, GPU 워클로드 실시간 처리 아키텍처 공개...엔터프라이즈 AI 비용 혁신

GPU 풀 활용도 극대화의 열쇠: Kubernetes 스케줄링

Valkey와 Lua: 원자적 우선순위 큐와 백프레셔 제어

중앙 프록시 게이트웨이를 통한 LLM 보안 강화

S3-to-Kafka 프록시: 배치 처리의 우아한 확장

엔터프라이즈 AI 인프라의 실전 패턴

원문 출처

AI·테크 핵심 뉴스, 매주 한 통으로

관련 기사

클라우드플레어, 프로젝트 갈릴레오 12주년 맞아 시민사회 사이버위협 보고서 공개

GitHub, 데이터 분석 AI 에이전트 'Qubot' 공개...직원 누구나 자율적 분석 가능

GitHub, PR 한도로 '노이즈' 차단...월간 9천만 건 시대 대응