오픈AI, 음성 AI 글로벌 저지연 배포 구현…WebRTC 아키텍처 재설계
오픈AI가 ChatGPT 음성·Realtime API 등 음성 AI 서비스를 9억 명 이상의 전 세계 사용자에게 저지연으로 공급하기 위해 WebRTC 스택을 재설계한 기술 사례를 공개했다. 기존 SFU 모델 대신 relay + transceiver 하이브리드 아키텍처를 도입해 ICE, DTLS, 글로벌 라우팅의 스케일링 문제를 동시에 해결했으며, 이는 WebRTC와 클라우드 네이티브 인프라의 근본적 딜레마를 어떻게 극복하는지 보여주는 기술적 사례다.

오픈AI가 음성 인공지능(AI) 서비스를 9억 명 이상의 전 세계 사용자에게 저지연으로 공급하기 위한 기술 아키텍처를 공개했다. WebRTC(웹 실시간 통신) 스택을 재설계해 인터넷 대역폭과 하드웨어 자원 제약을 동시에 극복한 사례다.
오픈AI 기술팀은 4일(현지시간) 공식 블로그를 통해 음성 기반 상호작용 서비스의 핵심 기술 논문을 발표했다. ChatGPT 음성 기능, Realtime API, 대화형 에이전트 등 오픈AI의 모든 실시간 음성 제품이 이 아키텍처 위에서 작동한다.
저지연의 중요성 — 사용자 체감 품질의 핵심
음성 AI는 자연스러운 대화 속도를 유지할 때 비로소 사용할 가치가 생긴다. 네트워크 지연이 발생하면 사용자는 어색한 침묵(awkward pause), 끊긴 대사(clipped interruption), 발화 기회 상실(delayed barge-in)을 즉각 감지한다. 이는 단순한 기술 지표가 아니라 제품의 자연스러움을 결정하는 직관적 요소다.
오픈AI는 이를 세 가지 구체적 요구사항으로 정의했다. 첫째, 글로벌 도달력(900만 명 이상의 주간활성사용자 대응). 둘째, 빠른 초기 연결 설정(사용자가 세션 시작 직후 발화 가능). 셋째, 낮고 안정적인 매체 왕복시간(round-trip time·RTT) — 지터(jitter)와 패킷손실(packet loss)을 최소화하는 것이다.
기존 접근법의 한계 — SFU 모델 vs Transceiver
음성·비디오 통신 시스템은 전통적으로 SFU(Selective Forwarding Unit, 선택적 전송 서버) 아키텍처를 사용해왔다. SFU는 각 참여자로부터 WebRTC 연결을 받아 선택적으로 다른 참여자에게 재전송하는 방식이다. 그룹 통화, 온라인 강의, 협업 미팅처럼 다자간 통신이 기본인 서비스에서는 SFU가 최적이다. 코덱 협상, RTCP 메시지, 데이터 채널, 녹음, 정책 관리를 한 곳에서 처리할 수 있기 때문이다.
오픈AI는 다른 판단을 내렸다. 자사의 트래픽 대부분이 1:1 구조(사용자 1명 vs 모델 1개)이고, 모든 턴에서 지연성에 민감했기 때문이다. 대신 transceiver 모델을 선택했다. 엣지(edge)에 배치된 WebRTC 서비스가 클라이언트 연결을 종료한 뒤, 미디어와 이벤트를 더 단순한 내부 프로토콜로 변환해 추론, 음성 인식, 음성 생성, 도구 사용, 오케스트레이션 등 후단 모델에 전달하는 구조다.
근본적 인프라 충돌 — ICE, DTLS, 라우팅의 삼중주
오픈AI가 직면한 스케일링 문제는 세 가지 제약의 충돌이었다. 첫째, 세션당 포트 종속성. 기존 WebRTC는 각 세션마다 별도 포트에서 미디어를 종료해야 하는데, 이는 오픈AI의 동적 인프라(컨테이너·쿠버네티스 기반)에 맞지 않았다. 둘째, 상태 유지의 어려움. ICE(상호 연결성 확인) 및 DTLS(보안 실시간 전송 프로토콜) 세션은 안정적인 서버 소유권이 필요한데, 자동 스케일링 환경에서 세션 마이그레이션이 복잡했다. 셋째, 글로벌 라우팅 최적화. 첫 홉(first-hop) 지연을 낮추면서 동시에 전 세계 데이터센터 간 효율적 라우팅을 구현해야 했다.
Relay + Transceiver 하이브리드 아키텍처
오픈AI의 해법은 두 계층으로 나뉜 구조다. 릴레이(Relay) 계층은 전 세계 에지 노드에 분산 배치되며, 클라이언트와 직접 WebRTC 핸드셰이크를 맺는다. 사용자는 지리적으로 가장 가까운 릴레이에 먼저 연결되므로 초기 지연이 최소화된다. 트랜시버(Transceiver) 계층은 릴레이가 받은 미디어 스트림을 내부 프로토콜로 변환해 실제 AI 추론 백엔드로 전달한다.
이 방식의 핵심은 클라이언트 관점에서는 표준 WebRTC 동작을 유지하면서, 오픈AI 내부 인프라 기준으로는 미디어 라우팅을 완전히 재편한다는 점이다. ICE 자격증명(credentials)을 기반으로 라우팅 경로를 결정하고, 지역별 신호(geo-steered signaling)를 통해 사용자를 최적 릴레이로 안내한다.
기술적 의의 — WebRTC와 클라우드 네이티브의 화해
이 아키텍처는 음성 AI 업계의 근본적 딜레마를 보여준다. WebRTC는 저지연 미디어 통신의 표준이지만, 원래 브라우저·모바일 기기 간 P2P 통신을 염두에 설계됐다. 반면 대규모 AI 서비스는 동적 컨테이너 환경, 글로벌 로드 밸런싱, 장애 격리 등 클라우드 네이티브 패턴을 절대 요구한다. 오픈AI의 접근법은 두 세계를 절충한 것이다.
또한 이는 오픈AI가 음성 AI 경쟁에서 기술적 우위를 확보한 사례로 평가된다. 구글(Google)의 Gemini Live, 앤트로픽(Anthropic)의 음성 기능 등 경쟁사들도 저지연 음성 AI를 추진 중이나, 글로벌 9억 명 규모를 안정적으로 처리하는 인프라 공개는 드물다. 오픈AI의 기술 공개는 업계 표준화 움직임이면서 동시에 자사의 기술 리더십을 강조하는 신호로도 읽힌다.
한국 개발자와 스타트업에의 시사
한국의 음성 AI 스타트업들이 글로벌 서비스를 추진한다면 오픈AI의 아키텍처는 참고할 가치가 높다. 특히 클라우드 네이티브 환경에서 저지연 미디어 통신을 구현하려는 팀이라면, WebRTC의 표준 프로토콜을 존중하되 자사 인프라에 맞춘 미디어 변환 계층을 별도로 설계하는 방식을 검토할 수 있다.
오픈AI는 기술 논문에 ICE 라우팅, 글로벌 릴레이 성능, 패킷 손실률 등 구체적 수치도 담았으나, 아직 완전한 오픈소스 공개는 이뤄지지 않았다. 다만 이 아키텍처를 레퍼런스로 삼은 오픈소스 프로젝트들이 속속 나타날 것으로 예상된다. 특히 Pion(WebRTC 오픈소스 구현체)의 창시자 Sean DuBois와 WebRTC 아키텍트 Justin Uberti가 모두 오픈AI 팀에 합류했다는 사실은 이 기술이 업계 표준으로 수렴할 가능성을 암시한다.
결국 이것이 단순한 기술 블로그 포스팅이 아니라 AI 음성 서비스의 미래 방향을 제시하는 신호인 까닭이다.
편집 안내 | 이 기사는 AI 기술을 활용하여 글로벌 뉴스 소스를 분석·종합한 후, AIB프레스 편집팀의 검수를 거쳐 발행되었습니다. 정확한 정보 전달을 위해 노력하고 있으며, 원문 출처를 함께 제공합니다.


