오픈AI, 음성AI 새 시대 열다...실시간 번역·고급 추론 'GPT-Realtime-2' 공개
오픈AI가 음성 처리 기능을 강화한 GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper 세 가지 신규 음성 모델을 API에 출시했다. 특히 GPT-Realtime-2는 GPT-5 수준의 추론 능력과 128K 컨텍스트 윈도우로 복잡한 음성 상호작용을 지원하며, 벤치마크에서 이전 모델 대비 13~15% 성능 향상을 기록했다.

오픈AI가 API 플랫폼에 음성 처리 기능을 강화한 세 가지 신규 모델을 출시했다. 개발자들이 자연스럽고 지능형인 음성 애플리케이션을 구축할 수 있도록 지원하는 것이 목표다.
세 가지 신규 음성 모델의 역할
오픈AI가 선보인 모델은 다음과 같다.
GPT-Realtime-2는 GPT-5 수준의 추론 능력을 갖춘 음성 모델이다. 복잡한 요청을 처리하고 대화를 자연스럽게 이어나갈 수 있다. 컨텍스트 윈도우는 기존 32K에서 128K로 확대돼 더 길고 복잡한 대화를 지원한다.
GPT-Realtime-Translate는 실시간 음성 번역 모델이다. 70개 이상의 입력 언어를 13개의 출력 언어로 변환하면서도 화자의 속도에 맞춰 번역을 진행한다.
GPT-Realtime-Whisper는 스트리밍 음성-텍스트 변환 모델이다. 화자가 말하는 동안 실시간으로 음성을 텍스트로 전사한다.
음성 인터페이스의 세 가지 패턴
오픈AI는 음성AI가 만들어내는 사용 패턴을 세 가지로 정의했다.
첫째는 '음성-액션(Voice-to-action)' 패턴이다. 사용자가 필요한 것을 말로 설명하면 시스템이 요청을 분석하고 도구를 활용해 작업을 완료한다. 부동산 중개 업체 질로우(Zillow)는 이 기술을 이용해 "내 구매력 범위 내 집을 찾되 번화가는 제외하고 토요일에 투어 일정을 잡아달라"는 요청을 처리하는 어시스턴트를 개발하고 있다.
둘째는 '시스템-음성(Systems-to-voice)' 패턴이다. 소프트웨어가 상황 정보를 실시간 음성 지시로 변환한다. 예를 들어 여행 앱이 탑승객에게 "예정된 항공편이 지연되지만 연결편은 여전히 탈 수 있다"고 알리고 새 게이트와 터미널 내 최적 경로까지 안내한다.
셋째는 '음성-음성(Voice-to-voice)' 패턴이다. AI가 언어, 작업, 변화하는 상황을 넘나들며 실시간 대화를 중재한다. 독일 통신사 도이체 텔레콤은 이 기능으로 고객이 편한 언어로 상담하면 모델이 실시간으로 대화를 번역하는 음성 지원 서비스를 구축 중이다.
여행 예약 플랫폼 프라이스라인(Priceline)은 이 패턴들을 결합해 여행객이 항공편과 호텔을 음성으로 검색하고, 항공편 지연 후 호텔 예약을 조정하거나, 현지에서 실시간 통역을 받을 수 있는 서비스를 추진하고 있다.
기술 혁신: 추론과 실시간 대응
GPT-Realtime-2는 음성 상호작용 중에 모델이 대화를 계속 진행하면서 요청을 분석하고, 도구를 호출하며, 중단이나 수정에 대응하고, 상황에 맞는 방식으로 응답하도록 설계됐다.
주요 기술 특징은 다음과 같다.
전주곡(Preambles) 기능은 메인 응답 앞에 "한 번 확인해볼게요"나 "조금만 기다려봐요"같은 짧은 표현을 넣어 사용자에게 시스템이 작업 중임을 명확히 한다.
병렬 도구 호출과 도구 투명성은 모델이 여러 도구를 동시에 호출하면서 "달력을 확인하고 있어요"같은 설명을 덧붙여 사용자에게 작업 상태를 알린다. 이로써 에이전트는 반응성을 유지하면서도 복잡한 작업을 완료할 수 있다.
향상된 복구 능력은 시스템이 침묵하거나 대화가 끊기는 대신 "지금은 이 부분에서 문제가 있네요"라고 대응한다.
추론 강도 조절은 개발자가 '미소(Minimal)', '낮음(Low)', '중간(Medium)', '높음(High)', '매우 높음(Xhigh)' 중에서 선택할 수 있다. 기본값은 '낮음'으로 단순한 상호작용에서는 빠른 응답을, 복잡한 요청에서는 깊은 추론을 가능하게 한다.
강화된 도메인 이해는 전문 용어, 고유명사, 의료 용어 같은 특정 분야 어휘를 정확히 유지한다.
톤과 전달 방식 제어는 문제 해결 중에는 차분하게, 사용자가 답답해할 때는 공감 있게, 성공을 확인할 때는 밝게 말하도록 모델이 톤을 조절한다.
성능 개선과 검증
오픈AI는 GPT-Realtime-2의 성능을 독립적인 벤치마크로 검증했다.
'빅 벤치 오디오(Big Bench Audio)' 평가에서 GPT-Realtime-2(높음 추론)는 음성 지능 분야에서 이전 모델 GPT-Realtime-1.5 대비 15.2% 향상된 점수를 받았다. '오디오 멀티챌린지(Audio MultiChallenge)' 평가에서 GPT-Realtime-2(매우 높음 추론)는 지시 따르기에서 13.8% 향상되며 실시간 대화에서 강력한 추론, 문맥 관리, 제어 능력을 보였다.
초기 테스트 단계에서 기업들은 GPT-Realtime-2로 고객과 직원이 자연스러운 대화로 업무를 처리하는 음성 에이전트를 구축했다. 한 기업은 "GPT-Realtime-2의 지능과 도구 호출 신뢰성이 복잡한 음성 상호작용에서 실질적인 성과를 낸다"며 "어려운 대적 벤치마크에서 프롬프트 최적화 후 콜 성공률이 69%에서 95%로 26포인트 상승했다"고 밝혔다. 또한 공정주택 규정 준수에서도 더욱 견고해져 사업상 중요한 역할을 한다고 평가했다.
산업 재편의 신호
음성은 소프트웨어와 인간이 상호작용하는 자연스러운 방식으로 부상하고 있다. 운전 중 도움을 요청하고, 공항 통로를 걸으며 여행 일정을 바꾸고, 선호하는 언어로 지원을 받으며, 입력 없이 작업을 진행할 수 있다는 의미다.
하지만 유용한 음성 제품을 만들려면 빠른 응답 속도나 자연스러운 음성만으로는 부족하다. 음성 에이전트는 사용자의 의도를 정확히 이해하고, 문맥을 추적하며, 요청 변화에 대응하고, 대화 중 도구를 활용하면서도 상황에 맞는 방식으로 응답해야 한다.
오픈AI가 이번에 공개한 모델들은 단순한 음성-응답 방식에서 실제 작업을 수행하는 음성 인터페이스로의 전환을 의미한다. 이는 음성 대화형 애플리케이션이 향후 모바일, 엔터프라이즈, 고객 서비스 등 분야에서 중요한 인터페이스가 될 수 있음을 보여준다.
편집 안내 | 이 기사는 AI 기술을 활용하여 글로벌 뉴스 소스를 분석·종합한 후, AIB프레스 편집팀의 검수를 거쳐 발행되었습니다. 정확한 정보 전달을 위해 노력하고 있으며, 원문 출처를 함께 제공합니다.


