xAI, 테슬라·스타링크 쓰던 음성 AI를 개발자에게 공개...오류율 6.9% 업계 최저

gen_ai

분석

15분 읽기

AIB프레스 편집팀

2026.04.18

xAI가 4월 17일 Grok의 음성 인식(Speech-to-Text)·음성 합성(Text-to-Speech) API를 독립 상품으로 공개했다. 테슬라 차량의 차내 대화와 스타링크 고객지원에서 이미 돌아가고 있던 음성 스택이, 외부 개발자에게 그대로 풀렸다.

단순 "음성 기능 추가"가 아니다. 벤치마크 수치가 ElevenLabs·Deepgram·AssemblyAI를 전 영역에서 앞섰다는 점이 이번 발표의 진짜 무게다.

전체 오류율 6.9%, 전화 통화 엔티티에서는 격차 3배

음성 인식의 품질은 단어 오류율(WER, Word Error Rate)로 측정한다. 낮을수록 정확도가 높다. xAI가 공개한 비교표는 다음과 같다.

영역	Grok STT	ElevenLabs	Deepgram	AssemblyAI
전화 통화 엔티티	5.0%	12.0%	13.5%	21.3%
비디오/팟캐스트	2.4%	2.4%	3.0%	3.2%
회의	10.9%	12.2%	16.3%	15.7%
전화 음성	9.3%	9.4%	11.0%	11.2%
전체	6.9%	9.0%	11.0%	12.9%

특히 눈길을 끄는 것은 전화 통화 엔티티 영역이다. 이름·날짜·금액 같은 구체적 정보를 잡아내는 시험에서 Grok은 5.0%를 기록했다. 경쟁 제품 중 가장 좋은 ElevenLabs(12.0%)와 비교하면 오류가 절반 이하다. 의료·법률·금융처럼 단어 하나가 결정을 바꾸는 영역에서 이 차이는 "써도 되는 기술"과 "아직은 검토용"의 경계선이다.

xAI는 공식 문서에서 이를 "역 텍스트 정규화(Inverse Text Normalization)"라 부른다. 말로 뱉어진 "사백십사 오오오 일이삼사"를 "414-555-1234"로 자동 변환하는 식이다. 통화 녹취, 진료 기록, 계약 협상 실시간 자막 같은 업무에 바로 투입 가능한 수준이라는 뜻이다.

TTS: 태그 한 줄로 감정 넣기

TTS 쪽은 숫자보다 제어권에서 차별화했다. 개발자가 문장에 [laugh], [sigh], [whisper] 같은 인라인 태그를, <emphasis>, <slow>, <pause> 같은 래핑 태그를 넣으면 해당 구간에서 음성이 그대로 반응한다. SSML 같은 복잡한 마크업 없이 "속삭여"·"웃어"·"강조해"를 한 단어로 지시할 수 있는 구조다.

음성 에이전트, 접근성 도구, 인터랙티브 팟캐스트 같은 영역에서 기존 TTS의 가장 큰 한계였던 "모든 문장이 똑같은 톤"을 해결한 접근이다.

가격도 승부수

기술 수치보다 개발자들이 바로 체감할 건 가격이다.

STT 배치: 시간당 $0.10
STT 스트리밍: 시간당 $0.20
TTS: 100만 자당 $4.20

OpenAI Whisper API가 분당 $0.006 (≈ 시간당 $0.36), ElevenLabs Scribe가 시간당 $0.40 선임을 감안하면 Grok STT 배치 가격은 기존 상용 API의 3분의 1 수준이다. "같은 품질을 더 싸게"가 아니라 "더 정확한 품질을 더 싸게"라는 조합은 기업용 구매 결정의 균형을 한 번에 기울일 수 있는 배치다.

TTS의 100만 자당 $4.20 역시 ElevenLabs Creator 요금제(월 $22, 100K자)를 시간당 환산 비용으로 따져보면 xAI가 큰 폭으로 낮다.

25개 언어 지원, 그런데 한국어는?

xAI는 "25개 이상 언어 다중 지원, 중간에 언어가 섞여도 끊기지 않는다"고 밝혔다. 다만 한국어가 포함되는지는 공식 블로그 본문에 적시하지 않았다. 개발자 문서(docs.x.ai)에서 세부 언어 목록을 확인해야 하며, 한국어가 포함됐더라도 영어·스페인어 대비 WER 수치가 비공개인 점은 한국 기업 도입 시점에 반드시 짚고 넘어가야 할 변수다.

국내 음성 AI 판에 던지는 질문

네이버 클로바(CLOVA Speech), 카카오 Kakao i, SK텔레콤 NUGU, 업스테이지와 같은 국내 음성 AI 사업자들에게 Grok API의 등장은 단순한 경쟁자 추가가 아니다.

첫째, 오픈API 가격선이 재조정된다. 지금까지 국내 기업이 글로벌 STT API를 쓸 때 가장 많이 비교한 건 Google Speech-to-Text(시간당 약 $0.96)와 AWS Transcribe(시간당 약 $1.44)였다. Grok의 배치 $0.10은 이 대비 10분의 1 이하다. 네이버 클로바가 내세우는 "국내 기업 친화 요금제"의 설득력이 재계산되어야 한다.

둘째, 전화 통화 영역은 한국 기업들이 가장 많이 쓰는 STT 용처다. 콜센터 녹취 자동 분석, 상담원 응대 실시간 가이드, 의료상담 자동 기록 등에서 WER 5.0%와 12%의 차이는 곧바로 사용자 경험 차이로 번진다. 국내 제품 중 이 수치를 공개적으로 제시하는 사업자는 드물다.

셋째, 태그 기반 TTS 제어는 게임·엔터테인먼트 업계가 빠르게 반응할 영역이다. 현재 국내 TTS는 캐릭터별 보이스 훈련이 중심이다. [laugh] 같은 태그 한 줄로 감정이 붙는 구조는 VTuber, AI 오디오북, 게임 대사 제작 파이프라인을 통째로 바꿀 수 있다.

음성이 "옵션"에서 "기본"으로 넘어가는 신호

2024년까지 LLM 붐은 텍스트 중심이었다. 2025년에 OpenAI, Google, ElevenLabs가 음성 쪽을 키웠지만, 여전히 "추가 기능" 성격이 강했다. xAI의 이번 독립 API 출시는 다른 방향의 선언이다. 음성을 Grok 번들에서 떼어내 기반 인프라로 팔겠다는 것.

테슬라 차량이라는 수천만 대 규모의 실전 테스트베드에서 연마된 모델이 외부에 풀렸고, 가격은 경쟁 제품의 3분의 1 이하다. 이 조합은 내년 한 해 동안 "음성 기능이 있는 앱"과 "음성이 기본 인터페이스인 앱"의 경계를 흐리게 할 가능성이 크다.

국내 사업자들에게 남은 질문은 단순하다. WER 숫자를 투명하게 공개할 준비가 됐는가, 그리고 Grok보다 빨리 한국어 특화 벤치마크로 승부를 걸 수 있는가.

원문 출처

https://x.ai/news/grok-stt-and-tts-apis

편집 안내 | 이 기사는 AI 기술을 활용하여 글로벌 뉴스 소스를 분석·종합한 후, AIB프레스 편집팀의 검수를 거쳐 발행되었습니다. 정확한 정보 전달을 위해 노력하고 있으며, 원문 출처를 함께 제공합니다.

Grok

음성AI

STT

TTS

ElevenLabs

Deepgram

xAI

AIB프레스

xAI, 테슬라·스타링크 쓰던 음성 AI를 개발자에게 공개...오류율 6.9% 업계 최저

전체 오류율 6.9%, 전화 통화 엔티티에서는 격차 3배

TTS: 태그 한 줄로 감정 넣기

가격도 승부수

25개 언어 지원, 그런데 한국어는?

국내 음성 AI 판에 던지는 질문

음성이 "옵션"에서 "기본"으로 넘어가는 신호

원문 출처

관련 기사

오픈AI, 정치헌금 전면 거부...AI 정책은 '당파 아닌 투명성으로'

엔다바, 'AI 에이전트 조직' 선포...시니어 판단을 코드화하다

OpenAI, AI 안전 평가 표준화 가이드 공개...하네스 역할 강조