big_tech
8분 읽기

마이크로소프트, 3세대 MAI 모델 공개...음성·이미지 생성 2배 이상 고속화

마이크로소프트가 자사 개발 AI 모델 'MAI-Transcribe-1', 'MAI-Voice-1', 'MAI-Image-2'를 공식 공개했다. MAI-Transcribe-1은 OpenAI Whisper와 Google Gemini를 능가하는 음성 인식 성능을 제공하며, MAI-Image-2는 이전 모델 대비 이미지 생성 속도를 2배 이상 개선했다. 마이크로소프트 파운드리 플랫폼을 통해 개발자에게 공개되며, 가격 경쟁력을 강조하고 있다.

AIB프레스 편집팀
2026.04.16
조회 0
마이크로소프트, 3세대 MAI 모델 공개...음성·이미지 생성 2배 이상 고속화

마이크로소프트가 3세대 MAI 모델 공개...음성·이미지 생성 2배 이상 고속화

마이크로소프트가 'MAI-Transcribe-1', 'MAI-Voice-1', 'MAI-Image-2' 3종의 자체 개발 AI 모델을 정식 공개했다. 지난 2일 마이크로소프트 파운드리와 MAI 플레이그라운드를 통해 제공을 시작했다.

음성 인식, 25대 주요 언어 최고 성능 달성

MAI-Transcribe-1은 음성-텍스트 변환(Speech-to-Text) 기능으로 세계 상용 제품 기준 사용 빈도가 높은 25개 언어에서 업계 표준 FLEURS 벤치마크에 따라 최첨단 성능을 제공한다. 배치 변환 속도는 기존 마이크로소프트 애저 고속 서비스 대비 2.5배 빠르다.

OpenAI의 Whisper-large-v3와 Google의 Gemini 3.1 Flash를 상당 부분에서 능가한다. 마이크로소프트는 "노이즈가 많은 콜센터, 회의실 등 실제 환경에서 세계 수준의 품질을 제공하도록 설계됐다"며 "단순 정확성만 아니라 속도 면에서도 우수하다"고 밝혔다.

이미지 생성, 2배 이상 성능 향상

MAI-Image-2는 이미지 생성 성능과 속도를 대폭 개선해 Arena.ai 리더보드에서 상위 3개 모델 가족으로 평가받고 있다. 파운드리와 코파일럿에서 실제 프로덕션 트래픽 기준 2배 이상 빠른 이미지 생성 시간을 제공하면서 유사한 품질을 유지한다. 현재 빙과 파워포인트에 단계적 롤아웃 중이다.

마이크로소프트는 사진작가, 디자이너, 시각 창작자를 위해 자연스러운 조명, 정확한 피부톤, 명확한 텍스트 렌더링을 특화했다고 설명했다. 글로벌 최대 마케팅 그룹 WPP가 이미 대규모로 MAI-Image-2를 활용 중이다.

음성 생성 모델, 수초 단위 커스텀 음성 생성 가능

MAI-Voice-1은 자연스럽고 감정 표현이 풍부한 음성 생성을 제공하며, 이번 공개에서 짧은 오디오 샘플 몇 초만으로 커스텀 음성을 안전하게 생성할 수 있는 기능을 추가했다. 1분(60초)의 음성을 단 1초에 생성할 수 있으며 GPU 사용량도 매우 효율적이어서 높은 품질을 경제적 가격으로 제공한다.

경쟁력 있는 가격 책정 전략

마이크로소프트는 세 모델 모두 업계 경쟁력 있는 가격을 강조했다. MAI-Transcribe-1은 시간당 0.36달러(약 515원), MAI-Voice-1은 100만 문자당 22달러(약 3만1460원), MAI-Image-2는 텍스트 입력 100만 토큰당 5달러(약 7150원), 이미지 출력은 100만 토큰당 33달러(약 4만7190원)부터 시작한다.

엔터프라이즈급 안전성 및 거버넌스 강조

마이크로소프트는 이 모델들을 개발할 때 안전하고 책임감 있는 AI를 약속하며 엄격한 레드팀 테스트를 거쳤다고 설명했다. 마이크로소프트 파운드리를 통해 개발자는 내장된 가드레일, 거버넌스, 엔터프라이즈급 통제를 확보해 대규모 배포 시 안전하고 준법적으로 운영할 수 있다.

마이크로소프트는 이들 모델이 자사 소비자 및 상용 제품에 빠르게 배포되고 있으며, 파운드리 개발자도 동일한 품질과 성능을 경험할 수 있다고 강조했다. 지난 2일부터 마이크로소프트 파운드리와 MAI 플레이그라운드(미국만)를 통해 모든 개발자가 접근할 수 있다.

편집 안내 | 이 기사는 AI 기술을 활용하여 글로벌 뉴스 소스를 분석·종합한 후, AIB프레스 편집팀의 검수를 거쳐 발행되었습니다. 정확한 정보 전달을 위해 노력하고 있으며, 원문 출처를 함께 제공합니다.

이미지 생성
AI
마이크로소프트
MAI 모델
음성 인식
파운드리

공유

관련 기사