gen_ai
13분 읽기

오픈AI, 슈퍼컴퓨터 네트워크 표준 MRC 공개…AI 훈련 속도 향상

오픈AI가 AMD, 인텔, 엔비디아 등 5개 대형 기술 기업과 협력해 개발한 MRC(다중 경로 신뢰 연결) 네트워킹 프로토콜을 공개했다. 멀티플레인 아키텍처와 적응형 패킷 분산 기술로 대규모 AI 모델 훈련 시 네트워크 지연을 획기적으로 단축한다.

AIB프레스 편집팀
2026.05.07
조회 0
오픈AI, 슈퍼컴퓨터 네트워크 표준 MRC 공개…AI 훈련 속도 향상

오픈AI, 슈퍼컴퓨터 네트워크 표준 MRC 공개…AI 훈련 속도 향상

오픈AI가 AMD, 브로드컴, 인텔, 마이크로소프트, 엔비디아와 손잡고 개발한 새로운 네트워킹 프로토콜 MRC(Multipath Reliable Connection)를 공개했다. 이는 차세대 AI 모델 훈련에 필요한 슈퍼컴퓨터 네트워크의 신뢰성과 성능을 대폭 향상시키는 기술이다.

오픈AI는 4일 Open Compute Project(OCP)를 통해 MRC 사양을 산업 표준으로 공개했다. 주당 9억 명 이상이 사용하는 ChatGPT를 지원하는 인프라의 한계를 넘기 위해 개발한 것으로, Stargate 초대형 슈퍼컴퓨터 구축 과정에서 나온 결과물이다.

네트워크 병목이 AI 훈련의 숨겨진 적

대규모 AI 모델 훈련에서 한 단계를 처리하려면 수백만 건의 데이터 전송이 일어난다. 단 하나의 패킷이 지연되면 연쇄 효과로 수천 개 GPU가 유휴 상태에 빠진다. 오픈AI 연구팀은 "네트워크 혼잡, 링크 실패, 장비 장애가 훈련 속도 저하의 가장 흔한 원인"이라고 지적했다.

이 문제는 클러스터 규모가 커질수록 악화된다. 동기식 사전훈련에서 GPU가 수십만 개 이상 연결되면 어느 하나의 링크 장애라도 전체 훈련 작업을 중단시킬 수 있다. 오픈AI는 "이를 '실패 증폭기(failure amplifier)' 현상이라 부른다"고 설명했다.

멀티플레인 아키텍처로 중복성 확보

MRC는 RoCE(Converged Ethernet 상의 RDMA) 표준을 확장하고 SRv6 기반 소스 라우팅을 더해 대규모 AI 네트워크 구축을 가능하게 한다.

핵심 혁신은 다중 평면(multi-plane) 네트워크 설계다. 종전에는 하나의 네트워크 인터페이스를 단일 800Gb/s 링크로 취급했다면, MRC는 이를 8개의 100Gb/s 소형 링크로 분산시킨다. 각 링크가 다른 8개 스위치에 연결되므로, 8개의 독립적인 평행 네트워크를 만든다.

이 구조적 변화는 클러스터 규모에 극적인 영향을 미친다. 종전 800Gb/s 네트워크는 3~4 계층의 스위치가 필요했지만, MRC는 2 계층 스위치만으로 13만 1,000개 GPU를 완전 연결할 수 있다. 동시에 필요한 전력을 줄이고 장애 지점을 감소시킨다.

패킷 분산으로 혼잡 제거

기존 AI 훈련 프로토콜은 각 데이터 전송을 단일 경로로 제한한다. 패킷이 순서대로 도착해야 메모리에 기록되기 때문이다. 그러나 이 방식은 멀티플레인 네트워크에서 심각한 병목을 만든다. 여러 흐름이 같은 링크에 충돌해 혼잡을 유발하고, 각 흐름은 8개 평면 중 1개만 사용한다.

MRC는 이 패러다임을 근본적으로 바꾼다. 단일 데이터 전송의 패킷들을 수백 개 경로에 동시 분산시킨다. 패킷이 순서대로 도착하지 않아도, 각 패킷이 최종 메모리 주소를 포함하므로 도착하는 순서대로 메모리에 기록된다.

이렇게 트래픽을 많은 경로에 분산하면 네트워크 핫스팟이 사라진다. AI 훈련 같은 동기식 워클로드는 최악의 지연 시간에 민감하므로, 이 개선은 훈련 속도 향상으로 직결된다.

실패 격리로 중단 시간 최소화

각 MRC 연결은 사용하는 많은 경로들의 상태 정보를 유지한다. 경로 장애를 감지하면 자동으로 다른 경로로 우회한다. SRv6 기반 소스 라우팅을 통해 특정 스위치나 링크 장애를 미리 우회하므로, 라우팅 재계산 중단 시간을 거의 제거한다.

기존 방식에서는 링크 장애가 훈련 작업 중단으로 이어졌고, 저장된 체크포인트에서 다시 시작해야 했다. MRC는 전체 경로 우회를 통해 링크 장애로 인한 서비스 중단을 격리하는 방식이다.

이미 Stargate에 배포 완료

오픈AI는 이미 MRC를 모든 대규모 NVIDIA GB200 슈퍼컴퓨터에 배포했다. 오라클 클라우드 인프라(OCI) 텍사스 에이블린 데이터센터와 마이크로소프트 페어워터 슈퍼컴퓨터에서 다중 오픈AI 모델 훈련에 사용 중이다. 하드웨어는 엔비디아와 브로드컴 제품을 활용했다.

오픈AI는 MRC 사양을 OCP 기여안으로 공개하면서 동시에 "Resilient AI Supercomputer Networking using MRC and SRv6"라는 기술 논문도 발표했다.

업계 표준화의 신호

이 움직임은 오픈AI의 광범위한 컴퓨팅 전략의 일환이다. 오픈AI는 "핵심 인프라 계층의 공유 표준이 AI 시스템의 확장을 더 효율적이고 신뢰할 수 있게 하며, 더 광범위한 파트너 생태계를 가능하게 한다"고 강조했다.

종전까지 AI 슈퍼컴퓨팅의 네트워킹은 각 업체의 폐쇄형 독자 기술에 의존했다. MRC의 공개는 업계 표준화의 틀을 제시하는 신호다. AMD, 인텔, 엔비디아, 마이크로소프트 같은 경쟁사들이 함께 개발에 참여했다는 점 자체가 AI 인프라 경쟁의 패러다임 전환을 보여준다.

더 빠르고 더 신뢰할 수 있는 네트워크 표준은 결국 모든 AI 업계 플레이어에게 이익이라는 산업 공감대가 형성되고 있다. 이는 AI 모델 경쟁에서 오픈AI가 인프라 표준 리더십으로 전환하려는 시도로도 읽힌다.

한국의 SK하이닉스, 삼성전자 같은 메모리·반도체 기업들도 향후 대규모 AI 인프라 수주에서 MRC 호환성이 경쟁력 요소로 작용할 가능성이 높다.

편집 안내 | 이 기사는 AI 기술을 활용하여 글로벌 뉴스 소스를 분석·종합한 후, AIB프레스 편집팀의 검수를 거쳐 발행되었습니다. 정확한 정보 전달을 위해 노력하고 있으며, 원문 출처를 함께 제공합니다.

엔비디아
AI 인프라
오픈AI
MRC 네트워킹
슈퍼컴퓨터

관련 기사