dev_tools
14분 읽기

GitHub 5월 9건 장애 공개, Azure 이전으로 '구조적 신뢰성' 강화 중

GitHub가 5월 가용성 보고서를 공개하며 9건 인시던트를 공시했다. Azure 이전 40% 달성과 데이터베이스 격리를 통해 구조적 신뢰성을 강화하고 있으며, 향후 '가용성 → 용량 → 기능' 우선순위를 재정렬했다.

AIB프레스 편집팀
2026.06.11
GitHub 5월 9건 장애 공개, Azure 이전으로 '구조적 신뢰성' 강화 중

GitHub가 5월 월간 가용성 보고서를 11일 공개하며, 지난달 9건의 인시던트로 인한 서비스 저하를 공식 공시했다. 동시에 마이크로소프트 Azure로의 인프라 이전을 40% 달성하고, 데이터베이스 격리를 통한 구조적 장애점 제거에 박차를 가하고 있음을 밝혔다.

GitHub에 따르면 AI 개발 워크플로우와 에이전트 기반 개발의 급증으로 트래픽이 급증하면서 기존 아키텍처의 한계가 드러났다. 현재 단일 아키텍처에서 벗어나 마이크로서비스 기반으로 전환하는 중이다.

Azure 이전, 4개월간 처리량 2배 이상 증가

GitHub는 인프라 현대화 진행 상황을 상세히 공개했다. 모놀리스 트래픽의 40%(2월 대비 8%→40%)가 Azure에서 처리 중이며, Git 트래픽은 30%, 저장소 복제(replication)는 99% 수준까지 이전을 완료했다.

이 같은 노력으로 4개월간 실제 처리 용량(effective capacity)을 두 배 이상 확보했다. 특히 주요 데이터베이스 클러스터의 격리 작업이 핵심이다. 사용자(users), 인증(authentication), 권한 부여(authorization)를 독립적 도메인으로 분리해 한 영역의 장애가 전체 플랫폼으로 확산되는 것을 원천 차단하고 있다.

신규 사용자 서비스는 완전히 전환되었으며, 이전보다 2배 많은 트래픽을 처리하면서도 데이터베이스 비용은 대폭 절감했다. 또한 무상태 인증 토큰(stateless authentication tokens)을 도입해 매 요청마다 데이터베이스를 조회해야 하는 과정을 없앴다. 트래픽 급증 시 데이터베이스 부하를 키우던 근본 원인을 제거한 것이다.

GitHub는 "가용성을 최우선으로, 그 다음 처리 용량, 그 다음 기능"이라는 원칙으로 우선순위를 정했다고 설명했다.

5월 9건 인시던트, 데이터베이스와 구성 오류 주원인

5월 4일 오후 3시 34분부터 4시 40분 UTC까지 약 1시간 6분간 Pull Request 서비스가 상태 '적색'으로 표시되는 장애가 발생했다. 이슈, Actions, 웹훅, Git 작업 등이 높은 지연시간을 기록했고, Codespaces, Pages, Packages, OAuth, GitHub Apps, Copilot 등 연관 서비스도 영향을 받았다. 피크 시점에 약 1.3%의 요청이 500번대 에러를 반환했다.

원인은 대규모이고 접근 빈도가 높은 데이터베이스 테이블에 대한 정기적 온라인 스키마 마이그레이션 중 트래픽 피크가 겹치면서 데이터베이스 연결 용량이 포화된 것이었다. 마이그레이션 감지에 약 3분이 소요됐고, 중단 후 약 33분 뒤에 상황을 완화했으며, 완전 복구까지 약 30분이 더 걸렸다.

GitHub는 향후 대규모 고트래픽 테이블 마이그레이션을 저트래픽 시간대에만 진행하고, 동적 쓰로틀링(dynamic throttling)으로 실시간 클러스터 부하에 적응하도록 개선할 예정이다. 또한 자동 회로 차단기(circuit breaker)를 추가해 데이터베이스 지연시간이나 연결 사용률이 안전 기준을 초과하면 마이그레이션을 자동으로 중단하기로 했다.

5월 5~6일에는 GitHub Actions 호스팅 러너(hosted runner)가 두 건의 연관 인시던트로 저하됐다. 5월 5일 오후 1시 22분부터 5시 5분 UTC까지 East US 지역 러너 중 표준 러너 요청의 약 13.5%, 대형 러너의 약 16%가 실패했거나 5분 이상 지연됐다. Copilot 코드 리뷰 기능도 영향받아 약 8,500건이 타임아웃됐다.

원인은 East US 지역 VM의 확장 작업 중 VM 생성이 저장소(storage)에서 이미지를 가져올 때 내부 속도 제한(rate limit)에 걸렸다. 기존 재시도 로직(backoff logic)이 작동하지 않았다. 부하를 줄인 뒤 약 1시간 30분 뒤인 오후 3시 34분부터 대부분 복구되어 5시 5분에 완전 정상화됐다.

이튿날인 5월 6일 오전 6시 45분부터 9시 15분 UTC까지 Ubuntu 표준 러너 약 17.1%가 다시 실패했다. 전날 장애 해결 과정에서 도입된 구성 데이터(configuration data)가 신규 할당을 차단하면서 일어난 것이었다. 오전 8시 51분에 문제 데이터를 제거해 복구했다.

GitHub는 속도 제한 발생 시 시스템의 쓰로틀링 동작을 개선하고, 할당 차단 발생 시 즉시 경고를 보내는 모니터링을 강화하기로 했다.

5월 6일 오전 11시 2분부터 13분 UTC까지는 Copilot 클라우드 에이전트 및 원격 세션 시작·조회가 불가능했다. 세션 API 요청이 모두 오류를 반환했다. 네트워크 라우팅 구성 변경이 실수로 서비스의 수신 경로를 제거한 것이 원인이었다. 13분에 설정을 되돌려 복구됐고, 오전 11시 59분에 완전 정상화 확인했다.

신뢰성이 기능보다 우선인 시대

이번 보고서의 핵심은 GitHub의 우선순위 재정렬이다. 과거 기능 추가에 집중했다면, 이제는 구조적 안정성을 먼저 달성한 뒤 용량을 확보하고 기능을 더하는 순서로 전환했다.

AI 개발 워크플로우의 급증은 모놀리식 아키텍처의 약점을 노출했다. 한 영역의 장애가 전체로 퍼지는 구조에서는 아무리 리소스를 추가해도 근본 해결이 어렵다. Azure로의 이전과 마이크로서비스 분리는 장기적 관점의 구조 개선이다.

GitHub가 월간 보고서를 공식화한 것도 의미가 있다. 과거 대형 장애 후 사후 분석(postmortem)을 공개하는 관행에서 벗어나, 정기적 투명성 공개로 사용자 신뢰를 회복하려는 의도로 보인다. 이는 엔터프라이즈급 개발 플랫폼으로서의 위상을 다시 정의하는 신호다.

편집 안내 | 이 기사는 AI 기술을 활용하여 글로벌 뉴스 소스를 분석·종합한 후, AIB프레스 편집팀의 검수를 거쳐 발행되었습니다. 정확한 정보 전달을 위해 노력하고 있으며, 원문 출처를 함께 제공합니다.

인프라
GitHub
Azure
마이크로서비스
장애 분석
시스템 안정성

AI·테크 핵심 뉴스, 매주 한 통으로

한 주의 글로벌 AI·IT 뉴스 중 꼭 알아야 할 것만 골라 보내드립니다. 광고 없음, 언제든 해지.

관련 기사