GitHub, 4월 10건 장애 투명공개...DNS 문제가 가장 심각
GitHub이 4월 경험한 10건 장애 사건을 투명하게 공개했다. DNS 인프라 장애로 트래픽 5~7% 영향, 대규모 스크래핑 공격으로 검색 서비스 포화, Copilot 레이트 제한 버그 등이 주요 사건. 각 장애 원인과 개선 방안을 상세히 공개해 개발자 신뢰 회복을 도모하고 있다.

GitHub이 지난 4월 경험한 전체 장애 사건 10건을 상세히 공개했다. 지난 14일 공식 블로그를 통해 공개한 '4월 가용성 보고서(April Availability Report)'에 따르면, 코드 검색(Code Search), Copilot 에이전트, GitHub Pages, Codespaces, 프로젝트 보드, Copilot Chat, 웹훅(Webhooks), Git 작업 등 여러 서비스에서 장애가 발생했다.
DNS 인프라 장애, 트래픽 5~7% 영향
4월 23일 발생한 DNS 인프라 장애가 여러 서비스를 함께 영향시켰다. 데이터센터 내 DNS 인프라가 저하된 상태에 진입해 주소 해석(name resolution)에 실패하면서 전체 트래픽의 5~7%가 영향을 받았다. Copilot 모델 요청 7%, Copilot 클라우드 에이전트 세션 10%, 웹훅 API 요청 0.35% 등이 오류를 반환했다. 특히 Git 작업은 평균 1.25%의 오류율을, GitHub Actions 워크플로우는 최대 8초의 지연을 경험했다.
GitHub 엔지니어링 팀은 "최근 도입된 트래픽 분산 메커니즘이 특정 로드 패턴 하에서 DNS 리졸버 실패를 유발했다"고 설명했다. DNS 캐싱이 부분적 보호 역할을 해 완전히 중단되지 않았다. 문제 해결에는 약 1시간 30분이 소요됐다.
검색 서비스와 Copilot 에이전트 장애
4월 27일에는 검색 서비스 로드 밸런서가 포화 상태에 진입했다. 600개 이상의 고유 IP 주소에서 공격적으로 수집(scraping) 트래픽이 유입된 것이 원인이었다. 이 비정상 트래픽이 당일 총 검색 트래픽의 30%를 차지했으나, 불과 4시간 내에 집중됐다. Issues, Pull Requests, Projects, Repositories, Actions, Package Registry, Dependabot Alerts 등 검색 데이터를 의존하는 서비스들이 최대 65% 타임아웃 또는 오류 반환을 경험했다.
Copilot 에이전트 서비스도 4월 9일 레이트 제한(rate limiting) 로직 버그로 2시간 이상 부분 장애를 겪었다. 버그가 모든 사용자에게 글로벌하게 제한을 적용하는 문제였다. 약 84%의 새 에이전트 세션 요청이 지연됐고, 대기열 시간이 최악의 경우 54분까지 증가했다(정상 기준: 15~40초).
4월 22일에는 Copilot Chat과 Copilot Cloud Agent가 데이터베이스 연결 문제로 약 3시간 45분간 접근 불가 상태가 됐다.
인덱싱 문제와 자동화 버그
4월 초반 코드 검색은 중단됐다. 4월 1일 메시징 시스템 인프라 업그레이드 도중 자동화된 변경이 과도하게 적용되면서 내부 서비스 간 조정 실패(coordination failure)가 발생했다. 코드 검색 인덱싱이 중단되고, 약 2시간 20분간 검색 요청 100%가 실패했다. 메시징 인프라를 복구하고 검색 인덱스를 재설정하는 데 약 9시간이 필요했다. 다행히 검색 인덱스는 Git 저장소에서 파생된 보조 인덱스일 뿐 저장소 데이터는 손실되지 않았다.
GitHub Pages 서비스도 4월 13일 DNS 관리 도구 버그로 약 40분간 약 1,750만 건의 요청이 실패했다. 자동 DNS 관리 도구가 잘못된 데이터 소스를 바탕으로 스토리지 호스트용 DNS 레코드를 삭제한 것이 원인이었다.
가장 장시간 지속된 장애는 4월 20일 코드 스캔 및 프로젝트 보드 서비스 중단으로, 약 15시간 36분 동안 신규 풀 요청에서 코드 스캔 분석이 트리거되지 않았다.
인프라 안정성 강화 계획
GitHub 엔지니어링 팀은 각 장애에 대해 구체적 개선 방안을 제시했다. DNS 인프라 복구력 강화, 더 안전한 인프라 변경 배포 검증 환경 구축, 자동 감지 및 복구 메커니즘 투자, 공유 인프라 의존성 축소 등이 포함된다. 특히 대규모 스크래핑 공격 대응 강화를 위해 익명 트래픽을 제한할 수 있는 모니터링 및 제어 메커니즘을 추가했다.
이번 투명한 사건 공개는 개발자 신뢰 유지라는 GitHub의 전략을 반영한다. 장애 원인을 기술적으로 상세히 설명하고 후속 개선 계획까지 공개함으로써 사용자 신뢰를 회복하려는 의도다. 한국의 개발팀들도 GitHub을 주요 협업 플랫폼으로 활용하는 만큼, 이러한 인프라 안정성 정보는 엔터프라이즈 도입 판단에 중요한 참고 자료가 될 것으로 보인다.
편집 안내 | 이 기사는 AI 기술을 활용하여 글로벌 뉴스 소스를 분석·종합한 후, AIB프레스 편집팀의 검수를 거쳐 발행되었습니다. 정확한 정보 전달을 위해 노력하고 있으며, 원문 출처를 함께 제공합니다.


