dev_tools
14분 읽기

클라우드플레어, UEFI 펌웨어 최적화로 코어 서버 부팅 시간 4시간→수분 달성

클라우드플레어가 자사 코어 데이터센터의 베어메탈 서버 부팅 시간을 4시간에서 수분으로 단축했다. UEFI 펌웨어 업데이트 후 네트워크 부팅 인터페이스를 선형 탐색하면서 각 시도마다 5분씩 대기하는 문제가 발생했는데, 올바른 부팅 인터페이스를 미리 선언하고 자동화 워크플로우를 재구성함으로써 해결했다.

AIB프레스 편집팀
2026.06.01
클라우드플레어, UEFI 펌웨어 최적화로 코어 서버 부팅 시간 4시간→수분 달성

클라우드플레어, UEFI 펌웨어 최적화로 코어 서버 부팅 시간 4시간→수분 달성

클라우드플레어가 자사 코어 데이터센터의 베어메탈 서버 부팅 시간을 4시간에서 수분으로 단축했다. 2026년 6월 1일 공개한 기술 블로그에서 이 성과의 배경과 해결 과정을 상세히 설명했다.

펌웨어 업데이트가 일으킨 부팅 지연

클라우드플레어 코어는 제어 평면, 청구, 분석을 담당하는 중앙집중식 데이터센터다. 엣지 네트워크와 달리 코어 서버는 베어메탈 환경이며, 재부팅 중 문제가 발생하면 전체 시스템에 연쇄 영향을 미친다.

사건은 일상적인 UEFI(Unified Extensible Firmware Interface) 펌웨어 업데이트 직후 발생했다. 보통 몇 분이면 충분한 부팅 과정이 갑자기 4시간으로 늘어났다. Gen12 플릿(약 2,000대)이 모두 영향을 받았고, 예정된 1일 플릿 전체 롤아웃이 여러 날로 늘어났다. 신규 장비는 초기 부팅부터 이 4시간 지연을 겪어야 했다.

근본 원인: 네트워크 부팅 인터페이스의 선형 탐색

클라우드플레어 엔지니어링팀이 서버의 직렬 콘솔에서 부팅 과정을 실시간으로 관찰하면서 원인이 확인되었다.

UEFI 펌웨어의 Power On Self Test(POST)는 정상 완료됐고, 하드웨어 초기화도 양호했다. 그런데 네트워크 부팅 단계로 넘어가는 순간, 문제가 터졌다.

콘솔 출력을 보니 시스템이 다음 순서대로 모든 네트워크 부팅 인터페이스를 순차 탐색하고 있었다:

  1. IPv4 HTTPS 네트워크 부팅 시도 → 약 5분 타임아웃
  2. IPv4 iPXE(오픈소스 네트워크 부팅 펌웨어) 시도 → 약 5분 타임아웃
  3. 위 두 가지 재시도 → 각각 약 5분 타임아웃
  4. IPv6 HTTPS 부팅 인터페이스 → 성공 (처음 20분 낭비 후)

한 번의 부팅 사이클마다 약 20분이 소요되었다. 펌웨어 업그레이드는 각 컴포넌트마다 리부팅을 필요로 하는데, 여러 번의 리부팅이 누적되면서 총 부팅 시간이 4시간에 달한 것이다.

해결책: 올바른 부팅 인터페이스 선언

근본 원인이 파악되자 해결책은 단순했다. 올바른 부팅 인터페이스를 미리 선언해서, 시스템이 처음부터 정확한 경로로만 가도록 강제하는 것이다.

그러나 실행은 녹록지 않았다. 클라우드플레어가 직면한 세 가지 기술적 장애물을 극복해야 했다.

1. 부팅 자동화 워크플로우 재구성

클라우드플레어의 부팅 자동화는 펌웨어 초기화 → PXE 전-부팅 환경 → 커널 시작 3단계로 구성된다. PXE 단계에서 네트워크 인터페이스를 탐색하는데, 이때 부팅 인터페이스 순서를 명시하지 않고 있었다.

워크플로우를 재구성해 PXE 전-부팅 단계 초반부터 각 하드웨어와 사용 사례별로 네트워크 부팅 인터페이스 순서를 명시하도록 변경했다. 이 조치만으로도 약 1시간을 단축했다. 각 펌웨어 업그레이드마다 20분씩 낭비하던 탐색 과정이 제거된 덕분이다.

2. UEFI 버전 호환성과 설정 지속성 문제 해결

부팅 인터페이스 순서 선언을 시도하면서 두 가지 제약이 발생했다:

  • 레거시 지원 문제: 구형 UEFI 버전은 부팅 순서 설정을 지원하지 않음
  • 설정 지속성 문제: UEFI 펌웨어 업그레이드 후 구성 설정이 초기화됨

클라우드플레어는 상태 검증 단계를 구현해 이를 해결했다. 펌웨어 자동화가 설정 변경 후 구성을 검증하고, 설정이 수정되었음을 감지하면 자동으로 다시 적용하고 리부팅을 유발하는 방식이다.

이렇게 하면 초기 부팅은 약간 오래 걸리지만, 이후의 모든 부팅 시간이 약 20분에서 1분 미만으로 단축된다.

3. 벤더 제한으로 인한 부팅 순서 설정 비활성화

추가적인 최적화 과제도 있었다. 일부 벤더의 하드웨어에서는 부팅 순서 설정을 의도적으로 비활성화하고 있었다. 이는 특정 사용 사례에서 부팅 인터페이스 선택을 강제하려는 의도로 보인다.

클라우드플레어는 시스템 BIOS 설정 변경으로 이 제약을 해결했으며, 다양한 네트워크 인터페이스 카드 벤더의 서로 다른 문자열 형식(ASCII, UTF-16 등)을 처리하는 호환성 계층을 구현했다.

산업적 함의: 저수준 최적화의 누적 효과

이 사례는 클라우드 규모의 인프라 운영에서 저수준 최적화가 얼마나 큰 효과를 낼 수 있는지 보여준다.

개별 서버 입장에서는 20분이 5분으로 줄어든 것이지만, 2,000대 규모의 플릿이 빈번한 펌웨어 업그레이드를 거치는 환경에서는 누적 효과가 크다. 엔지니어링 인력의 수동 대기 시간이 줄어들고, 데이터센터 전환 시간이 단축되며, 신규 용량 배포가 빨라진다.

특히 UEFI 펌웨어 같은 저수준 컴포넌트에서 벌어지는 비효율을 탐지하기 위해서는 직렬 콘솔 모니터링과 부팅 시퀀스에 대한 이해가 필요하다. 클라우드플레어가 이 문제를 조기에 진단하고 해결한 것은 인프라 팀의 근본 원인 추적 능력을 시사한다.

한국 클라우드 운영팀의 시사점

국내 대규모 데이터센터 운영 업체나 클라우드 서비스 제공자도 유사한 UEFI 관련 이슈를 경험했을 가능성이 높다. 특히 자체 베어메탈 클라우드나 전용 인프라를 운영하는 조직이라면, 펌웨어 업그레이드 자동화 과정에서 이 같은 숨은 병목이 있는지 점검해볼 필요가 있다.

한국의 클라우드 엔지니어링 커뮤니티도 저수준 UEFI 최적화와 같은 기술 주제에 대한 공유를 확대하면, 국산 클라우드 인프라의 신뢰성과 효율성을 개선할 수 있을 것으로 기대된다.

클라우드플레어의 이번 최적화는 저수준 시스템 레벨의 개선이 전체 서비스 효율성으로 이어진다는 점을 보여준다.

편집 안내 | 이 기사는 AI 기술을 활용하여 글로벌 뉴스 소스를 분석·종합한 후, AIB프레스 편집팀의 검수를 거쳐 발행되었습니다. 정확한 정보 전달을 위해 노력하고 있으며, 원문 출처를 함께 제공합니다.

클라우드플레어
인프라 최적화
UEFI 펌웨어
부팅 성능
베어메탈 서버

관련 기사