엔비디아, 'AI 팩토리' 공개...토큰 생산 비용 35배 절감 시대
엔비디아가 AI 인프라의 새로운 패러다임 'AI 팩토리'를 공식 제시했다. 에너지를 토큰으로 변환하는 연속 생산 시설인 AI 팩토리는 블랙웰 울트라 GPU로 토큰 비용 35배 절감, 처리량 50배 증가를 실현한다. 자율 에이전트 시스템의 상시 추론 워클로드에 대응하도록 설계된 이 인프라는 와트당 성능이 경쟁력의 핵심 지표로 부상하면서 AI 경제 구조를 재편할 전망이다.

에너지에서 지능으로, 새 인프라 시대의 개막
엔비디아가 AI 인프라의 새로운 패러다임으로 'AI 팩토리'를 공식 제시했다. 산업 시대의 발전소가 에너지를 전기로 변환했다면, AI 시대의 AI 팩토리는 에너지를 토큰(token)으로 변환하는 지속적 생산 시설을 뜻한다. 엔비디아는 "AI는 더 이상 단순한 소프트웨어가 아니라 필수 인프라"라며 토큰 초당 처리량, 와트당 토큰 효율, 토큰당 비용을 AI 팩토리의 핵심 경제 지표로 설정했다.
AI 팩토리는 수십억 개의 요청을 동시에 처리하는 대규모 컴퓨팅 자원을 소프트웨어로 조율한다. 자율 에이전트 시스템이 24시간 지속적으로 추론하고 의사결정을 내리도록 설계됐으며, 추론 모델과 에이전트의 성능이 곧 수익으로 직결된다. 엔비디아는 자사 언어모델 네모트론(Nemotron)을 포함한 오픈소스 모델들이 기업별 특화 요구에 맞춰 최적화되고 AI 팩토리 위에서 안전하게 배포될 수 있다고 설명했다.
자율 에이전트가 바꾸는 워클로드
기존 AI 추론은 사용자 프롬프트에 답하는 것이 주였다면, AI 팩토리 시대의 워클로드는 본질적으로 다르다. 자율 에이전트는 추론하고 계획을 세우며 검색, 도구 활용, 데이터 검색, 코드 작성, 그리고 직접 행동까지 수행한다. 더욱 흥미로운 점은 이들이 스스로 하위 에이전트를 생성해 특정 영역의 도구 사용법을 학습하고 독자적 AI 능력을 개발한다는 것이다.
이러한 다중 에이전트 시스템은 추론 과정을 길고 깊게 만들며, 계산 집약도를 크게 증가시킨다. 따라서 AI 팩토리 인프라는 단순히 높은 처리 속도뿐 아니라, 워크플로우의 각 단계가 효율적으로 연결되도록 유지해야 한다. 다음 추론, 다음 행동, 다음 의사결정으로 지능 생산이 끊기지 않아야 하는 것이다.
풀스택 코디자인으로 통합 최적화
AI 팩토리가 상시 추론 워클로드를 감당하려면 가속 컴퓨팅과 고속 메모리, 맥락 저장을 위한 스토리지, 조율을 위한 네트워킹, 오케스트레이션 소프트웨어, 그리고 실행을 위한 CPU가 모두 유기적으로 작동해야 한다. 엔비디아는 이를 "극단적 코디자인(extreme codesign)"이라 부르며, 하드웨어·네트워킹·메모리·스토리지·소프트웨어가 함께 설계되고 모든 계층에서 지속적으로 최적화되어야 한다고 강조했다.
인프라의 이용률을 높이고 토큰당 비용을 낮추며 처리량을 극대화하는 것이 목표다. 이는 상시 인터랙티브 AI 워클로드의 응답성과 처리 효율성의 균형을 맞춰야 함을 의미한다.
실시간 오케스트레이션이 핵심 과제다. 요청 라우팅, 메모리 관리, 서비스 조율, 지연과 처리량의 균형, 스택 전체의 이용률 유지 등을 모두 동시에 수행해야 한다. 소프트웨어 계층의 중요성이 극도로 높아진 것이다. 팩토리가 얼마나 효율적으로 운영되느냐가 곧 생산되는 지능의 양과 창출하는 가치를 결정한다.
와트당 성능, 경쟁력의 새로운 척도
AI 컴퓨팅에서 "와트당 성능(performance per watt)"이 AI 팩토리 경쟁력의 최종 지표로 부상했다. 과거 데이터센터는 파일을 저장했지만, 지금의 AI 팩토리는 토큰을 생산한다. AI 서비스 기업에게 이 생산량은 수익에 직결되고, 기업 고객에게 토큰당 비용은 AI 수익성을 결정한다.
엔비디아는 블랙웰 울트라 GPU가 토큰 생산 비용을 가장 낮춘다고 발표했다. 구체적으로 NVIDIA GB300 NVL72 시스템은 이전 세대 대비 메가와트당 토큰 처리량을 50배 증가시키고, 호퍼(Hopper) 플랫폼 대비 토큰당 비용을 35배 절감하는 것으로 나타났다. 와트당 더 많은 토큰을 생산할 수 있다면, 인프라 비용, 공간, 전력 대비 처리량이 모두 향상되는 것이다.
블랙웰 울트라로 구성한 AI 팩토리는 메가와트당 처리량을 최대 50배 높일 수 있으며, 이는 토큰당 비용 35배 절감으로 이어진다. 엔비디아의 다이나모(Dynamo) 프레임워크는 장문맥 추론과 대규모 추론 처리량을 조율하는 데 도움을 주며, 워클로드가 더욱 인터랙티브하고 복잡해질수록 이용률을 높게 유지한다.
베라 루빈으로 한 단계 더
엔비디아의 차세대 플랫폼인 베라 루빈(Vera Rubin)은 이 성능 곡선을 다시 한 번 높인다. 추론과 에이전트 AI 규모가 계속 증가하면서, 베라 루빈 기반 시스템은 LPX(Liquid Cooled Pod eXtended) 기술로 와트당 성능을 35배 향상시키고 더 깊은 풀스택 최적화를 통해 토큰 비용을 더 낮춘다. 결과적으로 팩토리 수준의 지능 생산 효율이 크게 증대된다.
칩에서 풀스택 에코시스템으로
엔비디아의 전략은 GPU 칩에서 출발했지만, 이제 가속 컴퓨팅, 고속 상호 연결, 액체냉각 시스템, 추론 소프트웨어, 자율 에이전트, 참고 아키텍처, 그리고 이를 대규모로 구축·운영할 수 있는 에코시스템 전체로 확대됐다. 시스코, 델, HPE, 레노보 같은 글로벌 시스템 파트너들과 긴밀하게 협력하며 완전한 AI 팩토리 솔루션을 정의하고 구축하고 있다.
한국 데이터센터 산업의 과제
이 패러다임 전환은 한국 클라우드·데이터센터 사업자들에게 중대한 의미를 갖는다. 토큰 비용이 AI 서비스의 수익성을 좌우하는 지표로 확립되면서, 국내 기업들이 보유한 인프라의 에너지 효율과 풀스택 최적화 능력이 글로벌 경쟁력의 핵심이 될 것이다. 네이버, 카카오, SK 등 국내 대형 기술 기업들이 자체 AI 팩토리를 구축하거나 고도화할 때, 단순한 GPU 증설을 넘어 소프트웨어 오케스트레이션과 에너지 효율 최적화에 투자해야 한다는 과제가 명확해졌다.
편집 안내 | 이 기사는 AI 기술을 활용하여 글로벌 뉴스 소스를 분석·종합한 후, AIB프레스 편집팀의 검수를 거쳐 발행되었습니다. 정확한 정보 전달을 위해 노력하고 있으며, 원문 출처를 함께 제공합니다.
AI·테크 핵심 뉴스, 매주 한 통으로
한 주의 글로벌 AI·IT 뉴스 중 꼭 알아야 할 것만 골라 보내드립니다. 광고 없음, 언제든 해지.


