big_tech
10분 읽기

엔비디아 블랙웰, 에이전트AI 성능 벤치마크서 호퍼 대비 20배 우수

엔비디아의 블랙웰 아키텍처 기반 GB300 NVL72 플랫폼이 업계 첫 에이전트AI 성능 벤치마크 'AgentPerf'에서 호퍼 대비 메가와트당 20배 많은 에이전트 동시 실행을 달성했다. 에이전트AI는 기존 생성형AI와 달리 수십~수백 개의 LLM 호출을 연쇄적으로 수행하는 복잡한 워클로드로, 새로운 성능 측정 표준이 필요했다. Together AI와 DeepInfra 등 주요 추론 제공업체들이 이미 블랙웰에서 실제 에이전트 애플리케이션을 운영 중이다.

AIB프레스 편집팀
2026.06.12
엔비디아 블랙웰, 에이전트AI 성능 벤치마크서 호퍼 대비 20배 우수

엔비디아가 에이전트AI 인프라 성능을 측정하는 첫 번째 벤치마크에서 자사 블랙웰(Blackwell) 초극대형 컴퓨팅 시스템이 전 세대 호퍼 대비 20배 높은 에너지 효율을 달성했다고 밝혔다.

12일(현지시간) 엔비디아 공식 블로그에 따르면, 인공지능 성능 분석 업체 '아티피셜 애널리시스'가 개발한 'AgentPerf' 벤치마크의 첫 결과에서 GB300 NVL72 플랫폼이 메가와트당 최대 20배 많은 에이전트를 동시에 실행할 수 있는 것으로 측정됐다.

에이전트AI, 기존 생성형AI와 완전히 다른 워클로드

에이전트AI는 챗봇 같은 일회적 대화형 AI와 근본적으로 다르다. 대화형 AI는 사용자 질문 하나에 LLM(대규모언어모델) 한 번 호출로 답변하는 '스프린트'다. 반면 에이전트는 목표를 여러 단계로 쪼개 반복적으로 진행하는 '릴레이'다.

에이전트는 수십 개에서 수백 개의 LLM 호출을 연쇄적으로 엮으며, 각 단계마다 코드 컴파일·데이터베이스 검색·웹 브라우징 같은 도구 호출을 섞어낸다. 이 과정에서 컨텍스트(문맥)는 단계마다 계속 커진다. 복잡도는 단순 누적이 아니라 기하급수적으로 증가한다.

기존 AI 추론 벤치마크는 단일 LLM 호출의 응답 속도와 동시 처리 능력만 측정했으므로, 에이전트처럼 연쇄 호출·도구 지연·증가하는 컨텍스트를 다루는 워클로드와는 완전히 다르다. 따라서 새로운 벤치마크가 절실했다.

블랙웰의 20배 성능 우위, 풀스택 코설계에서 나온다

이번 벤치마크에서는 현대 강력한 에이전트를 구동하는 'DeepSeek V4 Pro'(혼합 전문가 모델·MoE)를 기준으로 성능을 측정했다. GB300 NVL72는 초당 20개 토큰(응답속도 기준)과 60개 토큰 모두에서 호퍼 기반 HGX H200 시스템을 크게 앞질렀다.

성능 우위의 원동력은 GPU부터 소프트웨어까지 전체 스택의 통합 설계다.

GB300 NVL72는 72개 GPU를 하나의 랙 규모 시스템으로 연결해 DeepSeek V4 Pro 같은 대규모 MoE 모델을 효율적으로 분산 실행할 수 있다. NVIDIA의 CUDA 커널은 통신과 계산을 겹쳐 처리해 전문가 간 조정 비용을 숨긴다. TensorRT LLM 소프트웨어는 입력과 출력 처리를 분리해 각각 독립적으로 최적화하므로 동시 에이전트 세션이 늘어도 효율이 유지된다.

AgentPerf, 실제 에이전트 작업에서 비롯된 벤치마크

AgentPerf는 실제 코딩 에이전트가 수행하는 궤적을 바탕으로 설계됐다. 공개 코드 저장소(12개 이상 프로그래밍 언어)에서 에이전트가 파일을 읽고, 코드를 작성·수정하고, 명령을 실행하며 결과에 따라 반복하는 실제 워크플로우를 반영했다. 도구 호출은 실행되지 않고 실제 CPU 처리 시간으로 시뮬레이션되므로, 결과 차이는 순전히 가속 컴퓨팅 성능의 차이를 반영한다.

측정값은 바로 인프라 의사결정으로 이어진다. "얼마나 많은 동시 에이전트 작업을 GPU당·메가와트당 실행할 수 있는가"라는 질문에 직결되기 때문이다. 기업이 에이전트를 대규모 배포할 때 이 수치가 투자 대비 실제 생산성을 결정한다.

파트너사들이 블랙웰에서 에이전트 워클로드 가동 중

Baseten·DeepInfra·Together AI 같은 추론 제공 업체들이 이미 블랙웰에서 DeepSeek V4 Pro 같은 대형 모델을 이용한 에이전트 워클로드를 서빙 중이다.

Together AI는 AI 기반 코딩 플랫폼 'Cursor'의 실시간 추론을 블랙웰에서 구동하는데, Cursor 에이전트는 버그를 디버깅하고 기능을 생성하며 리팩토링을 수행하면서 개발자들이 계속 일할 수 있게 한다. DeepInfra는 자동차 딜러십용 AI 워크포스 플랫폼 'Pam.ai'를 블랙웰 전 구간에서 배포 중이다. 약속 예약·통화 처리·아웃바운드 영업을 모두 에이전트로 자동화한다.

엔비디아는 향후 베라 루빈(Vera Rubin) 차세대 아키텍처를 풀 생산에 올려 에이전트AI 대규모 운영 수요를 더욱 뒷받침할 계획이다.

편집 안내 | 이 기사는 AI 기술을 활용하여 글로벌 뉴스 소스를 분석·종합한 후, AIB프레스 편집팀의 검수를 거쳐 발행되었습니다. 정확한 정보 전달을 위해 노력하고 있으며, 원문 출처를 함께 제공합니다.

벤치마크
블랙웰
AI인프라
엔비디아
에이전트AI
가속컴퓨팅

AI·테크 핵심 뉴스, 매주 한 통으로

한 주의 글로벌 AI·IT 뉴스 중 꼭 알아야 할 것만 골라 보내드립니다. 광고 없음, 언제든 해지.

관련 기사