big_tech
17분 읽기

NVIDIA, Cosmos 3로 물리 AI 개발 자동화…Agent Skills 공개

NVIDIA가 CVPR 2026에서 Cosmos 3 모델과 함께 물리 AI 연구 개발을 자동화하는 Agent Skills를 공개했다. 자율주행 신경 재구성, 비전 AI 합성 데이터 생성, 로봇 학습 시뮬레이션 자동화 등 워크플로우 도구로 연구 속도를 높인다. 이는 물리 AI 연구를 소수 기술팀에서 광범위 연구자로 확산하는 민주화 움직임이다.

AIB프레스 편집팀
2026.06.04
NVIDIA, Cosmos 3로 물리 AI 개발 자동화…Agent Skills 공개

NVIDIA가 CVPR 2026 컨퍼런스에서 물리 인공지능(AI) 연구 개발 과정을 자동화하는 Agent Skills 세트를 공개했다. 새 기능은 Cosmos 3 모델과 함께 자율주행, 로봇학, 비전 AI 분야의 워크플로우를 크게 단순화한다.

물리 AI의 숨겨진 병목: 워크플로우

물리 AI 모델 개발의 핵심 과제는 강력한 모델 구축 자체가 아니다. 실제 장애는 모델 주변의 전체 워크플로우 구성에 있다. 실제 세계 장면 복원, 엣지 케이스 시나리오 생성, 정책 훈련, 행동 평가, 빠른 반복 같은 작업들이 현재는 별개 도구들에 분산되어 있다. 연구자들이 이들을 직접 연결해야 하면서 실험 속도가 크게 떨어진다.

NVIDIA는 이 병목을 에이전트 기반 자동화로 해결한다. 새로운 skills는 연구자들이 AI 에이전트에게 이런 반복 작업들을 지시하게 한다. 모델 기능에서 확장 가능한 엔드-투-엔드 워크플로우로 이동하는 시간을 단축한다.

자율주행: 엣지 케이스 생성의 자동화

자율주행 연구의 오랫동안의 문제는 "롱테일" 현상이다. 드물지만 중요한 상호작용—이상한 도로 기하학, 조명 변화, 엣지 케이스 행동—들을 반복 수집하기는 어렵다. 그런데 훈련과 검증에는 필수적이다.

NVIDIA의 자율주행 skills은 연구자들이 에이전트에게 다음 작업들을 맡기게 한다:

  • 신경 재구성: 차량 플릿(fleet) 데이터에서 3D 장면 복원 자동화
  • 합성 시나리오 생성: 실제 데이터로 수집 불가능한 조건들 시뮬레이션

신경 재구성 skills은 플릿에서 수집한 영상을 편집 가능한 3D 장면으로 변환한다. NVIDIA OmniDreams (행동 조건부 생성 모델)는 시뮬레이션 루프에 실사 수준의 렌더링을 더해 정책 행동에 직접 반응하는 카메라 프레임을 실시간 생성한다.

또한 NVIDIA는 Alpamayo 2 Super를 발표했다. 320억 파라미터 오픈소스 비전-언어-행동(VLA) 모델로, 완전한 주행 스택 전역에서 추론·계획·행동을 수행해 안전한 레벨 4 자동주행 개발과 배포를 지원한다.

비전 AI: 합성 이상 현상 생성

비전 AI 연구의 병목은 데이터 다양성이다. 시각 조건, 물체 상태, 시간적 이벤트가 변할 때 모델이 어떻게 작동하는지 연구할 충분한 제어된 예시를 만들기 어렵다. 제로샷 이상 탐지, 합성 이상 생성, 소수샷 결함 인식 모두가 같은 데이터 벽에 부딪힌다.

Metropolis skills는 AI 에이전트가 시각 시나리오를 생성하도록 한다. 이상 현상, 데이터 증강, 의사 레이블링(pseudo-labeling)을 포함한다. Cosmos 3의 혼합 트랜스포머 아키텍처가 이를 뒷받침한다. 추론 트랜스포머가 관찰을 분석하고 명령어를 생성 타워에 전달한다.

실무적으로, 시각 검사 모델을 구축하는 연구자는 결함 이미지 생성 skill을 사용해 실제 이미지에서 여러 결함을 여러 표면에 생성할 수 있다. 워크플로우는 Isaac Sim, Cosmos 3, NVIDIA OSMO를 조합해 드문 시각 사례를 생성하고 모델 응답을 평가한다.

비디오 AI에서는 Metropolis VSS(video search and summarization) Blueprint skills, TAO, 비디오 증강 tools이 방대한 영상 데이터에서 인사이트를 추출하고 모델을 미세 조정하며 빌드-평가 루프를 자동화한다.

로봇: 시뮬레이션 워크플로우의 자동화

로봇에게 항법이나 조작 같은 기술을 가르치는 것은 반복에 달려 있다. 연구자들의 병목은 로봇 행동이 작업, 설정, 구체화(embodiment)에 걸쳐 어떻게 변하는지 이해할 충분한 제어 환경과 정책 롤아웃을 구축하는 것이다. 전통적으로는 시뮬레이션 환경, 작업 변형, 정책 훈련, 평가를 수동으로 연결해야 한다.

Isaac skills는 AI 에이전트가 다음 작업들을 자동화하게 한다:

  • 장면 준비, 시뮬레이션, 로봇 학습 전역의 공통 개발 단계
  • Isaac Sim 내에서 시뮬레이션 세션 실행, 장면 제작, 시뮬레이션 제어, 데이터 캡처, 환경 검증
  • Isaac Lab skills: 강화학습 설정, 훈련, 평가, 커스텀 환경 개발

Isaac mobility skills는 항법 워크플로우를 자동화한다 (장면 검색, USD 변환, 환경 등록, 잔차 강화학습, 정책 평가). Isaac Lab agentic workflows는 sim-to-sim과 sim-to-real 작업 (환경 구축, 물리 튜닝, 디버깅, 프로파일링)을 지원한다.

의료용 로봇 분야에서는 Cosmos-H-Surgical-Simulator가 실제 수술 데이터에서 직접 학습해 수술 로봇 정책 훈련과 평가를 위한 현실적 데이터를 생성한다. 손으로 설계한 물리 모델 대신 실제 데이터를 학습하면 시뮬-투-리얼 갭이 줄어든다.

Cosmos 3: 멀티모달 기초 모델의 통합

이 모든 skills의 기반에는 Cosmos 3이 있다. NVIDIA는 Cosmos 3을 "물리 AI를 위한 오픈 프론티어 모델"이자 세계 최초의 풀 오니모델로 설명한다. 시각 추론, 세계 생성, 행동 생성을 단일 모델에서 통합한다.

오픈 모델 공개 리더보드에서 선두를 차지했으며, 이 기초 모델은 물리 AI 개발을 위한 핵심 역량을 제공한다.

연구 기반 확대와 벤치마크

NVIDIA는 또한 연구 인프라도 확대하고 있다. NVIDIA Physical AI Dataset은 Hugging Face에서 1,500만 회 이상 다운로드됐고, Isaac GR00T X Embodiment Sim은 가장 많이 다운로드되는 로봇학 데이터셋 중 하나가 됐다.

새로운 데이터셋으로는 50시간의 휴머노이드-물체 상호작용 데이터인 GRAIL과, 로봇학, 물리학, 디지털 휴먼, 자율주행, 창고 안전, 공간 추론을 다루는 6개의 합성 영상 데이터셋이 있다.

또한 CVPR에서는 세 개의 새로운 오픈 벤치마크를 발표했다:

  • PAI-AV Reasoning Challenge: VLA 모델이 운전 결정을 인과관계 레이블로 설명하는 능력 평가
  • AlpaSim Closed-Loop End-to-End Driving Challenge: 실제 세계에서 복원한 시나리오에서 폐회로 시뮬레이션 내 자율주행 정책 테스트

의미와 향후

NVIDIA의 agent skills 공개는 물리 AI 연구의 민주화를 목표로 한다. 지금까지 각 단계가 분산된 도구에 흩어져 있어 기술력 있는 연구팀만이 전체 파이프라인을 자동화할 수 있었다. 이제 에이전트가 이 작업들을 맡아 연구자들은 핵심 알고리즘에 집중할 수 있다는 뜻이다.

NVIDIA의 기술—GPU, 오픈 모델, 시뮬레이션 프레임워크, CUDA 가속 라이브러리—는 CVPR 2026 수용 논문 대다수에서 인용됐다. 카네기멜론, 스탠퍼드, UC 버클리, 칭화대, 베이징대 등 주요 글로벌 연구 기관에서 광범위하게 채택되고 있다.

편집 안내 | 이 기사는 AI 기술을 활용하여 글로벌 뉴스 소스를 분석·종합한 후, AIB프레스 편집팀의 검수를 거쳐 발행되었습니다. 정확한 정보 전달을 위해 노력하고 있으며, 원문 출처를 함께 제공합니다.

NVIDIA
자율주행
Cosmos 3
물리 AI
Agent Skills

관련 기사