엔비디아, AlphaGo 설계자와 강화학습 인프라 개발...AI 자율학습 시대 개막
엔비디아가 AlphaGo 개발자 데이비드 실버가 설립한 AI 연구소 'Ineffable Intelligence'와 강화학습 인프라 공동 개발에 나섰다. 기존 사전학습 방식에서 벗어나 AI 에이전트가 경험과 시뮬레이션으로부터 자율 학습하는 새로운 패러다임을 구현하기 위한 전략적 협력이다. Grace Blackwell 칩에서 시작해 Vera Rubin 플랫폼으로 확대될 예정이다.

엔비디아가 런던 기반 AI 연구소 'Ineffable Intelligence'와 강화학습(Reinforcement Learning) 인프라 공동 개발 계약을 체결했다. AlphaGo의 아키텍트 데이비드 실버(David Silver)가 설립한 이 연구소는 지난주 베일을 벗으며 이 협력을 함께 발표했다.
젠슨 황 엔비디아 회장 겸 CEO는 "차세대 AI의 경계선은 슈퍼러너(superlearner)—경험에서 지속 학습하는 시스템이다. Ineffable Intelligence와의 협력을 통해 대규모 강화학습 인프라를 함께 설계하며, 지능 시스템의 새 세대를 개척하는 그들의 여정을 지원하게 돼 영광이다"고 밝혔다.
경험에서 배우는 새로운 AI 패러다임
강화학습은 시행착오를 통해 학습하는 AI 에이전트를 의미한다. 기존 생성형 AI는 인간이 만든 데이터로 미리 학습하고(사전학습), 그것을 토대로 작동하는 방식이었다면, 강화학습은 실시간으로 데이터를 생성하며 지속 학습한다.
실버는 "지금까지 AI 연구는 더 쉬운 문제를 해결해왔다: 인간이 이미 아는 것을 시스템에 알려주는 것이다. 하지만 이제 더 어려운 문제로 나아가야 한다: 시스템 스스로 새로운 지식을 발견하도록 하는 것. 이는 경험에서 배우는, 완전히 다른 접근을 요구한다"고 강조했다.
까다로운 인프라 문제
강화학습 파이프라인은 기존 사전학습과 근본적으로 다르다. 사전학습은 고정된 데이터셋이 시스템을 일관되게 흐르지만, 강화학습은 시스템이 행동→관찰→평가→갱신을 촘촘한 루프에서 반복한다. 이는 네트워크 상호연결, 메모리 대역폭, 추론 성능에 전혀 다른 부하를 건다.
더구나 강화학습 시스템이 처리할 경험 데이터는 인간 언어나 인간 텍스트와 완전히 다른 형태다. 새로운 모델 아키텍처와 학습 알고리즘도 필요하다. 이것이 엔비디아와 Ineffable Intelligence가 집중하는 과제다.
Grace Blackwell에서 시작, Vera Rubin으로 진화
양 회사의 엔지니어들은 최적화된 학습 파이프라인 구축 방안을 함께 모색하고 있다. 현재 엔비디아 Grace Blackwell 칩에서 작업을 시작했으며, 향후 Vera Rubin 플랫폼의 초기 탐색 사례가 될 예정이다.
목표는 명확하다. 차세대 하드웨어와 소프트웨어 기술을 먼저 이해함으로써 AI 업계가 인간 데이터 기반에서 시뮬레이션과 경험 학습으로 전환할 때 필요한 인프라를 미리 확보하는 것이다. 이 인프라가 완성되면 복잡하고 풍부한 환경에서 강화학습의 규모를 전례 없는 수준으로 확대할 수 있고, 모든 지식 분야에서 획기적 발견을 이루는 에이전트들이 탄생할 것으로 기대된다.
편집 안내 | 이 기사는 AI 기술을 활용하여 글로벌 뉴스 소스를 분석·종합한 후, AIB프레스 편집팀의 검수를 거쳐 발행되었습니다. 정확한 정보 전달을 위해 노력하고 있으며, 원문 출처를 함께 제공합니다.


