big_tech
10분 읽기

누스 리서치, 자가 개선형 AI 에이전트 '헤르메스' 공개...엔비디아 RTX 최적화

누스 리서치가 3개월 내 14만 깃허브 스타를 넘은 자가 개선형 AI 에이전트 '헤르메스'를 공개했다. 엔비디아 RTX PC와 DGX Spark에 최적화된 헤르메스는 자동으로 자신의 스킬을 작성·정제하며, 신뢰성과 로컬 실행 능력을 강점으로 한다. 알리바바 Qwen 3.6 모델과의 결합으로 더욱 강화되는 이 에이전트는 에이전트 AI 시대 도래를 상징한다.

AIB프레스 편집팀
2026.05.13
누스 리서치, 자가 개선형 AI 에이전트 '헤르메스' 공개...엔비디아 RTX 최적화

누스 리서치(Nous Research)가 자가 개선형 AI 에이전트 '헤르메스'를 공개했다. 엔비디아 RTX PC와 DGX Spark에 최적화된 이 에이전트는 지난 3개월간 깃허브에서 14만 스타를 넘었으며, 최근 OpenRouter 기준 세계에서 가장 널리 사용되는 에이전트가 됐다.

자가 개선 능력, 신뢰성, 로컬 최적화

헤르메스의 가장 큰 특징은 자가 개선 능력이다. 복잡한 작업을 마주치거나 피드백을 받을 때마다 에이전트가 자신의 스킬을 작성하고 정제한다. 이를 통해 시간이 지날수록 성능이 높아진다. 또한 격리된 서브에이전트 구조로 각 작은 작업을 독립적으로 처리하기 때문에 혼동 가능성이 줄어든다. 컨텍스트 윈도우를 작게 유지할 수 있어 로컬 모델에서도 효율적으로 작동한다.

신뢰성도 중요한 경쟁 포인트다. 누스 리서치는 헤르메스에 탑재되는 모든 스킬, 도구, 플러그인을 직접 큐레이션하고 스트레스 테스트한다. 덕분에 300억 파라미터급 로컬 모델에서도 추가 디버깅 없이 안정적으로 작동한다. 같은 모델을 사용한 다른 에이전트 프레임워크와의 비교 테스트에서 헤르메스가 더 우수한 결과를 냈다는 점은 단순한 래퍼가 아닌 '능동적 오케스트레이션 계층'이 얼마나 중요한지 보여준다.

로컬 모델의 성능 혁신: Qwen 3.6

헤르메스의 성능을 뒷받침하는 것은 알리바바의 새로운 오픈 웨이트 모델군 'Qwen 3.6'이다. 이 모델 시리즈는 놀랍도록 효율적이다. Qwen 3.6 35B는 약 20GB 메모리에서 실행되면서도 이전 세대 120B 모델(70GB 이상 필요)의 성능을 뛰어넘는다. Qwen 3.6 27B는 더욱 압축적이다. 400억 파라미터 모델(Qwen 3.5 397B)과 정확도가 같으면서도 크기는 16분의 1에 불과하다.

엔비디아 RTX GPU의 텐서 코어는 이 모델들을 가속화하여 추론 처리량을 높이고 지연 시간을 낮춘다. 결과적으로 헤르메스가 다단계 작업을 처리하거나 자신의 스킬을 정제하는 데 분 단위가 아닌 초 단위로 소요된다.

항상 실행 가능한 에이전트 컴퓨터: DGX Spark

헤르메스 같은 에이전트는 지속적으로 실행되도록 설계됐다. 요청에 응답하고, 다단계 작업을 계획하고, 자동으로 실행하고, 계속 개선해야 한다. 엔비디아 DGX Spark는 이를 위한 이상적인 하드웨어다. 128GB 통합 메모리와 1 페타플롭스(PFLOPS) AI 성능을 갖춘 DGX Spark는 1200억 파라미터 모멘트-오브-엑스퍼트(MoE) 모델을 하루 종일 실행할 수 있다. 새로운 Qwen 3.6 35B는 더욱 가볍기 때문에 더 빠르게 실행되며, 사용자는 여러 워클로드를 동시에 처리할 수 있다.

에이전트 AI 시대, 이미 시작됨

헤르메스의 성공은 에이전트 AI의 패러다임 전환을 암시한다. 과거 에이전트는 특정 모델에 종속되거나 클라우드 기반이어야 했던 반면, 헤르메스는 모델-불가지론적 설계로 어떤 로컬 모델과도 조합할 수 있다. 또한 지속적인 자가 개선 메커니즘은 에이전트가 단순 도구를 넘어 진화하는 소프트웨어 엔티티로서의 위상을 강화한다.

엔비디아는 이미 DGX Spark와 RTX 라인업을 통해 에이전트 중심의 로컬 AI 인프라스트럭처를 구축하고 있다. 커뮤니티의 높은 수용(3개월 내 14만 스타)은 기업과 개인 모두 자신의 PC나 로컬 서버에서 신뢰할 수 있는 에이전트를 원한다는 증거다. OpenClaw에서 헤르메스로, 그리고 계속 나타날 신규 오픈소스 에이전트로의 진화 속도는 에이전트 AI 시대가 이미 시작됐음을 명확히 보여준다.

누스 리서치는 헤르메스의 시작 방법을 깃허브 저장소에 공개했으며, 선호하는 로컬 모델과 런타임(llama.cpp, LM Studio, Ollama 등)과 쌍으로 사용할 수 있다. DGX Spark 플레이북을 통해 성능 최적화 방법도 제공하고 있다.

편집 안내 | 이 기사는 AI 기술을 활용하여 글로벌 뉴스 소스를 분석·종합한 후, AIB프레스 편집팀의 검수를 거쳐 발행되었습니다. 정확한 정보 전달을 위해 노력하고 있으며, 원문 출처를 함께 제공합니다.

오픈소스
엔비디아
에이전트AI
로컬AI
DGXSpark

관련 기사