오픈AI '매개변수 골프'로 밝혀낸 AI 에이전트의 위력과 과제

gen_ai

12분 읽기

AIB프레스 편집팀

2026.05.12

오픈AI가 8주간 진행한 머신러닝(ML) 대회 '매개변수 골프(Parameter Golf)'에서 의외의 발견을 했다. 2,000건 이상의 제출작을 분석한 결과, AI 코딩 에이전트가 단순한 보조 도구를 넘어 연구 방식 자체를 근본적으로 변화시키고 있다는 점이 드러났다.

매개변수 골프는 엄격한 제약 조건 아래 AI 모델을 얼마나 효율적으로 만들 수 있는지 겨루는 경쟁이다. 참가자들은 16MB의 용량(모델 가중치 및 학습 코드 포함) 내에서, 8개의 H100 GPU로 10분 이내에 학습을 완료하고, 공개된 FineWeb 데이터셋에서 손실값을 최소화해야 했다. 단순하지만 명확한 목표였다.

그런데 대회가 진행되면서 참가자들의 절대다수가 AI 코딩 에이전트를 활용했다. 에이전트는 실험 설정 시간을 단축하고, 낯선 코드를 빠르게 이해하며, 새로운 아이디어를 부담 없이 검증할 수 있게 해줬다. 이는 진입 장벽을 크게 낮췄다. 과거라면 시간이 많이 걸린다고 외면했을 시도들이 이제 손쉽게 가능해진 것이다.

네 가지 기술 경향의 등장

오픈AI는 매개변수 골프에서 네 가지 기술 경향을 포착했다. 첫째는 '훈련 최적화'다. 일부 상위 제출작들은 뮤온(Muon) 가중치 감쇠, 스펙트럼 임베딩 초기화, 잔차 혼합 스케줄링 같은 기존 기법들을 세심하게 조합했다. 남다른 창의성 없이도 기존 아이디어들의 '접점'을 정확히 찾아내고 통합하는 규율 있는 작업이 상당한 성과를 냈다는 의미다.

둘째는 '양자화(압축)'다. #414 제출작은 GPTQ-lite를 처음으로 성공적으로 적용했고, #1060 제출작은 전체 헤시안(Hessian) 기반 GPTQ로 압축을 한 단계 더 고도화했다. 모델 크기 제약이 엄격한 상황에서 양자화는 필수 기술이었고, 참가자들은 그 한계를 계속 밀어붙였다.

셋째는 '테스트 시간 및 평가 전략'이다. 일부 참가자들은 모델 개선과 평가 방식의 경계선을 탐험했다. #77 제출작의 '점수 먼저, 문서별 LoRA 적응'은 규칙 범위 내에서 혁신적인 접근을 보여줬다. 단순한 기술 튜닝을 넘어, 평가 시스템 자체를 창의적으로 활용하는 경향이 나타났다.

넷째는 '신규 모델링 및 데이터 아이디어'다. #1729 제출작의 'CaseOps 토크나이저', #265의 'XSA(효율적 부분 배타적 자기주의)', #65의 'SmearGate와 BigramHash' 같은 제안들은 문헌에서 차용하거나 완전히 새로 고안한 것들이었다. #1204는 '미니 깊이 반복'으로 처음 성공적으로 반복 계층을 작동시켰다.

오픈AI가 별도 '비기록 트랙'도 운영했다. 이 트랙은 성능보다는 기술적 흥미도를 우선했다. 자기회귀 비텍스트 모델링부터 동적 토크나이제이션에 이르는 실험적 아이디어들이 등장했다. 상당수가 천진한 기준선(1.22 BPB)을 돌파했고, 상위 항목은 1.12 BPB에 도달했다. 트랜스포머 기반 모델이 지배적인 상황에서도 대안 아키텍처가 경쟁력을 가질 수 있음을 보여준 것이다.

에이전트의 양면성, 새로운 과제들

매개변수 골프의 가장 주목할 변화는 AI 에이전트 사용의 확산이었다. 참가자 대부분이 에이전트를 활용했다는 점은, 이것이 더 이상 '선택'이 아닌 '표준 도구'로 자리잡았음을 의미한다.

한편 에이전트의 광범위한 사용은 새로운 문제도 만들었다. 많은 제출작이 기존 상위 해법의 작은 변형에 그쳤다. 에이전트가 빠르게 아이디어를 모방하고 재현했기 때문이다. 규칙 위반 제출이 예상치 못한 높은 점수를 기록하면, 다른 에이전트들이 그 기법을 복제하고 같은 잘못된 경로를 계속 따라갔다. 이는 '창의성의 다양화'와 '노이즈 증가'의 이중 효과를 낳았다.

오픈AI는 매개변수 골프의 또 다른 성과로 '인재 발굴'을 꼽았다. 엄격한 기술적 제약 하에서 문제를 푸는 능력은 머신러닝 센스와 인내심을 드러낸다. 대회를 통해 예상 밖의 인물들이 두각을 나타냈고, 이들은 추후 연구 커뮤니티의 핵심 기여자가 될 가능성이 높다.

열린 질문 남긴 대회

매개변수 골프는 현재 머신러닝 연구의 한 단면을 적나라하게 보여준다. 에이전트는 반복적이고 탐색적인 작업의 비용을 극적으로 낮췄다. 더 이상 "시간이 오래 걸린다"는 이유로 실험을 포기할 필요가 없다.

그러나 동시에 '에이전트 시대의 과제'도 명확해졌다. 제출 검증의 복잡성 증가, 진정한 혁신과 변형 아이디어의 구분, 귀속 문제(attribution), 채점의 투명성 같은 것들이다. 에이전트가 만드는 아이디어의 '속도'와 '품질'의 불일치가 심화될 수 있다는 뜻이다.

오픈AI는 이 문제를 인식하고, 향후 대회나 연구 경쟁에서 에이전트 활용의 '질'을 어떻게 관리할지 고민해야 할 상황에 직면했다. 지금은 에이전트가 ML 연구자의 능력을 확장하는 단계지만, 과연 언제까지 인간의 창의성을 가장 효과적으로 증폭시킬 수 있을지는 여전히 열린 질문이다.