dev_tools
12분 읽기

깃허브 코파일럿, 토큰 효율 72.5% 개선...HyDRA 기술로 모델 자동 선택

깃허브가 GitHub Copilot의 토큰 효율성을 대폭 개선하는 두 가지 기술을 공개했다. 프롬프트 캐싱과 도구 검색으로 반복 컨텍스트를 줄이고, HyDRA 라우팅 모델로 작업별 최적 LLM을 자동 선택한다. 벤치마크 결과 OpenRouter Auto 대비 3.3배, Claude Sonnet 대비 72.5% 비용 절감을 달성했다.

AIB프레스 편집팀
2026.06.17
깃허브 코파일럿, 토큰 효율 72.5% 개선...HyDRA 기술로 모델 자동 선택

깃허브가 GitHub Copilot의 토큰 효율성을 획기적으로 개선하는 기술을 공개했다. 프롬프트 캐싱(Prompt Caching)과 자동 모델 선택(Auto Model Selection) 두 가지 핵심 기술을 통해, VS Code 환경에서 사용자가 더 적은 비용으로 더 많은 작업을 처리할 수 있게 된다.

깃허브에 따르면, Copilot이 장시간 세션에서 에이전트 역할을 할수록 효율성이 중요해졌다. 기존 방식은 매 턴마다 지침, 리포지토리 컨텍스트, 대화 이력, 사용 가능한 도구, 작업 상태 등을 반복해서 처리해야 했다. 이제는 이 정보를 캐시하거나 필요할 때만 로드한다.

프롬프트 캐싱과 지연 도구 로딩

프롬프트 캐싱은 반복되는 입력값의 모델 상태를 재사용함으로써 매 요청마다 같은 접두사를 다시 계산하지 않는다. 동시에 도구 검색(Tool Search) 기능으로 모델이 모든 도구 정의를 한번에 받는 대신 필요한 것만 수요에 따라 로드한다.

이는 MCP 도구, 터미널 명령, 파일 작업, 워크스페이스 검색, 제품별 작업 등 여러 도구를 사용하는 에이전트 작업에서 특히 중요하다. 모든 도구 스키마를 미리 컨텍스트에 포함시키면 실제 사용하는 도구가 적어도 고정 비용이 매 턴마다 발생한다. 도구 검색으로는 이용 가능한 도구 집합을 크게 유지하면서도 불필요한 스키마 전송을 줄인다.

자동 모델 선택의 핵심, HyDRA

깃허브의 핵심 기술은 HyDRA라는 라우팅 모델이다. 사용자가 첫 프롬프트를 입력한 뒤 Copilot은 작업 의도와 현재 모델 상태를 바탕으로 그에 맞는 모델을 선택한다.

짧은 설명, 초점이 정해진 코드 편집, 복잡한 다중 파일 변경은 각각 다른 수준의 추론이 필요하다. 개발자가 매번 모델을 수동으로 설정할 필요 없이 Auto가 판단을 내린다.

깃허브의 평가에 따르면, 어떤 단일 모델도 모든 작업에서 일관되게 최고 성능을 내지 못했다. 많은 경우 더 효율적인 모델이 같은 결과에 도달했고, 더 강력한 모델이 필요한 것은 깊은 추론이 요구될 때뿐이었다. Auto는 강력한 추론이 결과를 개선하는 지점을 학습한다. 필요하면 더 강한 모델로 상향 라우팅하고, 불필요하면 더 효율적인 것을 유지한다. 목표는 품질을 비용으로 맞바꾸는 것이 아니라, 작업에 가장 적합한 모델을 사용하는 것이다.

두 신호로 최적 모델을 선택

Auto는 두 가지 신호를 결합한다: 현재 건강하고 이용 가능한 모델이 무엇인지, 그리고 Copilot이 어떤 종류의 작업을 맡았는지다.

실시간 모델 상태 추적은 모델 가용성, 이용률, 응답 속도, 오류율, 비용을 동적으로 모니터한다. 모델이 작업을 처리할 능력이 있어도 그 순간 최선의 선택이 아닐 수 있다. Auto는 현재 시스템 조건을 고려해 능력 있으면서도 응답 준비가 된 모델로 라우팅한다.

**작업 인식 라우팅(HyDRA)**은 추론 깊이, 코드 복잡도, 디버깅 난이도, 도구 오케스트레이션 필요성 같은 요소를 고려한다. HyDRA는 작업의 품질 기준을 충족할 수 있는 모델을 식별하고 그중 최적 적합을 선택한다.

깃허브의 벤치마크 결과, HyDRA는 OpenRouter Auto와 같은 해결율(70.8%)을 내면서도 3.3배 높은 비용 절감을 달성했다. 또한 Claude Sonnet 수준의 품질을 유지하면서 72.5% 비용을 절감하는 운영점도 보여주었다. Azure Foundry의 두 운영 모드를 모두 능가했다.

실제 워크플로우에서의 구현

평가 환경에서 라우팅을 잘 설계하는 것은 일부일 뿐이다. Auto를 실제 개발 워크플로우에서 유용하게 만들려면 개발자가 Copilot을 어떻게 사용하는지 고려해야 한다.

캐시 인식 라우팅은 매 턴마다 모델을 바꾸는 것을 피한다. 같은 모델에 머물러야 프롬프트 접두사가 캐시되어 턴 간에 재사용될 수 있다. 대화 중 모델을 바꾸면 캐시가 깨져서 라우팅 변경으로 얻는 이득보다 비용이 더 클 수 있다. Auto는 자연스러운 캐시 경계인 첫 턴 또는 이전 턴을 요약할 때 라우팅을 수행해 캐시 손실을 최소화한다.

다국어 라우팅도 고려됐다. Copilot은 세계 개발자를 지원하므로 영어 외 언어에서도 라우팅이 동작해야 한다. 깃허브는 중국·일본·한국 문자(CJK), 유럽권 등 16개 언어족 전반의 대화로 라우팅 모델을 학습했다. 평가 결과 언어별 라우팅 정확도는 영어 기준선 대비 4포인트 이내로 유지됐다.

깃허브의 이 기술 발전은 생성형 AI 기반 개발자 도구의 경쟁 지점이 단순한 '모델 크기'에서 '작업별 최적화'로 이동하고 있음을 보여준다. 한국의 개발자 생태계에서도 Copilot 사용자가 증가하는 가운데, 이 같은 효율성 개선은 엔터프라이즈급 AI 코딩 어시스턴트의 실용성을 한 단계 높이는 계기가 될 전망이다.

편집 안내 | 이 기사는 AI 기술을 활용하여 글로벌 뉴스 소스를 분석·종합한 후, AIB프레스 편집팀의 검수를 거쳐 발행되었습니다. 정확한 정보 전달을 위해 노력하고 있으며, 원문 출처를 함께 제공합니다.

GitHub Copilot
개발자 도구
모델 라우팅
토큰 효율성
HyDRA
AI 최적화

AI·테크 핵심 뉴스, 매주 한 통으로

한 주의 글로벌 AI·IT 뉴스 중 꼭 알아야 할 것만 골라 보내드립니다. 광고 없음, 언제든 해지.

관련 기사