GitHub, 4000만 저장소 다국어 데이터셋 공개…AI 연구 가속화
GitHub가 4000만 개 저장소의 다국어 콘텐츠를 분석한 '다국어 저장소 데이터셋'을 공개했다. 한국어는 이슈 텍스트에서 가장 흔한 비영어 언어로 확인됐으며, 포르투갈어는 README에서 압도적이다. CC0-1.0 라이선스로 공개되는 이 데이터셋은 다국어 AI 개발과 평가의 기초 인프라로 활용될 것으로 기대된다.

GitHub, 4000만 저장소 다국어 데이터셋 공개…AI 연구 가속화
GitHub가 4000만 개 이상의 저장소에서 비영어 개발자 콘텐츠를 식별할 수 있는 '다국어 저장소 데이터셋'을 공개했다. 개발자 협업의 국제화를 반영한 대규모 공개 데이터로, 다국어 AI 개발을 가속화할 것으로 기대된다.
이번 데이터셋은 8000만 개 이상의 메타데이터 분류 행을 포함하며, CC0-1.0 라이선스로 GitHub에서 무료로 배포된다. Microsoft가 2025년 유럽 디지털 약속의 일환으로 다국어 데이터 접근성 확대를 공약한 것의 이행 결과다.
데이터셋 구성 — 3가지 분류기, 투명한 신뢰도
GitHub 다국어 데이터셋의 핵심은 단순함이다. 저장소 전체를 덤프하는 대신, 각 저장소별로 README, 가장 댓글이 많은 이슈(Issue), 가장 댓글이 많은 풀 리퀘스트(PR) 3개 항목의 처음 150자를 언어 분류했다. 20자 미만 텍스트는 제외됐다.
언어 분류는 fastText, gcld3, lingua-py 세 가지 기계학습 분류기를 모두 적용했다. 신뢰도 0.5 이상인 결과만 수록했으며, 세 분류기의 결과를 통합하지 않고 개별 점수를 함께 공개했다. 이는 하위 언어(low-resource language) 성능 편차를 고려한 설계다. 연구자나 개발자가 정확도와 재현율(precision/recall) 트레이드오프를 스스로 선택할 수 있도록 배려한 것이다.
각 저장소 메타데이터도 포함된다. 생성 시점, 디스크 사용량, 별(star) 수, 포크 수, 주요 프로그래밍 언어, SPDX 라이선스, 이슈·PR 개수, 스냅샷 날짜 등이 기록돼 있다.
한국어는 이슈에서 가장 흔한 비영어 언어
언어 분포 분석에서 흥미로운 패턴이 드러났다. 같은 저장소라도 README, 이슈, PR에서 가장 많이 발견되는 비영어 언어가 다르다는 점이다.
이슈(Issue) 텍스트에서는 한국어가 가장 흔한 비영어 언어로 식별됐다. 개발자 간 협업과 버그 리포팅이 모국어로 이루어지는 비중이 크다는 의미다. 반면 README는 다르다. README에서 비영어 언어 순위는 포르투갈어, 스페인어, 중국어, 프랑스어에 이어 한국어가 5위다.
포르투갈어는 README 기준으로 압도적이다. 포르투갈어 README가 발견된 저장소가 300만 개를 초과한다. 라틴 아메리카의 거대한 개발자 커뮤니티를 반영한 결과로 보인다.
이 차이는 각 지역 개발자 커뮤니티의 성숙도, 오픈소스 참여 방식, 그리고 글로벌 문서화 관례의 차이를 드러낸다.
다국어 AI 개발을 위한 기초 인프라
데이터셋의 실질적 가치는 활용 시나리오에 있다. 연구자와 개발자는 이를 통해 여러 길을 열 수 있다.
첫째, 특정 언어의 개발자 커뮤니티를 발견할 수 있다. 포르투갈어나 한국어로 협업하는 저장소들을 체계적으로 추출해 분석할 수 있게 된다.
둘째, 비영어 개발자 문화를 연구할 수 있다. 각 언어권 개발자들이 이슈에서는 모국어를 쓰지만 README는 영어로 작성하는 패턴 같은 것을 정량적으로 연구할 수 있다.
셋째, AI 코딩 도구와 문서 생성기의 평가 데이터를 구축할 수 있다. 현재 많은 AI 개발자 도구는 영어 기준으로 학습·평가되었다. 이 데이터셋을 통해 다국어 환경에서의 성능을 체계적으로 측정할 기준점을 마련할 수 있다.
넷째, 정책 논의의 근거 자료가 된다. 기업과 정책 입안자들이 "개발자 도구의 언어 지원 확대"를 주장할 때 이 데이터를 증거로 제시할 수 있다.
다섯째, 유럽과 비주류 언어의 오픈소스 표현도를 측정할 수 있다. 전 세계 오픈소스 생태계에서 각 언어·지역이 얼마나 대표되는지 추적 가능하다.
제한 사항과 투명성 원칙
GitHub는 데이터의 한계를 명확히 밝혔다. 저장소 텍스트는 짧고, 배지, 설치 명령어, 코드 스니펫, 사용자명, 혼합 언어 콘텐츠 등이 섞여 있다. 150자 샘플이 전체 저장소를 대표하지 못할 수 있으며, 언어 분류기마다 낮은 리소스 언어 성능의 편차가 크다.
따라서 이 데이터셋을 "지상의 진실(ground truth)" 벤치마크로 삼아서는 안 된다. GitHub의 의도는 투명한 발견 도구(transparent discovery tool)로 위치짓는 것이다. 사용자가 분류 결과, 신뢰도, 분류 출처를 검토한 뒤 자신의 연구 목적에 맞게 정확도/재현율 균형을 스스로 조정할 수 있도록 설계했다.
또한 저장소 메타데이터를 바탕으로 개인이나 커뮤니티의 민감한 속성을 추론해서도 안 된다는 주의도 있다.
다국어 AI의 공정성 문제
이번 공개의 배경에는 현실의 불균형이 있다. 현재 많은 대규모언어모델(LLM)과 AI 시스템은 영어와 주요 유럽 언어 중심으로 학습되고 평가된다. 한국어를 포함한 비주류 언어는 학습 데이터 부족, 평가 벤치마크 부재 등의 이유로 상대적으로 성능이 떨어진다.
이는 결국 특정 지역과 언어의 개발자만 최신 AI 도구의 혜택을 제대로 못 받는다는 뜻이다. README는 영어로 작성하고 협업은 이슈와 PR로 모국어로 하는 한국 개발자 커뮤니티의 현실을 생각해보면, 이 데이터셋의 의의는 분명하다.
GitHub 개발자 콘텐츠는 일반 웹 텍스트와는 다르다. 설치 지침, 버그 리포트, 기능 요청, 코드 리뷰 의견, 커뮤니티 규범 등 소프트웨어 협업의 실제 언어가 담겨 있다. 이런 맥락 정보는 AI 시스템이 개발자의 실제 업무 방식을 더 정확히 이해하도록 돕는다.
향후 계획과 유럽 정책의 맥락
GitHub는 6월 16일 스트라스부르크에서 열리는 '개방 혁신 대화 허브' 행사에서 이 데이터셋을 다룰 예정이다. 행사는 Microsoft Open Innovation Center, Council of Europe, GitHub가 공동 주최하며, 정책 입안자, 연구자, 문화 기관, 혁신 리더들이 AI, 언어 다양성, 문화 유산, 공개 데이터에 대해 논의할 예정이다.
이것이 바로 European Digital Commitments의 실행이다. Microsoft는 작년 유럽 정책 공약에서 "다국어 AI 개발을 위한 공개 데이터 접근성 확대"를 명시했고, GitHub의 이번 공개가 그 구체적 이행이다.
데이터셋은 GitHub에서 다운로드할 수 있으며, 연구자, 오픈소스 유지자, 모델 빌더들이 사용·비판·확장·활용할 수 있도록 CC0-1.0 라이선스로 완전 공개된다.
GitHub는 "흥미로운 것을 만들었다면 알려달라"는 당부도 남겼다. 다국어 AI 연구의 진정한 가속화는 이제부터 시작이다.
편집 안내 | 이 기사는 AI 기술을 활용하여 글로벌 뉴스 소스를 분석·종합한 후, AIB프레스 편집팀의 검수를 거쳐 발행되었습니다. 정확한 정보 전달을 위해 노력하고 있으며, 원문 출처를 함께 제공합니다.
AI·테크 핵심 뉴스, 매주 한 통으로
한 주의 글로벌 AI·IT 뉴스 중 꼭 알아야 할 것만 골라 보내드립니다. 광고 없음, 언제든 해지.


