AI의 역설: 박사급 문제는 푸는데 시계는 못 읽는다...2026 스탠퍼드 지수가 드러낸 것

AI가 인간 수준의 능력을 넘어섰다는 선언이 쏟아지는 이때, 스탠퍼드 대학 인공지능지수(AI Index) 2026 보고서는 불편한 진실 하나를 제시했다. 세계 최고의 AI 모델들이 박사급 시험 문제는 반 이상 정답하면서도, 시침 위치를 읽는 아날로그 시계 문제는 거의 못 푼다는 것이다.

OpenAI의 GPT-5.4는 'Humanity's Last Exam'이라 불리는 세계 최고 난이도 벤치마크에서 정확도 50%를 넘겼다. 지난해 GPT-4o가 8.8%에 불과했던 것과 비교하면 극적인 진전이다. 그런데 ClockBench라는 아날로그 시계 읽기 테스트에서는 GPT-5.4도 겨우 50%의 정확도에 그쳤다. Anthropic의 Claude Opus 4.6은 최고 난이도 시험에서는 역대급 성적을 거뒀지만 시계 읽기에서는 고작 8.9%만 맞혔다.

IEEE Spectrum이 조명한 이 역설은 단순한 호기심 거리가 아니다. 스탠퍼드 AI지수 연구 총괄 Ray Perrault는 "언어와 다른 모달리티(이미지, 음성 등)를 결합해서 질문할 때, 언어 성분이 비언어 정보를 완전히 무시할 수 있을 정도로 큰 부담을 차지한다"고 설명했다. AI가 똑똑한 것처럼 보이지만, 실은 텍스트를 이용한 '우회 경로'로 문제를 푸는 경향이 있다는 뜻이다.

AI 벤치마크 성능 추이: 인간 수준을 넘어선 과제들 (2012~2025)

벤치마크 경쟁의 함정

2026년 4월 현재 AI 모델의 성능 향상은 놀라울 정도다. 자율 소프트웨어 개발을 평가하는 SWE-Bench Verified에서는 Claude Opus 4.6이 72.1%의 정확도를 기록했다. 작년만 해도 이런 수치는 상상하기 어려웠다. 다목적 벤치마크 MMLU Pro에서도 Claude Opus 4.6은 89.4%를 달성했고, 코드 생성 능력을 측정하는 HumanEval에서는 94.2%에 달했다.

하지만 Perrault 박사는 경고한다. "벤치마크에서 법률 추론이 75% 정확도라는 것을 알았다고 해서, 실제 법률 사무소의 업무에 얼마나 잘 맞을지는 알 수 없다"는 것이다. 모델이 특정 평가 기준에 최적화되도록 학습되면서, 실제 세계의 복합적인 과제에 대한 능력은 다를 수 있다는 점을 암시한다.

비정상적 에너지 소비와 환경 비용

보고서는 또 다른 우려점을 제시한다. 최신 대규모언어모델(LLM) 학습에 드는 탄소 배출량이 기하급수적으로 늘어났다는 것이다. xAI의 Grok 4 학습 시 약 72,000톤의 이산화탄소 상당량이 배출되는 것으로 추정된다. 반면 OpenAI의 GPT-4는 5,184톤, Meta의 Llama 3.1 405B는 8,930톤에 그쳤다. 불과 몇 년 사이 배출량이 10배 이상 증가한 셈이다.

추론 에너지 효율도 제각각이다. 모델마다 10배 이상 차이가 난다. DeepSeek의 V3는 중간 길이 프롬프트 응답에 약 23와트를 소비하는 반면, Claude 4 Opus는 약 5와트에 불과하다. 환경 비용을 무시하고 성능 경쟁에만 집중하는 것은 지속 불가능하다는 신호다.

AI 모델의 아날로그 시계 읽기 정확도: 다중 모드 능력의 한계

투자 확대와 고용 미스매치

스탠퍼드 AI지수에 따르면 전 세계 AI 투자는 2025년에 사상 최고인 5,810억달러(약 831조원)에 달했다. 2024년의 약 2,530억달러(약 362조원) 대비 2배 이상 증가했으며, 2021년 이전 기록인 3,600억달러(약 515조원)도 훨씬 웃돈다. 미국이 3,440억달러(약 492조원)를 투자해 전체의 60% 가까이 차지했다.

문제는 고용 효과가 명확하지 않다는 것이다. 보고서는 소프트웨어 개발자와 고객 지원 에이전트 직급별 고용 추이를 분석했다. 신입 직급의 고용은 감소했으나, 중·상위 직급은 오히려 증가했거나 정체 상태였다. 역설적이게도 AI 노출이 적은 직종의 실업률이 AI 노출이 많은 직종보다 더 높았다. 이는 AI로 인한 일자리 감소가 생각보다 복잡한 구조임을 시사한다.

지역별로 엇갈리는 AI 신뢰도

흥미로운 점은 국가별 AI에 대한 신뢰도다. Ipsos 설문에 따르면 "기술의 혜택이 위험을 능가한다"고 응답한 사람이 2024년 55%에서 2025년 59%로 증가했다. 68%가 AI를 잘 이해한다고 답했으며, 52%는 AI 기반 서비스가 자신을 불안하게 만든다고 응답했다.

지역별로는 편차가 크다. 동남아시아(중국, 말레이시아, 태국, 인도네시아, 싱가포르)가 가장 긍정적이었고, 독일·프랑스·네덜란드에서 전년 대비 10% 이상 긍정도가 올랐다. 반면 콜롬비아는 6% 하락해 가장 부정적으로 전환했다.

정부의 AI 규제 능력에 대한 신뢰도는 더욱 갈렸다. 싱가포르가 81%로 가장 높았던 반면, AI 투자 최강국인 미국은 31%에 불과했다. 유럽의 여러 선진국과 일본도 신뢰도가 낮았다. 아시아와 남미 국가들은 자국 정부의 규제 능력을 더 신뢰했다.

전 지구적 AI 컴퓨트 용량 증가 추이: NVIDIA 중심의 인프라 구축

한국의 AI 경쟁력 재점검

이런 글로벌 트렌드 속에서 한국의 위치는 어디인가. 스탠퍼드 보고서에서 한국은 직접 언급되지 않았지만, 몇 가지 시사점이 있다.

첫째, 산업용 로봇 배치 부문에서 중국은 2024년 29만5000대를 설치했고 일본 4만4500대, 미국 3만4200대인 반면 한국은 통계에 포함되지 않았다는 점이 이상하다. 삼성전자, SK하이닉스, 현대로봇 등 한국의 로봇 및 반도체 기업들이 선두 기업들인데, 국제 통계 집계의 공백은 국내 산업의 가시성 문제를 드러낸다.

둘째, GitHub의 AI 관련 프로젝트 550만 개 중 한국 개발자들의 참여율을 측정하고, 오픈소스 AI 에코시스템에서의 한국의 기여도를 평가해야 한다. 2025년 컴퓨터과학 논문 중 기계학습, 컴퓨터 비전, 생성형 AI 분야의 논문은 25만8000건이었다. 한국 AI 연구진이 이 중 몇 %를 차지하는지, 국제 경쟁력이 어느 수준인지 점검이 시급하다.

셋째, 환경 비용 측면에서 한국의 데이터센터 확충 계획이 검토 대상이다. 최신 AI 모델 학습의 탄소 배출이 엄청난 만큼, 한국의 재정 정책과 기후 목표와의 정합성을 맞춰야 한다.

진짜 능력과 환상의 경계

스탠퍼드 2026 AI지수의 핵심 메시지는 단순하다. AI는 특정 벤치마크에서는 인간을 능가했지만, 인간이 쉽게 여기는 다중 모드 과제에서는 여전히 취약하다는 것이다. 특히 텍스트에 과도하게 의존해 이미지 정보를 무시하는 경향이 있다면, AI의 "진정한 이해"에 대한 의문이 제기된다.

이 역설은 AI 산업 전체에 던지는 질문이다. 벤치마크를 통한 기술 경쟁에만 집중할 것인가, 아니면 실제 세계 문제 해결 능력을 키울 것인가. 에너지 소비와 환경 비용을 무시하고 성능 경쟁을 계속할 것인가, 아니면 지속 가능성을 함께 추구할 것인가.

2026년의 AI 현실은 선명하다. 모델의 성능은 빠르게 향상되고 있지만, 그 능력의 실체는 우리가 생각하는 것보다 훨씬 좁고 편향되어 있다. 아날로그 시계 하나를 제대로 읽지 못하는 AI가 인류의 미래를 좌우할 기술이라는 역설 속에서, 우리는 진정한 AI의 의미를 다시 물어야 할 때다.

AIB프레스

AI의 역설: 박사급 문제는 푸는데 시계는 못 읽는다...2026 스탠퍼드 지수가 드러낸 것

벤치마크 경쟁의 함정

비정상적 에너지 소비와 환경 비용

투자 확대와 고용 미스매치

지역별로 엇갈리는 AI 신뢰도

한국의 AI 경쟁력 재점검

진짜 능력과 환상의 경계

원문 출처

AI·테크 핵심 뉴스, 매주 한 통으로

관련 기사

OpenAI o3가 희귀 소아 유전질환 진단 돕다...기존 분석 놓친 사례 4.8% 발견

오픈AI, GPT-5.5로 ChatGPT 의료 지능 대폭 강화…의사 평가 동점

OpenAI, ChatGPT Enterprise 지출 통제 강화…기업 AI 비용 추적·관리 한 눈에