하버드 연구, AI 의료진단 성능 인간 의사 앞질러...응급실 초진에서 67% 정확도
하버드 의학대학이 OpenAI의 o1 LLM 모델이 응급실 초진에서 인간 의사(내과 전문의)보다 정확한 진단을 제시했다고 발표했다. o1은 67% 정확도로 두 의사의 55%, 50%를 상회했으나, 텍스트 기반 정보만으로 실험했고 임상 도입에는 여전히 규제 및 안전성 문제가 남아 있다.

하버드 의학대학 연구팀이 OpenAI의 대규모언어모델(LLM) o1이 응급실 환자 진단에서 내과 전문의보다 높은 정확도를 나타냈다고 이번 주 Science 저널을 통해 발표했다. 데이터 전처리 없이 실제 전자의무기록(EMR) 정보만으로 진행한 이번 연구는 AI가 의료 현장에서 인간 판단을 보조할 수 있는 잠재력을 시사한다.
실제 응급실 데이터와의 비교
하버드 의학대학과 베스 이스라엘 디콘스 의료센터 소속 의사 및 컴퓨터 과학자 팀이 주도한 이번 연구는 OpenAI의 o1, 4o 모델을 실제 응급실 환자 76명의 진료 기록과 비교했다. 연구진은 두 명의 내과 전문의가 내린 진단을 AI 모델의 진단과 대조했으며, 평가는 AI와 인간 진단이 누구의 것인지 모르는 제3의 전문의 두 명이 담당했다.
AI가 앞선 수치
결과는 명확했다. o1 모델은 응급실 초진 분류(triage) 단계에서 정확한 진단 또는 매우 유사한 진단을 제시한 비율이 67%로, 두 의사의 55%, 50%를 상회했다. 특히 환자 정보가 가장 적고 신속한 결정이 필요한 초진 단계에서 AI의 우위가 두드러졌다. 하버드 의학대학 AI 랩을 주도하는 아르준 만레이(Arjun Manrai) 박사는 "거의 모든 벤치마크에서 o1이 선행 모델과 의사 기준선을 모두 능가했다"고 언론 보도자료에서 밝혔다.
임상 도입에는 여전한 과제
다만 연구팀은 이 결과가 AI가 실제 응급실에서 즉시 임상 도입할 준비가 됐다는 의미는 아니라고 강조했다. 오직 텍스트 기반 정보만을 대상으로 한 실험이었으며, 의료영상(영상의학) 같은 비텍스트 데이터에서 현 모델의 성능은 제한적이라는 선행 연구 결과도 있기 때문이다. 베스 이스라엘의 응급의학 담당 의사이자 연구 저자인 아담 로드먼(Adam Rodman)은 영국 가디언에 "현재 AI 진단에 대한 정형화된 책임 추적 체계가 없다"며 "환자들은 생사가 걸린 결정에서 여전히 인간 의사의 지도를 원한다"고 경고했다.
비판: 비교 대상이 부적절했나
응급의학 전문의 크리스틴 판타가니(Kristen Panthagani)는 이 연구가 "상당히 과장된 헤드라인"을 낳았다고 지적했다. 핵심 비판은 비교 대상이었다. 응급실 진료를 실제로 담당하는 응급의학 의사가 아닌, 내과 전문의와만 비교한 것이기 때문이다. 판타가니는 "의사의 임상 능력을 평가하려면 실제로 그 전문 분야를 진료하는 의사와 비교해야 한다"며 "응급실에서 처음 환자를 대할 때 나의 주요 목표는 최종 진단을 맞히는 게 아니라, 당신을 죽일 수 있는 상태가 있는지 판단하는 것"이라고 덧붙였다.
AI와 의료의 미래
이번 연구는 AI와 의료의 관계를 정의하는 더 넓은 논의의 축소판이다. 모델의 성능이 향상되면서 의료진들 사이에선 AI를 보조 도구로 활용할 수 있을지, 아니면 의료 오류를 증가시킬 위험성이 더 높을지에 대한 논쟁이 가열되고 있다. 이번 결과는 AI가 특정 진단 과제에서 경쟁력 있음을 보여주지만, 동시에 임상 전환에는 실제 환자 케이스를 대상으로 한 전향적 임상시험(prospective trial)이 필수적임을 시사한다.
하버드 연구팀 자신도 이같은 기술을 "실제 환자 진료 환경에서 평가하기 위한 전향적 임상시험의 긴박한 필요성"을 강조했다. AI의 성능 향상과 의료 안전성 확보 사이 균형을 맞추는 일이 의료기술 도입의 진정한 과제가 될 전망이다.
편집 안내 | 이 기사는 AI 기술을 활용하여 글로벌 뉴스 소스를 분석·종합한 후, AIB프레스 편집팀의 검수를 거쳐 발행되었습니다. 정확한 정보 전달을 위해 노력하고 있으며, 원문 출처를 함께 제공합니다.


