OpenAI o3가 희귀 소아 유전질환 진단 돕다...기존 분석 놓친 사례 4.8% 발견
OpenAI의 o3 Deep Research 모델이 미국 보스턴 소아병원, 하버드대학교와의 공동 연구에서 희귀 소아 유전질환 미진단 사례 376건 중 18건(4.8%)의 새로운 진단을 발견했다. AI가 증거 기반 가설을 제시하고 의료 전문가가 검토·확인하는 '인간-AI 협력' 모델로 진행된 이 연구는 NEJM AI에 게재됐으며, 의료 진단 분야에서 AI 보조 워크플로우의 실제 임상 적용 가능성을 보여준다.

OpenAI의 대규모추론모델(LLM) 'o3 Deep Research'가 수년간 미해결된 희귀 소아 유전질환 사례에서 새로운 진단 실마리를 찾아내는 데 성공했다. 미국 보스턴 소아병원(Boston Children's Hospital), 하버드대학교, OpenAI 공동 연구팀이 376개의 미진단 사례를 분석한 결과, 18건(4.8%)에서 추가 진단이 이뤄졌으며 이 연구는 지난 18일 의학저널 'NEJM AI'에 발표됐다.
게노믹 시퀀싱의 한계를 넘다
개인의 유전체 데이터가 있어도 반절가량의 희귀질환 환자는 명확한 유전학적 진단을 받지 못한다. 광범위한 검사와 전문의 검토 후에도 진단이 불명확한 경우가 대다수다. 이는 환자의 의료 데이터에 단서가 있을 수 있지만, 수천에서 수백만 개의 유전 변이(바리언트), 단편화된 임상 기록, 끊임없이 변하는 과학 문헌 속에서 그것을 찾아내기가 극도로 어렵기 때문이다.
연구팀은 이 문제를 다르게 접근했다. 환자의 유전체는 고정돼 있지만, 그 주변의 과학적 증거는 계속 진화한다는 점에 착목했다. 새로운 유전자-질병 관계, 임상 사례 보고, 분류 근거가 축적되면서 예전에 풀리지 않던 사례들이 새로이 해석 가능해질 수 있다는 뜻이다. 이 문제를 "희귀질환 재분석의 과학적·운영적 과제"라고 부를 수 있다. 많은 의료기관이 지속해서 증가하는 미분석 유전체 데이터를 최신 과학 지식과 동기화하려는 과제를 안고 있기 때문이다.
AI가 '가설'을 제시하고 의사가 '판정'을 한다
연구팀은 o3 Deep Research가 기존 게노믹 분석 파이프라인 위에서 "설명 우선" 추론 계층으로 작동하도록 설계했다. 각 사례에 대해 표준화된 임상 표현형 용어, 임상의 메모, 환자의 나이·성별, 필터링된 변이 표, 각 변이의 희귀도·단백질 영향 예측, ClinVar 분류 등을 담은 비식별화 데이터 패킷을 제공했다.
모델에게는 가장 그럴듯한 분자 수준의 설명을 제시하고 그 근거를 명확히 보여달라고 요청했다. 그 다음이 중요하다. 연구팀은 o3의 출력 결과를 임상 실험실이 유전 변이를 분류할 때 쓰는 ACMG/AMP 프레임워크를 이용해 검토했다. 최소 두 명 이상의 팀원이 각 후보를 검토했고, 이견은 합의로 해결했으며, 모델의 출력은 절대 진단 그 자체로 취급되지 않았다. 진단으로 인정되려면 전문가 검토, CLIA 인증 실험실의 확인, 임상팀의 가족 통보라는 전체 절차를 거쳐야 했다.
미진단 사례의 4.8%, 새 진단 기회를 얻다
연구팀은 o3을 네 개 코호트(집단)에 적용했다. 신경발달 장애 아동 100명, 희귀 신경근육질환 환자 61명, 소아청소년 초발정신질환 15명, 소아 급사 사례 200명이었다. 이들은 새롭게 입원한 환자들이 아니었다. 대다수는 이미 여러 상업 또는 기관 파이프라인으로 분석됐고 다학제 팀의 검토를 받았던 환자들이었다.
결과는 다음과 같았다:
신경발달 장애는 100명 중 10건, 신경근육질환은 61명 중 4건, 소아 급사는 200명 중 2건, 초발정신질환은 15명 중 2건의 진단이 확인됐다. 전체 376명 중 18건(4.8%)에서 추가 진단이 이뤄졌다.
4.8%라는 수치는 적어 보일 수 있지만 의미 있는 성과다. 기존 전문가 검토에서 답을 찾지 못한 환자들을 대상으로 한 연구에서 다른 재분석 사례들도 대체로 한 자릿수 수율을 보이기 때문이다. 더 높은 수율은 보통 새로운 환자나 잘 알려진 질환의 유전학적 확인을 기다리는 환자들을 대상으로 한 연구에서 나온다.
실제 진단의 사례들
한 초발정신질환 사례에서 o3은 입력 데이터에 명시되지 않은 염색체 구조 이상을 추론했다. 22번 염색체의 저품질 신호를 환자의 심장·면역·신경발달·정신질환 증상과 연결한 뒤 22q11.2 결손(DiGeorge 증후군 관련)을 가설로 제시했고, 추후 게놈 시퀀싱으로 확인됐다.
또 다른 사례에서는 o3이 두 개의 유전자 변이를 함께 제시했다. LAMA2와 FOXP1 변이가 함께 근육과 신경발달 특징을 설명한다는 것이었다. 이처럼 모델은 복잡한 표현형을 더 잘 설명하는 다유전자 조합까지 제안하기도 했다.
의료 AI의 현실적 접근
이 연구가 주목할 점은 AI가 진단을 내리지 않는다는 것이다. o3은 증거 연결형 가설을 생성했고, 그 가설을 평가하는 모든 판정은 의료 전문가의 몫이었다. 이는 현재 의료 규제와 임상 실무의 현실을 반영한 것이기도 하다.
한편 18건의 진단 중 7건은 '재발견(rediscovery)'이었다. 즉, 이미 다른 곳에서 진단됐지만 연구팀이 검토한 의료 기록에는 빠져 있던 사례들이었다. 이는 정보가 여러 데이터 소스에 산재되어 있는 '정보 통합의 운영 문제'를 드러낸다.
시사점
이 연구는 AI 보조 워크플로우가 의료 진단 영역에서 어떻게 활용될 수 있는지를 실증했다. 특히 기존 전문가 검토를 완전히 대체하는 것이 아니라, 전문가가 놓칠 수 있는 지점을 재조명하는 역할을 한다는 점이 중요하다. 지식이 끊임없이 변하는 의료 분야에서 주기적인 재분석이 더욱 확장 가능해질 가능성을 시사한다.
편집 안내 | 이 기사는 AI 기술을 활용하여 글로벌 뉴스 소스를 분석·종합한 후, AIB프레스 편집팀의 검수를 거쳐 발행되었습니다. 정확한 정보 전달을 위해 노력하고 있으며, 원문 출처를 함께 제공합니다.
AI·테크 핵심 뉴스, 매주 한 통으로
한 주의 글로벌 AI·IT 뉴스 중 꼭 알아야 할 것만 골라 보내드립니다. 광고 없음, 언제든 해지.


