온타리오 감사관들, 의사용 AI 노트 작성기가 기본 사실을 반복적으로 틀린다고 밝혀

3 hours ago 2
  • 온타리오가 의료 제공자용으로 승인한 AI Scribe 시스템 20개에서 핵심 정보 누락, 오정보 삽입, 발화되지 않은 내용 생성이 확인됨
  • 조달 평가는 모의 의사-환자 녹음과 AI 생성 진료 메모를 의료 전문가가 대조하는 방식이었고, 9개 시스템은 치료 계획 제안까지 조작함
  • 12개 시스템은 잘못된 약물 정보를 넣었고, 17개 시스템은 녹음에 나온 환자의 정신건강 핵심 세부사항을 놓침
  • OntarioMD는 의사에게 AI 메모를 수동 검토하라고 권고했지만, 승인 시스템 중 정확성 확인 필수 기능을 갖춘 것은 없었음
  • 평가 점수에서 국내 거점 보유가 30%였던 반면 의료 메모 정확도는 4%, 편향 통제와 위험·개인정보 평가는 각각 2%에 그침

감사 보고서와 평가 방식

  • Canada의 Office of the Auditor General of Ontario가 낸 공공서비스 AI 사용 현황 관련 보고서에 Ontario Ministry of Health의 AI Scribe 프로그램 평가가 포함됨
  • 이 프로그램은 의사, 전문간호사, 기타 의료 전문가를 대상으로 한 AI 노트 작성 도구 조달을 다룸
  • 조달 과정에서는 모의 의사-환자 녹음을 사용했고, 의료 전문가들이 원본 녹음과 AI 생성 진료 메모를 대조해 정확도를 판단함

확인된 오류

  • 20개 시스템 중 9개는 녹음에서 다뤄지지 않은 내용을 조작하고 환자 치료 계획 제안을 생성함
  • 샘플 보고서에는 “종괴가 발견되지 않았다”거나 “환자가 불안해했다”는 식의 잠재적으로 심각한 오정보가 들어갔지만, 이런 내용은 녹음에서 논의되지 않았음
  • 20개 시스템 중 12개는 환자 메모에 잘못된 약물 정보를 넣음
  • 20개 시스템 중 17개는 녹음에서 다뤄진 환자의 정신건강 관련 핵심 세부사항을 놓침
  • 6개 시스템은 환자의 정신건강 문제를 전체 또는 일부 누락하거나 핵심 세부사항을 빠뜨림

수동 검토와 안전장치

  • 의사의 신기술 도입을 지원하고 AI Scribe 조달 과정에 관여한 OntarioMD는 의사들이 AI가 만든 메모의 정확성을 수동으로 검토하라고 권고함
  • 감사 보고서에 따르면 승인된 AI Scribe 시스템 중 어느 것도 의사가 정확성을 확인했다는 필수 확인 기능을 갖추지 않음

평가 가중치 문제

  • 낮은 성능의 상당 부분은 평가 가중치 문제와 연결됨
  • 플랫폼 평가 점수의 30%는 Ontario 내 국내 거점 보유 여부에 배정됐고, 의료 메모의 정확도는 전체 점수의 4%만 차지함
  • 편향 통제는 전체 평가 점수의 2%였고, 위협·위험·개인정보 평가는 2%, SOC 2 Type 2 준수는 4%를 차지함
  • 이런 가중치는 부정확하거나 편향된 의료 기록을 만들 수 있거나, 민감한 개인 건강 정보를 보호할 충분한 장치를 갖추지 못한 벤더를 선정하는 결과로 이어질 수 있음

Ontario 보건부 대응

  • The Register는 Ontario Health Ministry에 보고서에 대한 입장과 AI Scribe 프로그램 권고사항을 따를 계획이 있는지 문의했지만 즉각적인 답변을 받지 못함
  • 보건부 대변인은 수요일 CBC에 Ontario에서 5,000명 이상의 의사가 AI Scribe 프로그램에 참여하고 있으며, 해당 기술과 관련된 환자 피해 보고는 알려진 바 없다고 밝힘
Read Entire Article