온타리오 감사관들, 의사용 AI 노트 작성기가 기본 사실을 반복적으로 틀린다고 밝혀

1 month ago 31

온타리오가 의료 제공자용으로 승인한 AI Scribe 시스템 20개에서 핵심 정보 누락, 오정보 삽입, 발화되지 않은 내용 생성이 확인됨
조달 평가는 모의 의사-환자 녹음과 AI 생성 진료 메모를 의료 전문가가 대조하는 방식이었고, 9개 시스템은 치료 계획 제안까지 조작함
12개 시스템은 잘못된 약물 정보를 넣었고, 17개 시스템은 녹음에 나온 환자의 정신건강 핵심 세부사항을 놓침
OntarioMD는 의사에게 AI 메모를 수동 검토하라고 권고했지만, 승인 시스템 중 정확성 확인 필수 기능을 갖춘 것은 없었음
평가 점수에서 국내 거점 보유가 30%였던 반면 의료 메모 정확도는 4%, 편향 통제와 위험·개인정보 평가는 각각 2%에 그침

감사 보고서와 평가 방식

Canada의 Office of the Auditor General of Ontario가 낸 공공서비스 AI 사용 현황 관련 보고서에 Ontario Ministry of Health의 AI Scribe 프로그램 평가가 포함됨
이 프로그램은 의사, 전문간호사, 기타 의료 전문가를 대상으로 한 AI 노트 작성 도구 조달을 다룸
조달 과정에서는 모의 의사-환자 녹음을 사용했고, 의료 전문가들이 원본 녹음과 AI 생성 진료 메모를 대조해 정확도를 판단함

확인된 오류

20개 시스템 중 9개는 녹음에서 다뤄지지 않은 내용을 조작하고 환자 치료 계획 제안을 생성함
샘플 보고서에는 “종괴가 발견되지 않았다”거나 “환자가 불안해했다”는 식의 잠재적으로 심각한 오정보가 들어갔지만, 이런 내용은 녹음에서 논의되지 않았음
20개 시스템 중 12개는 환자 메모에 잘못된 약물 정보를 넣음
20개 시스템 중 17개는 녹음에서 다뤄진 환자의 정신건강 관련 핵심 세부사항을 놓침
6개 시스템은 환자의 정신건강 문제를 전체 또는 일부 누락하거나 핵심 세부사항을 빠뜨림

수동 검토와 안전장치

의사의 신기술 도입을 지원하고 AI Scribe 조달 과정에 관여한 OntarioMD는 의사들이 AI가 만든 메모의 정확성을 수동으로 검토하라고 권고함
감사 보고서에 따르면 승인된 AI Scribe 시스템 중 어느 것도 의사가 정확성을 확인했다는 필수 확인 기능을 갖추지 않음

평가 가중치 문제

낮은 성능의 상당 부분은 평가 가중치 문제와 연결됨
플랫폼 평가 점수의 30%는 Ontario 내 국내 거점 보유 여부에 배정됐고, 의료 메모의 정확도는 전체 점수의 4%만 차지함
편향 통제는 전체 평가 점수의 2%였고, 위협·위험·개인정보 평가는 2%, SOC 2 Type 2 준수는 4%를 차지함
이런 가중치는 부정확하거나 편향된 의료 기록을 만들 수 있거나, 민감한 개인 건강 정보를 보호할 충분한 장치를 갖추지 못한 벤더를 선정하는 결과로 이어질 수 있음

Ontario 보건부 대응

The Register는 Ontario Health Ministry에 보고서에 대한 입장과 AI Scribe 프로그램 권고사항을 따를 계획이 있는지 문의했지만 즉각적인 답변을 받지 못함
보건부 대변인은 수요일 CBC에 Ontario에서 5,000명 이상의 의사가 AI Scribe 프로그램에 참여하고 있으며, 해당 기술과 관련된 환자 피해 보고는 알려진 바 없다고 밝힘

Read Entire Article