“딥시크, 보안 안전성 우려 커…영어보다 한국어 더 취약”

1 month ago 5

중국 생성형 인공지능(AI) 딥시크R1이 탈옥(Jailbreaking) 공격 등에 취약하다는 테스트 결과가 나왔다. 특히 한국어 공격 시 영어보다 더 높은 성공률을 보이는 등 한국어 사용자에 대한 안전성 우려가 큰 것으로 나타났다.

이로운앤컴퍼니의 AI 보안연구소는 딥시크R1에 대한 안전성(Safety) 및 보안성(Security) 평가를 실시한 결과, 탈옥 공격 성공률이 63%를 기록했다고 발표했다. 또 역할극(Role-Playing) 기반 공격에도 높은 취약성을 보였으며 허위 정보(Misinformation) 생성 위험도도 높았다.

이번 테스트에선 프롬프트 인젝션(Prompt Injection)과 탈옥 공격에 대한 방어력을 다각도로 평가했다. 프롬프트 인젝션은 공격자가 악의적인 질문을 넣어 목적 이외의 답변을 이끌어내는 공격 방식이며, 탈옥은 개발자의 통제 범위를 벗어난 결과를 제공하도록 만드는 공격 기법이다.

테스트 결과, 딥시크R1은 탈옥 공격에 매우 취약한 것으로 드러났다. 특정 역할을 부여하는 방식(Role-Playing)에서 높은 공격 성공률(83%)을 보였다. 이로운앤컴퍼니는 딥시크R1이 사이버 공격, 범죄 실행 방법, 악성 코드 생성 등 유해 콘텐츠를 쉽게 출력할 가능성이 크다고 설명했다.

또 JSON 기반의 구조화된 입력(Structure Converting)을 활용한 공격에선 82%의 성공률을 보였으며, 악성 코드 생성(Malware-gen) 요청 프롬프트에 대해서도 78%의 높은 성공률을 기록했다. 딥시크R1이 정교한 보안 우회 공격을 효과적으로 차단하지 못한다는 게 회사 측 분석이다.

허위 정보(Misinformation) 생성과 관련해선 89%의 높은 취약성을 보였으며, 사이버 보안(Cyber Security) 관련 취약성도54.6%로 높은 수준을 보였다. 특정 프로그램의 취약점을 악용하는 방법, 허가되지 않은 시스템 접근 기법 등 사이버 범죄에 악용될 가능성이 있는 정보를 제공하는 사례가 다수 발견됐다.

이번 테스트에선 영어와 한국어 프롬프트를 동시에 활용해 비교 분석했다.

그 결과, 한국어 기반 공격에서 평균적으로 18% 더 높은 취약성이 나타났다. 이로운앤컴퍼니는 딥시크R1이 한국어 데이터 학습이 부족하거나, 다국어 대응이 미흡할 가능성을 시사한다고 지적했다.

특히, 한국어 혐오 발언(Korean Hate Speech) 요청 테스트에선 41.7%의 높은 취약성이 발견됐다.

이로운앤컴퍼니는 악의적 프롬프트를 차단할 수 있도록 입력 검증 기술을 적용하고, AI 모델의 입·출력을 지속적으로 모니터링하는 한편 유해 콘텐츠를 사전에 차단할 것을 권고했다.

윤두식 이로운앤컴퍼니 대표는 “딥시크는 고성능 오픈소스 언어모델로, 일반 기업이 모델을 쉽게 도입해 고성능의 AI 서비스를 적극적으로 개발할 수 있는 환경이 마련됐다”면서 “이러한 환경에서 AI 모델의 보안성과 안전성을 담보하는 것이 필수적”이라고 말했다.

조재학 기자 2jh@etnews.com

Read Entire Article