[K-오픈소스]한컴 “오픈데이터로더 PDF로 AX 구현 지원”

1 week ago 6
박동현 한글과컴퓨터 이사박동현 한글과컴퓨터 이사

“성공적인 인공지능 전환(AX) 구현의 핵심은 고품질 데이터 확보입니다. PDF는 가장 많이 활용되는 포맷이자 AI가 학습하는 생태계의 출발점입니다. 한글과컴퓨터는 오픈데이터로더 PDF를 공개, AX 구현을 지원하려 합니다.”

박동현 한글과컴퓨터(한컴) 이사는 한컴의 '오픈데이터로더' 기술 공개(오픈소스 프로젝트화) 의미를 대해 이 같이 소개했다.

한컴은 9월 오픈데이터로더 PDF를 오픈소스로 공개했다.

박 이사는 “오픈데이터로더 PDF는 고품질 AI 데이터 추출하고 휴리스틱 추출 방식과 AI 방식을 결합해 빠르고 효율적 성능을 보장한다”면서 “단순 텍스트 추출을 넘어 AI 학습에 필요한 의미와 구조 정보를 제공한다”고 말했다.

오픈데이터로더 PDF는 경쟁 오픈소스 대비 모든 벤치마크 영역에서 우수한 성능을 확보했다는게 박 이사 설명이다. PDF에 태그 정보를 추가해 AI 학습의 정확도와 속도를 높였다는 것도 차별화된 강점이다.

박 이사는 “데이터를 통한 공격이 증가하는 상황에서 잠재적 위험요소를 감지하고 이를 필터링하는 것이 중요한데 오픈데이터로더는 이를 위한 'AI 세이프티'를 지원한다”면서 “이를 통해 데이터 침해 위험을 낮추고, 잠재적인 악성 콘텐츠를 사전에 식별해 무력화시키는 등 안전환 환경을 제공한다”고 말했다.

한컴은 오픈데이터로더 PDF를 통해 글로벌 테크 리더로 도약을 준비한다. 앞서 한컴은 지난달 유럽 최대 PDF 기술 컨퍼런스인 '2025 PDF 데이즈 유럽'에서 기술을 선보인바 있다. 'PDF 데이즈'는 PDF 기술 표준을 제정하는 PDF 협회가 주최하는 세계 최고 권위의 기술 포럼이다.

박 이사는 “복잡한 PDF 문서의 내부 구조로 AX 전환에 데이터 장벽이 발생한다”면서 “한컴의 PDF 문서 기술을 오픈소스로 개방함으로써 데이터 장벽 해결에 기여할 것으로 기대한다”고 말했다.

이어 “글로벌 협업을 비롯해 AI 생태계 기여 등을 통해 글로벌 테크 리더로 도약하려 한다”면서 “모든 기업과 개발자가 데이터 장벽 없이 AX를 실현할 수 있도록 지속 지원하겠다”고 덧붙였다.

김지선 기자 river@etnews.com

Read Entire Article