OpenTSLM - 시계열 데이터를 이해하는 언어 모델

1 month ago 15

  • 기존 파운데이션 모델은 텍스트, 이미지, 오디오, 비디오는 다루지만 실세계를 구동하는 시계열 데이터(바이탈, 가격, 원격측정, 로그 등)에 대한 시간적 추론 능력이 부족
  • Time Series Language Models(TSLMs) 는 시계열을 텍스트와 동등한 고유 모달리티로 지원하여, 사용자가 자연어로 질문하고 설명과 권장사항을 받을 수 있음
  • OpenTSLM은 의료 분야의 시계열 데이터와 임상 텍스트를 함께 처리할 수 있도록 설계된 새로운 언어 모델
    • cross-attention 아키텍처를 채택하여 긴 시계열에서도 확장 가능하며, 기존 방식과 달리 대규모 운영이 실용적
    • 두 가지 구조가 제안됨: SoftPrompt(시계열을 토큰으로 삽입)과 Flamingo(교차 주의 기반), 각각 다른 장단점을 가짐
    • 세 가지 새로운 Chain-of-Thought(CoT) 데이터셋(HAR, Sleep, ECG-QA)을 도입해 모델의 추론 성능을 평가함
  • GPT-4o 대비 200배 작은 모델로 수면 단계 분류 4.4배, 활동 인식 6배, ECG 해석 2배 정확도 달성 (효율성은 각각 880배, 1,000배, 400배)
  • 의료 분야 최초로 12-lead ECG 신호와 텍스트를 동시 처리하며, 심장전문의가 검증한 chain-of-thought 추론 제공
  • 가변 길이 다중 시계열을 동시 처리하고 텍스트 맥락과 통합하여 도메인 전문가가 확인한 해석 가능한 설명 생성
  • 본 연구는 의료뿐 아니라 금융, 공급망, 산업 모니터링 등 다양한 시계열 응용 분야로 확장 가능성을 제시함

연구 개요

  • 임상 진단과 치료는 본질적으로 시간에 따른 변화를 이해하는 데 기반함
  • 기존 LLM은 이미지, 텍스트, 음성 등 다양한 모달리티는 처리 가능하지만 연속적인 시계열 데이터 해석 능력은 부족했음
  • 이를 해결하기 위해 OpenTSLM은 시계열 데이터를 LLM의 새로운 네이티브 모달리티로 통합하는 방식을 제안함

모델 아키텍처

  • OpenTSLM-SoftPrompt
    • 시계열을 임베딩 후 텍스트 토큰과 함께 입력
    • 단순하고 파라미터 효율적이지만, 긴 시퀀스에서는 메모리 사용량이 급격히 증가하는 한계 존재
  • OpenTSLM-Flamingo
    • 시계열을 별도 모달리티로 처리하고 교차 주의(cross-attention) 로 텍스트와 결합
    • 긴 시퀀스에서도 메모리 사용이 안정적이며 범용적인 처리에 적합

데이터셋과 학습

  • HAR-CoT: 가속도 센서를 통한 인간 활동 인식
  • Sleep-CoT: EEG 기반 수면 단계 분류
  • ECG-QA-CoT: 심전도 데이터를 활용한 질의응답
  • 단계적 커리큘럼 학습을 적용해 단순 시계열 패턴 학습 → 추론 능력 학습으로 확장

주요 성과

  • SoftPrompt-Llama3.2-1B: Sleep-CoT에서 69.9% F1, HAR-CoT에서 65.4% F1 기록
  • Flamingo-Llama3.2-3B: ECG-QA-CoT에서 40.25% F1로 가장 우수한 성능
  • GPT-4o 대비 성능 우위: 작은 모델(OpenTSLM-1B)조차 GPT-4o보다 높은 F1 점수 기록
  • 의사 평가: ECG-QA 추론 과정의 92.9%가 정확하거나 부분적으로 정확한 해석으로 판정됨

메모리 효율성

  • SoftPrompt는 입력 길이에 따라 VRAM이 기하급수적으로 증가 (예: ECG-QA에서 110GB 이상 필요)
  • Flamingo는 안정적인 메모리 사용을 유지 (Llama-3B에서도 60~70GB 수준)

논의

  • OpenTSLM은 소규모 모델이 초대형 모델을 능가할 수 있음을 보여줌
  • SoftPrompt는 짧은 시계열에 적합, Flamingo는 장기/다중 시계열에 적합
  • 의료 데이터에서 추론 과정의 투명성을 제공, 신뢰 확보에 기여
  • 기존 분류기 기반 접근과 달리 자연어 추론 + 시계열 결합을 실현

한계와 향후 과제

  • 시계열의 스케일·단위를 텍스트로 보존하는 현재 방식은 최적이 아닐 수 있음
  • CoT 데이터셋 생성 과정에서 GPT-4o가 관여했으므로 데이터 편향 가능성 존재
  • 정답 예측을 보장하는 손실 함수 설계, 아키텍처 단순화, 일반화 성능 검증이 필요

결론

  • OpenTSLM은 의료 분야를 넘어 금융, 공급망, 산업 모니터링 등 장기 데이터 처리에도 활용 가능성이 높음
  • 본 연구는 시계열 언어 모델(TSLM) 개념의 기반을 마련하며, 범용 시계열 추론 모델로의 확장을 목표로 함

Read Entire Article