리마커블2를 비전-LLMs 인터페이스로 활용하는 Ghostwriter

1 month ago 7

  • remarkable2에서 손글씨를 인식하고, 제스처나 화면의 콘텐츠에 따라 반응하여 화면에 다시 쓰는 실험
    • 손글씨와 화면 상호작용을 탐구하는 프로젝트

설정/설치

  • OPENAI_API_KEY와 같은 환경 변수를 설정해야 함.
  • remarkable에 바이너리를 설치하고 실행해야 함.

사용법

  • ghostwriter를 remarkable에서 시작해야 함.
  • 화면에 그림을 그리고, 오른쪽 상단을 터치하여 보조 기능을 활성화할 수 있음.
  • 처리 중에 점이 그려지고, 타이핑되거나 그려진 응답을 볼 수 있음.

상태 / 일지

  • 2024-10-06: 기본 개념 증명 완료. 화면에 다시 그리는 기능이 잘 작동하지 않음.
  • 2024-10-07: 기본 제스처 및 상태 표시 구현.
  • 2024-10-10: 가상 키보드 설정 시작.
  • 2024-10-20: 텍스트 출력 및 기타 모드 도입.
  • 2024-10-21: 바이너리 릴리스 빌드 완료.
  • 2024-10-23: 코드 리팩토링 및 새로운 Anthropic 모델 테스트 계획.
  • 2024-11-02: 도구 제공으로 전환.
  • 2024-11-07: Claude/Anthropic 추가.
  • 2024-11-22: 평가 시스템 스케치 시작.
  • 2024-12-02: 기본 이미지 분할 단계 추가.
  • 2024-12-15: 엔진 통합.
  • 2024-12-18: 시스템 업그레이드 문제 해결.
  • 2024-12-19: 로컬 네트워크 VLM 모드 시도.
  • 2024-12-22: 평가 시스템 구축 시작.
  • 2024-12-25: CLI 단순화 및 확장.
  • 2024-12-28: 사용성 개선.

아이디어

  • 제스처나 콘텐츠로 요청을 트리거.
  • 스크린샷을 비전 모델에 입력하고, 결과를 화면에 출력.
  • 키보드 이벤트 전송 가능.
  • 기본 평가 시스템 구축.
  • 프롬프트 라이브러리 개발.
  • 초기 설정 자동화.
  • 다이어그램 생성 기능 추가.
  • 외부 정보 조회 및 전송 기능 추가.
  • 대화 모드 구현.
  • 네트워크 로컬 VLM 사용 시도.

참고 자료

  • Awesome reMarkable에서 자원 활용.
  • reSnap에서 화면 캡처 기술 적용.
  • rmkit lamp에서 화면 그리기 영감 얻음.
  • resvg로 SVG를 png로 변환.
  • rM-input-devices로 키보드 입력 장치 생성.
  • reMarkableAI에서 OCR→OpenAI→PDF→Device 프로세스 발견.
  • rMAI는 별도의 앱으로 모델 API 서비스로 replicate 사용.
  • Crazy Cow는 텍스트를 펜 스트로크로 변환하는 도구.

Read Entire Article