- OpenAI를 공동창업한 Andrej Karpathy의 일반인을 위한 AI 강의 중 2/28에 올라온 How I use LLMs 를 캡처와 함께 요약
- 다양한 시각화 자료와 카파시의 실사용 예제들에 큰 가치가 있기 때문에 글 요약만으로는 영상의 맛이 살아나지 않아 제작함
여러 종류의 LLM이 있음
ChatGPT는 가장 유명하고, 가장 기능이 많음. 그 외에는 이런 것들이 유명함
- 구글의 Gemini
- Meta의 Meta AI
- MS의 Copilot
- Anthropic의 Claude
- xAI의 Grok
- Perplexity
- 중국의 DeepSeek
- 프랑스 Mistral의 Le Chat
ChatGPT는 어떻게 동작하는가
LLM은 인터넷 문서 전체를 1TB로 손실 압축한 zip 파일과 유사. 이 안에 수조 개의 파라미터가 있는 인공신경망이 있고 그게 '다음 글자'를 확률적으로 뱉어냄
이 압축파일은 크게 두 종류 학습을 해서 만듦
사전 학습: 수천만 달러 + 3개월 이상 듦. 비용 많이 드니까 자주 못하고, 그래서 knowldge cutoff가 생김
사후 학습: 훨씬 저비용으로 파인튜닝. 단순히 인터넷 문서를 뱉어주는 게 아니라 사용자의 질문에 답하는 Assistant로서 처럼 동작하게 만듦
- 모범답안을 알려주는 지도학습(Supervised Fine-Tuning)
- 생성된 답안에 대한 인간의 선호를 토대로 한 강화학습(Reinforcement Learning from Human Feedback)
- 인간의 질문에 대한 Assistant의 이상적 답변을 토대로 한 강화학습(Reinforcement Learning on Conversation)
ChatGPT에서 새 세션을 만들어 유저가 메시지를 입력하면 그게 토큰화되어 모델의 인풋으로 들어가고, 그걸 통해 LLM이 다음 토큰을 만듦. 그리고 이 대화(유저의 입력, ChatGPT의 출력)는 모두 Context Window 안에 저장됨.
Context Window는 인간의 작업기억(Working Memory)와 유사하며, 인간과 마찬가지로 한계가 있음. Context Window가 길어질수록 부정확한 정보를 줄 가능성이 조금 더 높아지고, 다음 답변 생성도 조금 더 비싸짐(= 느려짐).
따라서 꼭 필요하지 않다면 한 세션을 오래 유지하는 게 그리 좋은 선택은 아님
언제 'Thinking' 모델을 써야 할까
기존의 사전/사후 학습을 거친 LLM에, 복잡한 STEM(과학, 기술, 공학, 수학) 문제에 대한 답을 긴 사고 과정을 통해 답변할 수 있도록 추가로 강화학습한 모델
여러 토큰을 뱉어내면서 '생각'을 하기 때문에 비용도 시간도 많이 걸리는 대신 복잡한 문제에 대한 답변 정확도가 급격히 올라감
'생각'을 하는 모델이 문제를 꼭 정확히 푸는 것도 아니고, 반대로 '생각'이 없는 모델도 문제를 정확히 풀 수 있음에 주의(카파시가 준 복잡한 디버깅 문제를 모든 생각 모델은 성공했고 ChatGPT-4o는 실패했지만 , Sonnet 3.5, Gemini 2.0 Pro, Grok 3는 Thinking 없이도 성공)
카파시는 일단 답변이 빨리 돌아오는 non-thinking 모델로 테스트해보고, 답변이 의심스러우면 Thinking을 써보는 식으로 사용한다고 함
LLM을 돕는 도구들
인터넷 검색
인터넷 검색이 가능한 모델이 있고 아닌 모델이 있음. (꼭 검색이 아니더라도) 우린 항상 이 모델이 뭘 할 수 있는지 알고 써야 함
검색은 가장 기본적으로는 Knowledge Cutoff 때문에 최신 데이터에 대한 답변을 할 수 없기 때문에 필요. 초기 ChatGPT에서 이게 안됐던 걸 Perplexity가 뚫어내서 많은 사용자를 모았음
유저 쿼리에 따라 '이건 검색을 해야 한다'는 판단을 해서, 인터넷 검색한 결과를 토큰화해서 Context Window에 집어넣은 상태로 답변하는 것. (어떨 때는 명시적으로 검색해서 알려달라고 해야 할 수도 있음)
카파시는 요즘 구글링 대신 Perplexity에 묻는 일이 많음. '이런 정보는 Perplexity에 물어봐야지' 하는 습관이 생김
- 구글링해서 최상위 링크 몇 개 클릭해서 알 수 있을 것 같다 (오늘 주식시장 열리냐, 화이트 로투스 시즌 3 언제 촬영했냐 등)
- 정보가 계속 바뀌는데 최신화된 정보가 필요하다 (Vercel이 Postgresql 지원하냐, 솔로지옥 시즌 4 출연 배우들 지금은 뭐하냐 등)
딥 리서치
간단히 얘기하면 인터넷 검색 + Thinking임. 길면 몇십분간 검색하고, 그렇게 얻은 정보를 Thinking을 통해 정리해서 리포트를 만들어줌.
ChatGPT 딥리서치의 특징은 더 좋은 리포트를 만들기 위해, 질문자의 의도는 뭐고 어디에 집중할지 물어본 다음 시작한다는 것. 유사 기능으로 Perplexity에도 딥 리서치가 있고, Grok3에도 '딥 서치'가 있음. 각각의 속도와 품질이 다 다름.
인터넷 검색과 마찬가지로 여기서도 답변이 정확하지 않을 수 있음에 주의. 출처를 직접 확인해볼 필요가 있으나, '굉장히 유용한 초안'이긴 함
카파시는 20여개 정도 딥리서치 해봤는데 ChatGPT 답변이 가장 (유의미한 정보로) 길어서 가장 좋았음. 카파시가 던졌던 주제들:
- 건강기능식품의 특정 성분에 대한 이해
- 브레이브 브라우저와 아크 브라우저 중 보안과 프라이버시에 더 좋은 쪽이 뭔지
- 생쥐의 수명을 증가시키는 최신 기술이 뭐지? 어떤 개입 방식들이 시도되었나? 나는 ML 쪽에서 왔는데 평가 지표를 설정하고 높이는 데 익숙함. 생쥐의 수명도 그런 식으로 평가하나?
- 미국 내의 모든 메이저한 LLM 연구실에 대한 표를 만들어줘. 언제 생겼고, 몇명이 일하고, 펀딩 잘 받았는지.
코드 인터프리터
LLM이 코드를 작성해서 실행한 다음, 코드의 결과물을 컨텍스트에 넣어서 답변해주는 것. 파이썬도 있고 자바스크립트도 있음. 잘 쓰면 아주 강력함. 똘똘한 주니어 하나 마련했다보 보면 됨
- ChatGPT 4o로 데이터 분석하기
- Claude로 책 내용 요약한 플래시카드 앱 만들기
- Claude로 책 내용 시각화하는 Mermaid 다이어그램 만들기
- Cursor로 틱택토 게임 만들고 채팅만으로 승자 효과 추가하는 개선하기
모달리티
LLM과 텍스트만 주고받는 게 아니라 오디오, 이미지, 비디오도 가능
오디오 입출력
오디오 입력은 카파시는 SuperWhisper, WisprFlow, MacWhisper 등 맥 받아쓰기 앱 활용. 예전같았으면 타이핑했을 것의 대략 절반은 말로 한다고 함.
오디오 출력은 대개 앱 내에서 기능 제공. 화면 받아쓰기 해도 됨
근데 이것들은 여전히 근본적으로는 텍스트로 주고받는 것. Speech-to-Text 후 다시 Text-to-Speech 해야 하니까 느림.
진짜로 오디오만으로 LLM과 주고받는 것도 가능. 오디오 정보를 토큰화하는 것. 이걸 카파시는 True Audio라고 부르고, ChatGPT에서는 Advanced Voice Mode라고 부름.
- 다양한 억양과 속도로 얘기해보게 하고, 동물 소리 흉내도 시키는 대화 시연 영상
Grok3도 모바일 앱에서 Advanced Voice Mode를 제공함. 섹시 모드, 욕설 모드 등 노빠꾸 모델이 많아서 어떤 면에서는 더 재밌고 흥미롭기도 함
- 카파시의 Grok3 대화 시연 영상
NotebookLM은 파일을 업로드해서 분석하고, 그 내용을 기반으로 여러 진행자가 자연스러운 음성으로 팟캐스트를 진행하게 하는 것도 가능. 사이에 내가 개입해서 질문도 자유롭게 할 수 있음(Interactive Mode).
- 카파시는 본인의 전문성이 강하지 않지만 호기심은 있는 분야들에 팟캐스트 만들어 듣는 걸 자주 했음. 자기가 그렇게 만든 팟캐스트를 Histories of Mysteris라는 이름으로 스포티파이에도 올려둠
이미지 입출력
카파시는 OCR할 때 항상 정확히 읽었는지 확인하고 나서 내용 물어보는 습관이 있음. 언제나 잘못 읽었을 가능성이 있기 때문.
실제 용례: 건강기능식품 영양 성분 확인, 채혈 검과 해석, 수식의 Latex 버전 얻기, 밈 해석하기 등
이미지 출력은 DALLE, IdeoGram 등으로 함. 이미지 생성은 LLM에 내장된 기능은 아니고 별도의 모델에 프롬프트를 넣어서, 출력된 이미지를 다시 가져오는 역할.
비디오 입출력
오디오처럼, Advanced Voice + Video를 입력으로 써서 대답하게 할 수 있음. 모바일 앱에서 가능. LLM이 진짜로 영상을 인풋으로 가져가는 대신 영상을 일정 프레임 별로 가져가서 이미지 입력으로 변환하는 식일 것
카파시 본인은 자주 쓰진 않으나 부모님 세대처럼 기술적 배경이 부족한 사람들도 바로 질문 답변할 수 있으니 좋음
비디오 출력은 Sora를 비롯한 여러 모델이 있음. 카파시는 현재는 Google Veo 2가 가장 현실적이라고 느낌
추가 기능들
메모리
- 사용자와 문답하다가 '이건 기억해두면 더 좋은 답변을 하겠다' 싶은 것, 또는 사용자가 명시적으로 기억해달라고 한 건 Memory Updated 라는 문구와 함께 저장됨
= 이것들은 새 채팅 만들 때마다 Context Window에 들어간다고 보면 됨. 전체 목록 보고 관리하는 것도 가능
Customize
- 사용자를 뭐라고 부르고, 어떤 일 하고, 어떻게 답변하길 원하고... 등을 담아두면 이것 또한 컨텍스트 윈도우에 들어간 채로 답변함
- 카파시는 요즘 한국어를 배우고 있기 때문에 관련 내용을 넣어두는 실험을 해보고 있음
Custom GPTs
카파시는 한국어 공부를 위한 GPTs를 여러 개 만들어서 활용하고 있음. 간단한 프롬프트에 Few-Shot 사용.
Korean Vocabulary Extractor: 한글 문장을 쪼개서 용어들을 추출해줌
Korean Detailed Translator: 위와 유사한데 단어 바이 단어로 매칭해서 번역해줌
KoreanCap: 이미지 캡처해서 주면 OCR 후 번역하고, 발음까지 포함해서 단어별로 쪼개줌