OpenAI 창업자가 일상과 업무에서 AI를 활용하는 법

1 week ago 5

OpenAI를 공동창업한 Andrej Karpathy의 일반인을 위한 AI 강의 중 2/28에 올라온 How I use LLMs 를 캡처와 함께 요약
다양한 시각화 자료와 카파시의 실사용 예제들에 큰 가치가 있기 때문에 글 요약만으로는 영상의 맛이 살아나지 않아 제작함

여러 종류의 LLM이 있음

ChatGPT는 가장 유명하고, 가장 기능이 많음. 그 외에는 이런 것들이 유명함

구글의 Gemini
Meta의 Meta AI
MS의 Copilot
Anthropic의 Claude
xAI의 Grok
Perplexity
중국의 DeepSeek
프랑스 Mistral의 Le Chat

ChatGPT는 어떻게 동작하는가

LLM은 인터넷 문서 전체를 1TB로 손실 압축한 zip 파일과 유사. 이 안에 수조 개의 파라미터가 있는 인공신경망이 있고 그게 '다음 글자'를 확률적으로 뱉어냄

이 압축파일은 크게 두 종류 학습을 해서 만듦

사전 학습: 수천만 달러 + 3개월 이상 듦. 비용 많이 드니까 자주 못하고, 그래서 knowldge cutoff가 생김

사후 학습: 훨씬 저비용으로 파인튜닝. 단순히 인터넷 문서를 뱉어주는 게 아니라 사용자의 질문에 답하는 Assistant로서 처럼 동작하게 만듦

모범답안을 알려주는 지도학습(Supervised Fine-Tuning)
생성된 답안에 대한 인간의 선호를 토대로 한 강화학습(Reinforcement Learning from Human Feedback)
인간의 질문에 대한 Assistant의 이상적 답변을 토대로 한 강화학습(Reinforcement Learning on Conversation)

ChatGPT에서 새 세션을 만들어 유저가 메시지를 입력하면 그게 토큰화되어 모델의 인풋으로 들어가고, 그걸 통해 LLM이 다음 토큰을 만듦. 그리고 이 대화(유저의 입력, ChatGPT의 출력)는 모두 Context Window 안에 저장됨.

Context Window는 인간의 작업기억(Working Memory)와 유사하며, 인간과 마찬가지로 한계가 있음. Context Window가 길어질수록 부정확한 정보를 줄 가능성이 조금 더 높아지고, 다음 답변 생성도 조금 더 비싸짐(= 느려짐).

따라서 꼭 필요하지 않다면 한 세션을 오래 유지하는 게 그리 좋은 선택은 아님

언제 'Thinking' 모델을 써야 할까

기존의 사전/사후 학습을 거친 LLM에, 복잡한 STEM(과학, 기술, 공학, 수학) 문제에 대한 답을 긴 사고 과정을 통해 답변할 수 있도록 추가로 강화학습한 모델

여러 토큰을 뱉어내면서 '생각'을 하기 때문에 비용도 시간도 많이 걸리는 대신 복잡한 문제에 대한 답변 정확도가 급격히 올라감

'생각'을 하는 모델이 문제를 꼭 정확히 푸는 것도 아니고, 반대로 '생각'이 없는 모델도 문제를 정확히 풀 수 있음에 주의(카파시가 준 복잡한 디버깅 문제를 모든 생각 모델은 성공했고 ChatGPT-4o는 실패했지만 , Sonnet 3.5, Gemini 2.0 Pro, Grok 3는 Thinking 없이도 성공)

카파시는 일단 답변이 빨리 돌아오는 non-thinking 모델로 테스트해보고, 답변이 의심스러우면 Thinking을 써보는 식으로 사용한다고 함

LLM을 돕는 도구들

인터넷 검색

인터넷 검색이 가능한 모델이 있고 아닌 모델이 있음. (꼭 검색이 아니더라도) 우린 항상 이 모델이 뭘 할 수 있는지 알고 써야 함

검색은 가장 기본적으로는 Knowledge Cutoff 때문에 최신 데이터에 대한 답변을 할 수 없기 때문에 필요. 초기 ChatGPT에서 이게 안됐던 걸 Perplexity가 뚫어내서 많은 사용자를 모았음

유저 쿼리에 따라 '이건 검색을 해야 한다'는 판단을 해서, 인터넷 검색한 결과를 토큰화해서 Context Window에 집어넣은 상태로 답변하는 것. (어떨 때는 명시적으로 검색해서 알려달라고 해야 할 수도 있음)

카파시는 요즘 구글링 대신 Perplexity에 묻는 일이 많음. '이런 정보는 Perplexity에 물어봐야지' 하는 습관이 생김

구글링해서 최상위 링크 몇 개 클릭해서 알 수 있을 것 같다 (오늘 주식시장 열리냐, 화이트 로투스 시즌 3 언제 촬영했냐 등)
정보가 계속 바뀌는데 최신화된 정보가 필요하다 (Vercel이 Postgresql 지원하냐, 솔로지옥 시즌 4 출연 배우들 지금은 뭐하냐 등)

딥 리서치

간단히 얘기하면 인터넷 검색 + Thinking임. 길면 몇십분간 검색하고, 그렇게 얻은 정보를 Thinking을 통해 정리해서 리포트를 만들어줌.

ChatGPT 딥리서치의 특징은 더 좋은 리포트를 만들기 위해, 질문자의 의도는 뭐고 어디에 집중할지 물어본 다음 시작한다는 것. 유사 기능으로 Perplexity에도 딥 리서치가 있고, Grok3에도 '딥 서치'가 있음. 각각의 속도와 품질이 다 다름.

인터넷 검색과 마찬가지로 여기서도 답변이 정확하지 않을 수 있음에 주의. 출처를 직접 확인해볼 필요가 있으나, '굉장히 유용한 초안'이긴 함

카파시는 20여개 정도 딥리서치 해봤는데 ChatGPT 답변이 가장 (유의미한 정보로) 길어서 가장 좋았음. 카파시가 던졌던 주제들:

건강기능식품의 특정 성분에 대한 이해
브레이브 브라우저와 아크 브라우저 중 보안과 프라이버시에 더 좋은 쪽이 뭔지
생쥐의 수명을 증가시키는 최신 기술이 뭐지? 어떤 개입 방식들이 시도되었나? 나는 ML 쪽에서 왔는데 평가 지표를 설정하고 높이는 데 익숙함. 생쥐의 수명도 그런 식으로 평가하나?
미국 내의 모든 메이저한 LLM 연구실에 대한 표를 만들어줘. 언제 생겼고, 몇명이 일하고, 펀딩 잘 받았는지.

코드 인터프리터

LLM이 코드를 작성해서 실행한 다음, 코드의 결과물을 컨텍스트에 넣어서 답변해주는 것. 파이썬도 있고 자바스크립트도 있음. 잘 쓰면 아주 강력함. 똘똘한 주니어 하나 마련했다보 보면 됨

ChatGPT 4o로 데이터 분석하기
Claude로 책 내용 요약한 플래시카드 앱 만들기
Claude로 책 내용 시각화하는 Mermaid 다이어그램 만들기
Cursor로 틱택토 게임 만들고 채팅만으로 승자 효과 추가하는 개선하기

모달리티

LLM과 텍스트만 주고받는 게 아니라 오디오, 이미지, 비디오도 가능

오디오 입출력

오디오 입력은 카파시는 SuperWhisper, WisprFlow, MacWhisper 등 맥 받아쓰기 앱 활용. 예전같았으면 타이핑했을 것의 대략 절반은 말로 한다고 함.

오디오 출력은 대개 앱 내에서 기능 제공. 화면 받아쓰기 해도 됨

근데 이것들은 여전히 근본적으로는 텍스트로 주고받는 것. Speech-to-Text 후 다시 Text-to-Speech 해야 하니까 느림.

진짜로 오디오만으로 LLM과 주고받는 것도 가능. 오디오 정보를 토큰화하는 것. 이걸 카파시는 True Audio라고 부르고, ChatGPT에서는 Advanced Voice Mode라고 부름.

다양한 억양과 속도로 얘기해보게 하고, 동물 소리 흉내도 시키는 대화 시연 영상

Grok3도 모바일 앱에서 Advanced Voice Mode를 제공함. 섹시 모드, 욕설 모드 등 노빠꾸 모델이 많아서 어떤 면에서는 더 재밌고 흥미롭기도 함

카파시의 Grok3 대화 시연 영상

NotebookLM은 파일을 업로드해서 분석하고, 그 내용을 기반으로 여러 진행자가 자연스러운 음성으로 팟캐스트를 진행하게 하는 것도 가능. 사이에 내가 개입해서 질문도 자유롭게 할 수 있음(Interactive Mode).

카파시는 본인의 전문성이 강하지 않지만 호기심은 있는 분야들에 팟캐스트 만들어 듣는 걸 자주 했음. 자기가 그렇게 만든 팟캐스트를 Histories of Mysteris라는 이름으로 스포티파이에도 올려둠

이미지 입출력

카파시는 OCR할 때 항상 정확히 읽었는지 확인하고 나서 내용 물어보는 습관이 있음. 언제나 잘못 읽었을 가능성이 있기 때문.

실제 용례: 건강기능식품 영양 성분 확인, 채혈 검과 해석, 수식의 Latex 버전 얻기, 밈 해석하기 등

이미지 출력은 DALLE, IdeoGram 등으로 함. 이미지 생성은 LLM에 내장된 기능은 아니고 별도의 모델에 프롬프트를 넣어서, 출력된 이미지를 다시 가져오는 역할.

비디오 입출력

오디오처럼, Advanced Voice + Video를 입력으로 써서 대답하게 할 수 있음. 모바일 앱에서 가능. LLM이 진짜로 영상을 인풋으로 가져가는 대신 영상을 일정 프레임 별로 가져가서 이미지 입력으로 변환하는 식일 것

카파시 본인은 자주 쓰진 않으나 부모님 세대처럼 기술적 배경이 부족한 사람들도 바로 질문 답변할 수 있으니 좋음

시연 영상

비디오 출력은 Sora를 비롯한 여러 모델이 있음. 카파시는 현재는 Google Veo 2가 가장 현실적이라고 느낌

9개 영상 모델 비교

추가 기능들

메모리

사용자와 문답하다가 '이건 기억해두면 더 좋은 답변을 하겠다' 싶은 것, 또는 사용자가 명시적으로 기억해달라고 한 건 Memory Updated 라는 문구와 함께 저장됨
= 이것들은 새 채팅 만들 때마다 Context Window에 들어간다고 보면 됨. 전체 목록 보고 관리하는 것도 가능