ChatGPT는 가장 유명하고, 가장 기능이 많음. 그 외에는 이런 것들이 유명함 LLM은 인터넷 문서 전체를 1TB로 손실 압축한 zip 파일과 유사. 이 안에 수조 개의 파라미터가 있는 인공신경망이 있고 그게 '다음 글자'를 확률적으로 뱉어냄 이 압축파일은 크게 두 종류 학습을 해서 만듦 사전 학습: 수천만 달러 + 3개월 이상 듦. 비용 많이 드니까 자주 못하고, 그래서 knowldge cutoff가 생김 사후 학습: 훨씬 저비용으로 파인튜닝. 단순히 인터넷 문서를 뱉어주는 게 아니라 사용자의 질문에 답하는 Assistant로서 처럼 동작하게 만듦 ChatGPT에서 새 세션을 만들어 유저가 메시지를 입력하면 그게 토큰화되어 모델의 인풋으로 들어가고, 그걸 통해 LLM이 다음 토큰을 만듦. 그리고 이 대화(유저의 입력, ChatGPT의 출력)는 모두 Context Window 안에 저장됨. Context Window는 인간의 작업기억(Working Memory)와 유사하며, 인간과 마찬가지로 한계가 있음. Context Window가 길어질수록 부정확한 정보를 줄 가능성이 조금 더 높아지고, 다음 답변 생성도 조금 더 비싸짐(= 느려짐). 따라서 꼭 필요하지 않다면 한 세션을 오래 유지하는 게 그리 좋은 선택은 아님 기존의 사전/사후 학습을 거친 LLM에, 복잡한 STEM(과학, 기술, 공학, 수학) 문제에 대한 답을 긴 사고 과정을 통해 답변할 수 있도록 추가로 강화학습한 모델 여러 토큰을 뱉어내면서 '생각'을 하기 때문에 비용도 시간도 많이 걸리는 대신 복잡한 문제에 대한 답변 정확도가 급격히 올라감 '생각'을 하는 모델이 문제를 꼭 정확히 푸는 것도 아니고, 반대로 '생각'이 없는 모델도 문제를 정확히 풀 수 있음에 주의(카파시가 준 복잡한 디버깅 문제를 모든 생각 모델은 성공했고 ChatGPT-4o는 실패했지만 , Sonnet 3.5, Gemini 2.0 Pro, Grok 3는 Thinking 없이도 성공) 카파시는 일단 답변이 빨리 돌아오는 non-thinking 모델로 테스트해보고, 답변이 의심스러우면 Thinking을 써보는 식으로 사용한다고 함 인터넷 검색이 가능한 모델이 있고 아닌 모델이 있음. (꼭 검색이 아니더라도) 우린 항상 이 모델이 뭘 할 수 있는지 알고 써야 함 검색은 가장 기본적으로는 Knowledge Cutoff 때문에 최신 데이터에 대한 답변을 할 수 없기 때문에 필요. 초기 ChatGPT에서 이게 안됐던 걸 Perplexity가 뚫어내서 많은 사용자를 모았음 유저 쿼리에 따라 '이건 검색을 해야 한다'는 판단을 해서, 인터넷 검색한 결과를 토큰화해서 Context Window에 집어넣은 상태로 답변하는 것. (어떨 때는 명시적으로 검색해서 알려달라고 해야 할 수도 있음) 카파시는 요즘 구글링 대신 Perplexity에 묻는 일이 많음. '이런 정보는 Perplexity에 물어봐야지' 하는 습관이 생김 간단히 얘기하면 인터넷 검색 + Thinking임. 길면 몇십분간 검색하고, 그렇게 얻은 정보를 Thinking을 통해 정리해서 리포트를 만들어줌. ChatGPT 딥리서치의 특징은 더 좋은 리포트를 만들기 위해, 질문자의 의도는 뭐고 어디에 집중할지 물어본 다음 시작한다는 것. 유사 기능으로 Perplexity에도 딥 리서치가 있고, Grok3에도 '딥 서치'가 있음. 각각의 속도와 품질이 다 다름. 인터넷 검색과 마찬가지로 여기서도 답변이 정확하지 않을 수 있음에 주의. 출처를 직접 확인해볼 필요가 있으나, '굉장히 유용한 초안'이긴 함 카파시는 20여개 정도 딥리서치 해봤는데 ChatGPT 답변이 가장 (유의미한 정보로) 길어서 가장 좋았음. 카파시가 던졌던 주제들: LLM이 코드를 작성해서 실행한 다음, 코드의 결과물을 컨텍스트에 넣어서 답변해주는 것. 파이썬도 있고 자바스크립트도 있음. 잘 쓰면 아주 강력함. 똘똘한 주니어 하나 마련했다보 보면 됨 LLM과 텍스트만 주고받는 게 아니라 오디오, 이미지, 비디오도 가능 오디오 입력은 카파시는 SuperWhisper, WisprFlow, MacWhisper 등 맥 받아쓰기 앱 활용. 예전같았으면 타이핑했을 것의 대략 절반은 말로 한다고 함. 오디오 출력은 대개 앱 내에서 기능 제공. 화면 받아쓰기 해도 됨 근데 이것들은 여전히 근본적으로는 텍스트로 주고받는 것. Speech-to-Text 후 다시 Text-to-Speech 해야 하니까 느림. 진짜로 오디오만으로 LLM과 주고받는 것도 가능. 오디오 정보를 토큰화하는 것. 이걸 카파시는 True Audio라고 부르고, ChatGPT에서는 Advanced Voice Mode라고 부름. Grok3도 모바일 앱에서 Advanced Voice Mode를 제공함. 섹시 모드, 욕설 모드 등 노빠꾸 모델이 많아서 어떤 면에서는 더 재밌고 흥미롭기도 함 NotebookLM은 파일을 업로드해서 분석하고, 그 내용을 기반으로 여러 진행자가 자연스러운 음성으로 팟캐스트를 진행하게 하는 것도 가능. 사이에 내가 개입해서 질문도 자유롭게 할 수 있음(Interactive Mode). 카파시는 OCR할 때 항상 정확히 읽었는지 확인하고 나서 내용 물어보는 습관이 있음. 언제나 잘못 읽었을 가능성이 있기 때문. 실제 용례: 건강기능식품 영양 성분 확인, 채혈 검과 해석, 수식의 Latex 버전 얻기, 밈 해석하기 등 이미지 출력은 DALLE, IdeoGram 등으로 함. 이미지 생성은 LLM에 내장된 기능은 아니고 별도의 모델에 프롬프트를 넣어서, 출력된 이미지를 다시 가져오는 역할. 오디오처럼, Advanced Voice + Video를 입력으로 써서 대답하게 할 수 있음. 모바일 앱에서 가능. LLM이 진짜로 영상을 인풋으로 가져가는 대신 영상을 일정 프레임 별로 가져가서 이미지 입력으로 변환하는 식일 것 카파시 본인은 자주 쓰진 않으나 부모님 세대처럼 기술적 배경이 부족한 사람들도 바로 질문 답변할 수 있으니 좋음 비디오 출력은 Sora를 비롯한 여러 모델이 있음. 카파시는 현재는 Google Veo 2가 가장 현실적이라고 느낌 카파시는 한국어 공부를 위한 GPTs를 여러 개 만들어서 활용하고 있음. 간단한 프롬프트에 Few-Shot 사용. Korean Vocabulary Extractor: 한글 문장을 쪼개서 용어들을 추출해줌 Korean Detailed Translator: 위와 유사한데 단어 바이 단어로 매칭해서 번역해줌 KoreanCap: 이미지 캡처해서 주면 OCR 후 번역하고, 발음까지 포함해서 단어별로 쪼개줌
여러 종류의 LLM이 있음
ChatGPT는 어떻게 동작하는가
언제 'Thinking' 모델을 써야 할까
LLM을 돕는 도구들
인터넷 검색
딥 리서치
코드 인터프리터
모달리티
오디오 입출력
이미지 입출력
비디오 입출력
추가 기능들
메모리
= 이것들은 새 채팅 만들 때마다 Context Window에 들어간다고 보면 됨. 전체 목록 보고 관리하는 것도 가능Customize
Custom GPTs