Vector DB 회사에 2년간 다니면서 배운 것들

10 hours ago 1

벡터 DB인 Weaviate에 다니면서, 실제 운영 경험에서 얻은 37가지 교훈을 정리
↳ BM25, 키워드 검색의 효용부터 벡터 검색·임베딩·하이브리드 검색까지

1. BM25는 검색에서 강력한 베이스라인임

2. 벡터 검색은 근사적(Approximate)이지 정확(Exact)하지 않음

3. 벡터DB는 임베딩만 저장하지 않음

4. 벡터DB의 주용도는 생성AI가 아닌 ‘검색’

5. 검색 결과 개수를 직접 지정해야 함

6. 임베딩 종류는 다양함

7. 임베딩 모델 선택을 위한 벤치마크

8. MTEB의 대부분 모델은 영어 전용

9. 임베딩의 역사: Static vs Contextual

10. Sparse vector와 sparse embedding의 차이

11. 텍스트 외 다양한 데이터 임베딩 가능

12. 임베딩 차원수와 저장 비용

13. “Chat with your docs” 튜토리얼은 생성AI의 헬로월드

14. 임베딩 모델은 반복적으로 호출해야 함

15. 벡터 유사도와 실질적 relevance는 다를 수 있음

16. Cosine similarity와 cosine distance는 다름

17. 벡터 정규화 시 cosine similarity와 dot product는 동일

18. RAG의 R은 ‘vector search’가 아닌 ‘retrieval’

19. 벡터 검색은 검색 도구의 하나일 뿐

20. 키워드/벡터 검색의 적절한 적용

21. 하이브리드 검색의 의미

22. 필터링이 항상 속도를 올리진 않음

23. 2단계 검색 파이프라인의 유용성

24. 벡터 검색과 리랭킹의 차이

25. 임베딩할 chunk 크기 선정의 어려움

26. 벡터 인덱싱 라이브러리와 벡터DB의 차이

27. LLM context 확장에도 RAG는 계속 진화

28. 벡터 양자화로 97% 정보 줄여도 검색 유지

29. 벡터 검색은 오타에 robust하지 않음

30. 검색 품질 평가 지표 다양

31. Precision-Recall trade-off 실전 예시

32. 검색 결과의 순서 반영 지표

33. 토크나이저의 영향력

34. Out-of-domain과 out-of-vocabulary는 다름

35. 쿼리 최적화의 필요성

36. 벡터 검색 이후의 패러다임

37. 정보검색(리트리벌)은 지금 가장 ‘핫’한 분야

Vector DB 회사에 2년간 다니면서 배운 것들

1. BM25는 검색에서 강력한 베이스라인임

2. 벡터 검색은 근사적(Approximate)이지 정확(Exact)하지 않음

3. 벡터DB는 임베딩만 저장하지 않음

4. 벡터DB의 주용도는 생성AI가 아닌 ‘검색’

5. 검색 결과 개수를 직접 지정해야 함

6. 임베딩 종류는 다양함

7. 임베딩 모델 선택을 위한 벤치마크

8. MTEB의 대부분 모델은 영어 전용

9. 임베딩의 역사: Static vs Contextual

10. Sparse vector와 sparse embedding의 차이

11. 텍스트 외 다양한 데이터 임베딩 가능

12. 임베딩 차원수와 저장 비용

13. “Chat with your docs” 튜토리얼은 생성AI의 헬로월드

14. 임베딩 모델은 반복적으로 호출해야 함

15. 벡터 유사도와 실질적 relevance는 다를 수 있음

16. Cosine similarity와 cosine distance는 다름

17. 벡터 정규화 시 cosine similarity와 dot product는 동일

18. RAG의 R은 ‘vector search’가 아닌 ‘retrieval’

19. 벡터 검색은 검색 도구의 하나일 뿐

20. 키워드/벡터 검색의 적절한 적용

21. 하이브리드 검색의 의미

22. 필터링이 항상 속도를 올리진 않음

23. 2단계 검색 파이프라인의 유용성

24. 벡터 검색과 리랭킹의 차이

25. 임베딩할 chunk 크기 선정의 어려움

26. 벡터 인덱싱 라이브러리와 벡터DB의 차이

27. LLM context 확장에도 RAG는 계속 진화

28. 벡터 양자화로 97% 정보 줄여도 검색 유지

29. 벡터 검색은 오타에 robust하지 않음

30. 검색 품질 평가 지표 다양

31. Precision-Recall trade-off 실전 예시

32. 검색 결과의 순서 반영 지표

33. 토크나이저의 영향력

34. Out-of-domain과 out-of-vocabulary는 다름

35. 쿼리 최적화의 필요성

36. 벡터 검색 이후의 패러다임

37. 정보검색(리트리벌)은 지금 가장 ‘핫’한 분야

게임 정보

취업 정보

온라인 툴

유용한 정보

유튜브