네이버 뉴스 RAG 실습(2) - Chunk 단위로 나누고 임베딩 왜 청크로 나누어야 할까? (청킹의 이유)문서가 너무 크기 때문GPT나 임베딩 모델이 한 번에 처리할 수 있는 토큰(token) 수에는 제한이 있음검색 정확도를 높이기 위해서전체 문서를 통으로 벡터화하면 "어느 부분이 관련 있는지"를 찾기 어렵다→ 그래서 문서를 문단, 문장 등 "작은 단위"로 나눠서 그 조각들을 각각 벡터화함→ 검색할 땐 관련된 조각만 찾아서 답변으로 활용할 수 있다RAG (Retrieval-Augmented Generation) 기반 챗봇에 필수예: "우리 회사 정책이 어떻게 돼?"라는 질문에 문서 중 관련 청크를 찾아서 GPT에게 전달해주면→ GPT가 맥락에 맞게 답변해주는 구조벡터 DB(Vector Database)란?문자나 문서의 의미(semantic)를 숫자 벡터로 변환해 저장.. 카테고리 없음 5일 전