PDF, 워드, 스캔 이미지 등 다양한 형식의 문서에서 텍스트와 구조 정보를 추출하는 전처리 기술. RAG 파이프라인의 첫 번째 단계이자 데이터 품질을 결정하는 기반이다.
LLM에게 문서를 이해시키려면 먼저 문서를 텍스트로 변환해야 한다. 단순히 텍스트를 추출하는 것을 넘어, 표의 행/열 구조, 헤더 계층, 페이지 번호, 각주처럼 레이아웃 정보도 보존해야 검색과 참조가 정확해진다. 스캔 이미지는 OCR로 텍스트화하고, 복잡한 PDF는 레이아웃 분석 모델이 필요하다.
RAG 파이프라인을 구축할 때 문서 파싱이 첫 번째 병목이 된다. PyMuPDF, pdfplumber로 기본 PDF 텍스트 추출이 가능하고, 표와 이미지가 많은 복잡한 문서에는 LlamaParse, Unstructured.io 같은 전문 서비스가 더 낫다. Claude나 GPT-4o의 멀티모달 능력을 활용해 PDF 페이지를 이미지로 변환해서 직접 넘기는 방식도 구조 이해가 중요한 경우에 쓴다. 파싱 품질이 검색 정확도에 직결되므로 파이프라인 초기에 충분히 검증해야 한다.