컴퓨터가 인간의 언어를 이해하고 생성하는 기술 분야. LLM 등장 전부터 번역, 감성 분석, 정보 추출 등에 쓰였고, LLM이 NLP의 거의 모든 과제를 통합했다.
자연어 처리는 텍스트를 컴퓨터가 이해할 수 있는 형식으로 다루는 기술의 총칭이다. 형태소 분석, 품사 태깅, 개체명 인식(NER), 감성 분석, 기계번역, 질의응답, 텍스트 요약 등이 전통적인 NLP 과제다. Transformer와 BERT, GPT 계열이 등장하면서 이 모든 과제에서 기존 방식을 압도하는 성능이 나왔다.
Python에서 NLP 작업을 할 때는 spaCy(빠른 파이프라인), NLTK(교육용), Hugging Face Transformers(최신 모델)가 대표 라이브러리다. 고객 리뷰에서 감성을 분류하거나, 계약서에서 날짜와 금액을 추출하거나, 문서를 카테고리로 분류하는 작업을 API 호출 없이 로컬에서 처리할 수 있다. 요즘은 많은 NLP 작업이 LLM API 호출로 대체되고 있지만, 레이턴시와 비용이 중요할 때는 경량 NLP 모델이 여전히 유용하다.