데이터
비정형 데이터
Unstructured Data

행과 열로 정리되지 않은 텍스트, 이미지, 음성, 영상 형태의 데이터. 세상의 데이터 대부분이 비정형이며, AI가 이를 처리하는 능력이 LLM의 핵심 가치다.

개념 설명

데이터베이스 테이블처럼 정해진 구조가 있는 데이터가 정형 데이터라면, 이메일 본문·PDF 계약서·회의 녹음·SNS 게시물은 비정형 데이터다. 기업이 가진 데이터의 80~90%가 비정형이라는 추정이 있다. 기존 데이터 분석 도구는 비정형 데이터를 처리하기 어려웠는데, LLM이 등장하면서 비정형 데이터에서 의미와 정보를 추출하는 능력이 획기적으로 향상됐다.

사용 예시

비정형 데이터를 AI가 쓸 수 있게 만드는 파이프라인을 구축하는 것이 실질적인 작업이다. 이메일을 파싱해서 의도·긴급도·담당자를 추출하거나, 고객 리뷰를 분석해서 감성과 주제를 분류하거나, 계약서에서 핵심 조항을 추출하는 식이다. Unstructured.io, LlamaIndex 같은 라이브러리는 다양한 비정형 데이터 형식을 LLM이 처리하기 좋은 구조로 변환하는 전처리 파이프라인을 제공한다.

#데이터처리#텍스트#전처리
← AI Wiki에서 더 보기