Document Loader - 문서 로더

Document Loader
Document Loader는 LangChain에서 다양한 형식(JSON,PDF,CSV,HTML,VIDEO,....)의 파일로부터 데이터를 로드하여 자연어 처리 또는 검색 기반 AI 애플리케이션에서 활용 할 수 있는 데이터(Embedding Vector)로 변환 하는 역할을 합니다.
Document Loader 동작방식
로드할 데이터의 형식에 맞는 Loader를 준비합니다.
pdf파일에서 데이터를 가져오려면 PDFPlumberLoader
URL에서 html페이지를 가져오려면 WebBaseLoader
SQLDB에서 데이터를 가져오려면 SQLDatabaseLoader 등 종류에 맞춰서 준비
텍스트 전처리 및 변환
소스 문서에서 로드한 텍스트들 중 불필요한 태그, 띄어쓰기, 공백들을 제거한다.
텍스트가 아닌 형식의 파일(IMG, PDF 등)들을 텍스트 데이터로 변환한다.
Document Loader 실습
1) txt 파일 로드
2) pdf 로드
3) html 로드
Last updated