Document Loader - 문서 로더
Last updated
Last updated
from langchain_community.document_loaders import TextLoader
# 텍스트 파일 로드
loader = TextLoader("example.txt")
documents = loader.load()
# 로드된 문서 확인
print(documents)from langchain_community.document_loaders import PyPDFLoader
# PDF 문서 로드
loader = PyPDFLoader("document.pdf")
documents = loader.load()
# 출력
print(documents[0].page_content) # 첫 페이지 내용 출력from langchain_community.document_loaders import WebBaseLoader
import bs4
# 웹사이트 크롤링 후 텍스트 추출
loader = WebBaseLoader(web_paths=
("https://khedu.co.kr/main/main.kh",) ,
bs_kwargs=dict(
parse_only=bs4.SoupStrainer( #크롤링할 태그, 클래스 등 설정 가능
["section" , "div"]
)
),
header_template={
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36",
},
)
loader.requests_kwargs = {"verify": False} # ssl인증 우회
documents = loader.load()
# 웹 페이지의 텍스트 출력
print(documents[0].page_content)