前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AI大模型企业应用实战(11)-Document Loader文件加载器机制

AI大模型企业应用实战(11)-Document Loader文件加载器机制

原创
作者头像
JavaEdge
发布2024-08-16 22:53:48
650
发布2024-08-16 22:53:48
举报
文章被收录于专栏:大模型应用开发

loader机制让大模型具备实时学习的能力:

0 Loader机制

案例环境准备:

代码语言:python
代码运行次数:0
复制
import os

os.environ["OPENAI_API_KEY"] = "sk-javaedge"
os.environ["OPENAI_PROXY"] = "https://api.chatanywhere.tech"


import os
from dotenv import load_dotenv
# Load environment variables from openai.env file
load_dotenv("openai.env")

# Read the OPENAI_API_KEY from the environment
api_key = os.getenv("OPENAI_API_KEY")
api_base = os.getenv("OPENAI_API_BASE")
os.environ["OPENAI_API_KEY"] = api_key
os.environ["OPENAI_API_BASE"] = api_base

1 加载markdown

准备一个 md 文件:

代码语言:markdown
复制
# 我是一个markdown加载示例
- 第一项目
- 第二个项目
- 第三个项目

## 第一个项目
编程严选网,最厉害专业的AI研究基地

## 第二个项目
AIGC打造未来AI应用天地

## 第三个项目
编程严选网是一个非常牛逼的AI媒体
代码语言:python
代码运行次数:0
复制
#使用loader来加载markdown文本
from langchain.document_loaders import TextLoader

loader = TextLoader("loader.md")
loader.load()

2 加载cvs

代码语言:csv
复制
Project,DES,Price,People,Location
AI GC培训,培训课程,500,100,北京
AI工程师认证,微软AI认证,6000,200,西安
AI应用大会,AI应用创新大会,200门票,300,深圳
AI 应用咨询服务,AI与场景结合,1000/小时,50,香港
AI项目可研,可行性报告,20000,60,上海
代码语言:python
代码运行次数:0
复制
#使用 CSVLoader 来加载 csv 文件
from langchain.document_loaders.csv_loader import CSVLoader

#loader = Loader(file_path="loader.")
loader = CSVLoader(file_path="loader.csv")
data = loader.load()
print(data)

3 加载html

先下包:

代码语言:python
代码运行次数:0
复制
! pip install "unstructured[xlsx]"

加载文件目录

代码语言:python
代码运行次数:0
复制
from langchain.document_loaders import UnstructuredHTMLLoader

loader = UnstructuredHTMLLoader("loader.html")
data = loader.load()
data

会加载 html 所有内容。

代码语言:python
代码运行次数:0
复制
from langchain.document_loaders import BSHTMLLoader
loader = BSHTMLLoader("loader.html")
data = loader.load()
data

只加载去除标签后的关键内容:

4 加载JSON

先装 jq 包:

代码语言:python
代码运行次数:0
复制
 ! pip install jq
代码语言:python
代码运行次数:0
复制
from langchain.document_loaders import JSONLoader
loader = JSONLoader(
    file_path = "simple_prompt.json",jq_schema=".template",text_content=True
)
data = loader.load()
print(data)

5 加载PDF

先装包:

代码语言:python
代码运行次数:0
复制
! pip install pypdf
代码语言:python
代码运行次数:0
复制
from langchain.document_loaders import PyPDFLoader
loader = PyPDFLoader("loader.pdf")
pages = loader.load_and_split()
pages[0]

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 0 Loader机制
  • 1 加载markdown
  • 2 加载cvs
  • 3 加载html
  • 4 加载JSON
  • 5 加载PDF
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档