首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

教程:使用 Chroma 和 OpenAI 构建自定义问答机器人

在最初为学院奖构建问答机器人时,我们实现了基于一个自定义函数相似性搜索,该函数计算两个向量之间余弦距离。我们将用一个查询替换掉该函数,在Chroma搜索存储集合。...为了完整起见,我们开始设置环境准备数据集。这与本教程中提到步骤相同。 步骤1 - 准备数据集 从 Kaggle 下载奥斯卡奖数据集,并将 CSV 文件移到名为 data 子目录。...数据集包含 1927 年至 2023 年奥斯卡金像奖所有类别、提名和获奖者。我 CSV 文件重命名为 oscars.csv 。...,让我们在 dataframe 添加一个包含整个提名句子列。...由于 Chroma 存储每个文档还需要字符串格式 ID ,所以我们 dataframe 索引列转换为字符串列表

29110
您找到你想要的搜索结果了吗?
是的
没有找到

Linux基础——正则表达式

模式描述在查找文字主体时待匹配一个或多个字符串。 正则表达式作为一个模板,某个字符模式与所搜索字符串进行匹配。....*3[0-5]可找到第2行) ^ *[A-Z][a-z][a-z]$ 搜索0个或多个空格开头,跟一个大写字母,两个小写字母和一个换行符。找到第4行TOM(整行匹配)和第5行。...反检索,只显示不匹配行 8、精确匹配:\ 例如在抽取字符串“ 48”,返回结果包含诸如 484 和483 等包含“48”其他字符串,实际上应精确抽取只包含 48 各行。...commands 是真正 awk 命令, input-files 是待处理文件。 iput_files 可以是多于一个文件文件列表,awk按顺序处理列表每个文件。...脚本提交给cron 进程来运行,如果某个日志文件超过了特定长度,那么它内容将被倒换到另一个文件清除原有文件内容。 脚本中日志文件长度限制是由变量BLOCK_LIMIT设定

4.3K30

python数据分析——数据预处理

,首先使用pandas库read_csv方法导入sales.csv文件,然后使用info()方法,查看数据基本信息,代码及输出结果如下: import numpy as np import...例】请利用python查看上例sales.csv文件数据表大小,要求返回数据表中行个数和列个数。...关于set_index 参数 keys : 要设置为索引列名(如有多个应放在一个列表里) drop : 将设置为索引列删除,默认为True append : 是否索引追加到原索引后(即是否保留原索引...方法重置索引外,还可以在导入csv文件过程,设置index_col参数重置索引,代码及结果如下: 6.3重命名索引 【例】构建series对象,其数据为[88,60,75],对应索引为[1,2,3...7.3数据删除 按列删除数据 【例】请构建如下DataFrame数据利用Python删除下面DataFrame实例第四列数据。

33710

如何使用Python构建价格追踪器进行价格追踪

读取产品 URL 列表 存储和管理产品URL最简单办法就是将它们保存在CSV或JSON文件。这次使用CSV,便于我们通过文本编辑器或电子表格应用程序进行更新。...CSV文件应该至少包含两个字段——url和alert_price。产品标题可以从产品URL中提取,也可以存储在同一个CSV文件。...def get_urls(csv_file): df = pd.read_csv(csv_file) return df该函数返回一个PandasDataFrame对象,其中包含三栏...我们来循环运行所有代码,用信息更DataFrame。最简单方法是每一行转换成一个字典。这样,您可以读取URL,调用get_price()函数,更新所需字段。...(updated_products)这个函数返回一个DataFrame对象,包含产品URL和从CSV读取名称。

6K40

通宵翻译Pandas官方文档,写了这份Excel万字肝货操作!

读取外部数据 Excel 和 pandas 都可以从各种来源各种格式导入数据。 CSV 让我们从 Pandas 测试中加载显示提示数据集,这是一个 CSV 文件。...在 Excel ,您将下载打开 CSV。在 pandas ,您将 CSV 文件 URL 或本地路径传递给 read_csv()。...pandas 通过在 DataFrame 中指定单个系列来提供矢量化操作。可以相同方式分配列。DataFrame.drop() 方法从 DataFrame 删除一列。...查找子串位置 FIND电子表格函数返回字符串位置,第一个字符为 1。 您可以使用 Series.str.find() 方法查找字符串字符位置。find 搜索字符串第一个位置。...如果找到子字符串,则方法返回其位置。如果未找到,则返回 -1。请记住,Python 索引是从零开始。 tips["sex"].str.find("ale") 结果如下: 3.

19.5K20

shell脚本扩展「建议收藏」

模式描述在查找文字主体时待匹配一个或多个字符串。 正则表达式作为一个模板,某个字符模式与所搜索字符串进行匹配。....*3[0-5]可找到第2行) ^ *[A-Z][a-z][a-z]$ 搜索0个或多个空格开头,跟一个大写字母,两个小写字母和一个换车符。找到第4行TOM(整行匹配)和第5行。...反检索,只显示不匹配行 8、精确匹配: 例如在抽取字符串“ 48”,返回结果包含诸如484和483等包含“48”其他字符串,实际上应精确抽取只包含48各行。...iput_files可以是多于一个文件文件列表,awk按顺序处理列表每个文件。 在awk文件每一行,由域分隔符分开每一项称为一个域。...脚本提交给cron进程来运行,如果某个日志文件超过了特定长度,那么它内容将被倒换到另一个文件清除原有文件内容。 脚本中日志文件长度限制是由变量BLOCK_LIMIT设定

5.7K20

数据分析篇 | PyCon 大咖亲传 pandas 25 式,长文建议收藏

字符串转换为数值 再创建一个 DataFrame 示例。 ? 这个 DataFrame数字其实是以字符串形式保存,因此,列类型是 object。 ?...使用 Python 内置 glob 更方便。 ? 把文件名规则传递给 glob(),这里包括通配符,即可返回包含所有合规文件列表。...本例里,glob 会查找 data 子目录里所有 stocks 开头 CSV 文件。 ? glob 返回是无序文件名,要用 Python 内置 sorted() 函数排序列表。...用多个文件建立 DataFrame ~ 按列 上个技巧按行合并数据集,但是如果多个文件包含不同列,怎么办? 本例 drinks 数据集分为了两个 CSV 文件,每个文件包含 3 列。 ?...把 Series 里列表转换为 DataFrame 创建一个 DataFrame 示例。 ? 这里包含了两列,第二列包含是 Python 整数列表

7.1K20

整理了 25 个 Pandas 实用技巧,拿走不谢!

数据集描述了每个国家平均酒消费量。如果你想要将行序反转呢? 最直接办法是使用loc函数传递::-1,跟Python列表反转时使用切片符号一致: ?...按行从多个文件构建DataFrame 假设你数据集分化为多个文件,但是你需要将这些数据集读到一个DataFrame。 举例来说,我有一些关于股票小数聚集,每个数据集为单天CSV文件。...你可以给glob()函数传递某种模式,包括未知字符,这样它会返回符合该某事文件列表。在这种方式下,glob会查找所有stocks开头CSV文件: ?...为了避免这种情况,我们需要告诉concat()函数来忽略索引,使用默认整数索引: ? 10. 按列从多个文件构建DataFrame 上一个技巧对于数据集中每个文件包含行记录很有用。...一个由列表组成Series扩展成DataFrame 让我们创建一个示例DataFrame: ? 这里有两列,第二列包含了Python由整数元素组成列表

3.2K10

Pandas 25 式

字符串转换为数值 再创建一个 DataFrame 示例。 ? 这个 DataFrame数字其实是以字符串形式保存,因此,列类型是 object。 ?...使用 Python 内置 glob 更方便。 ? 把文件名规则传递给 glob(),这里包括通配符,即可返回包含所有合规文件列表。...本例里,glob 会查找 data 子目录里所有 stocks 开头 CSV 文件。 ? glob 返回是无序文件名,要用 Python 内置 sorted() 函数排序列表。...用多个文件建立 DataFrame ~ 按列 上个技巧按行合并数据集,但是如果多个文件包含不同列,怎么办? 本例 drinks 数据集分为了两个 CSV 文件,每个文件包含 3 列。 ?...把 Series 里列表转换为 DataFrame 创建一个 DataFrame 示例。 ? 这里包含了两列,第二列包含是 Python 整数列表

8.4K00

数据分析从零开始实战 | 基础篇(四)

理解 数据地址(网页地址、包含HTML文件地址或者字符串)。 注意lxml只接受HTTP、FTP和文件URL协议。...我理解 字符串或编译正则表达式,可选 包含与此正则表达式或字符串匹配文本一组表返回。 除非HTML非常简单,否则您可能需要在此处传递一个非空字符串。....+”(匹配任何非空字符串)。默认值返回页面上包含所有标签包含表格。 转换为正则表达式,以便Beautiful Soup和LXML之间一致。...我理解 默认为False,表示不在原对象上操作, 而是复制一个对象进行操作返回; 值为True时,表示直接在原对象上进行操作。...我理解 其实很简单,就是按列搜索空值,然后limit值表示最大连续填充空值个数。 比如:limit=2,表示一列从上到下搜索,只替换前两个空值,后面都不替换。

1.3K20

一行代码Pandas加速4倍

虽然 panda 是 Python 中用于数据处理库,但它并不是真正为了速度而构建。了解一下库 Modin,Modin 是为了分布式 panda 计算来加速你数据准备而开发。...对于一个 pandas DataFrame,一个基本想法是 DataFrame 分成几个部分,每个部分数量与你拥有的 CPU 内核数量一样多,让每个 CPU 核在一部分上运行计算。...CSV 每一行都包含了 CS:GO 比赛一轮数据。 现在,我们尝试使用最大 CSV 文件(有几个),esea_master_dmg_demo .part1.csv,它有 1.2GB。...让我们在 DataFrame 上做一些更复杂处理。连接多个 DataFrames 是 panda 一个常见操作 — 我们可能有几个或多个包含数据 CSV 文件,然后必须一次读取一个连接它们。...此函数查找 DataFrame 所有 NaN 值,并将它们替换为你选择值。panda 必须遍历每一行和每一列来查找 NaN 值替换它们。

2.9K10

Python pandas读取Excel文件

这里我们探讨两种方法:pd.read_excel()和pd.read_csv()。 pd.read_excel()方法及参数 read_excel()方法包含大约几十个参数,其中大多数是可选。...usecols可以是整数、字符串列表,用于指示pandas仅从Excel文件中提取某些列。...pf.read_excel('D:\用户.xlsx',sheet_name=[0,2])返回excel文件第一个和第三个工作表。返回值是数据框架字典。...header 如果由于某种原因,Excel工作表上数据不是从第1行开始,你可以使用header告诉Panda“嘿,此数据标题在第X行”。示例Excel文件第四个工作表从第4行开始。...CSV代表“逗号分隔值”,因此.CSV文件基本上是一个文本文件,其值由逗号分隔。这意味着还可以使用此方法任何.txt文件读入Python。

4.4K40

一行代码Pandas加速4倍

虽然 panda 是 Python 中用于数据处理库,但它并不是真正为了速度而构建。了解一下库 Modin,Modin 是为了分布式 panda 计算来加速你数据准备而开发。...对于一个 pandas DataFrame,一个基本想法是 DataFrame 分成几个部分,每个部分数量与你拥有的 CPU 内核数量一样多,让每个 CPU 核在一部分上运行计算。...CSV 每一行都包含了 CS:GO 比赛一轮数据。 现在,我们尝试使用最大 CSV 文件(有几个),esea_master_dmg_demo .part1.csv,它有 1.2GB。...让我们在 DataFrame 上做一些更复杂处理。连接多个 DataFrames 是 panda 一个常见操作 — 我们可能有几个或多个包含数据 CSV 文件,然后必须一次读取一个连接它们。...此函数查找 DataFrame 所有 NaN 值,并将它们替换为你选择值。panda 必须遍历每一行和每一列来查找 NaN 值替换它们。

2.6K10

Python 数据分析(PYDA)第三版(三)

);等同于使用选择所有内容查询使用read_sql read_stata 从 Stata 文件格式读取数据集 read_xml 从 XML 文件读取数据表 我概述这些函数机制,这些函数旨在文本数据转换为...这些函数可选参数可能属于几个类别: 索引 可以一个或多个列视为返回 DataFrame确定是否从文件、您提供参数或根本不获取列名。...JSON 对象或对象列表转换为 DataFrame 或其他数据结构进行分析取决于您。...pandas.read_html函数有许多选项,但默认情况下它会搜索尝试解析包含在标签所有表格数据。...,并将任何区域特定可变字符组合转换为一个通用可比较形式 ljust, rjust 分别左对齐或右对齐;用空格(或其他填充字符)填充字符串对侧,返回具有最小宽度字符串 正则表达式 正则表达式提供了一种灵活方式来在文本搜索或匹配

19500

在几秒钟内数千个类似的电子表格文本单元分组

包含了从1984年2018年由于最低工资或加班违规而对雇主进行每次DOL调查。...没有理由所有这些零存储在内存。如果这样做,就有可能耗尽RAM触发一个MemoryError。 输入CSR矩阵,矩阵仅存储矩阵非零值和对其原始位置引用。...但是如果使用由ING Bank数据科学家构建这个模块,可以在构建矩阵时按照相似性阈值进行过滤。方法比scikit-learn更快,返回内存密集度较低CSR矩阵供使用。...第三步:构建一个哈希表,发现转换为电子表格“组”列 现在要构建一个Python字典,其中包含legal_name列每个唯一字符串键。 最快方法是CSR矩阵转换为坐标(COO)矩阵。...矢量化Panda 最后,可以在Pandas中使用矢量化功能,每个legal_name值映射到GroupDataFrame导出新CSV

1.8K20

快速提升效率6个pandas使用小技巧

strings改为numbers 在pandas,有两种方法可以字符串改为数值: astype()方法 to_numeric()方法 先创建一个样本dataframe,看看这两种方法有什么不同。...对连续数据进行离散化处理 在数据准备过程,常常会组合或者转换现有特征创建一个特征,其中将连续数据离散化是非常重要特征转化方式,也就是数值变成类别特征。...从多个文件构建一个DataFrame 有时候数据集可能分布在多个excel或者csv文件,但需要把它读取到一个DataFrame,这样需求如何实现?...在上图中,glob()在指定目录查找所有“ data_row_”开头CSV文件。 glob()任意顺序返回文件名,这就是为什么使用sort()函数对列表进行排序原因。..._*.csv'))返回文件名,然后逐个读取,并且使用concat()方法进行合并,得到结果: 「列合并」 假设数据集按列分布在2个文件,分别是data_row_1.csv和data_row_2.csv

3.2K10

6个提升效率pandas小技巧

strings改为numbers 在pandas,有两种方法可以字符串改为数值: astype()方法 to_numeric()方法 先创建一个样本dataframe,看看这两种方法有什么不同。...对连续数据进行离散化处理 在数据准备过程,常常会组合或者转换现有特征创建一个特征,其中将连续数据离散化是非常重要特征转化方式,也就是数值变成类别特征。...从多个文件构建一个DataFrame 有时候数据集可能分布在多个excel或者csv文件,但需要把它读取到一个DataFrame,这样需求如何实现?...做法是分别读取这些文件,然后多个dataframe组合到一起,变成一个dataframe。 这里使用内置glob模块,来获取文件路径,简洁且更有效率。 ?...在上图中,glob()在指定目录查找所有“ data_row_”开头CSV文件。 glob()任意顺序返回文件名,这就是为什么使用sort()函数对列表进行排序原因。

2.4K20

6个提升效率pandas小技巧

strings改为numbers 在pandas,有两种方法可以字符串改为数值: astype()方法 to_numeric()方法 先创建一个样本dataframe,看看这两种方法有什么不同。...对连续数据进行离散化处理 在数据准备过程,常常会组合或者转换现有特征创建一个特征,其中将连续数据离散化是非常重要特征转化方式,也就是数值变成类别特征。...从多个文件构建一个DataFrame 有时候数据集可能分布在多个excel或者csv文件,但需要把它读取到一个DataFrame,这样需求如何实现?...做法是分别读取这些文件,然后多个dataframe组合到一起,变成一个dataframe。 这里使用内置glob模块,来获取文件路径,简洁且更有效率。 ?...在上图中,glob()在指定目录查找所有“ data_row_”开头CSV文件。 glob()任意顺序返回文件名,这就是为什么使用sort()函数对列表进行排序原因。

2.8K20
领券