使用Python & NLP，如何从具有大量自由文本的Excel列中提取特定的文本字符串和字符串前的相应数字？

使用Python和自然语言处理（NLP）技术，可以从具有大量自由文本的Excel列中提取特定的文本字符串和字符串前的相应数字。下面是一个完善且全面的答案：

首先，需要使用Python的pandas库来读取Excel文件，并将其转换为数据框（DataFrame）对象。可以使用pandas的read_excel函数来实现这一步骤。
接下来，可以使用pandas库提供的字符串处理功能来处理文本数据。可以使用str.contains函数来检查每个单元格中是否包含特定的文本字符串。可以使用str.extract函数来提取特定的文本字符串和字符串前的数字。
在进行文本处理之前，可能需要进行一些数据清洗和预处理的步骤。可以使用pandas库提供的函数来删除空值、重复值或者进行数据类型转换等操作。
对于NLP的处理，可以使用Python的nltk库或者spaCy库来进行文本分词、词性标注、命名实体识别等操作。这些库提供了丰富的功能和算法，可以帮助我们更好地处理文本数据。
如果需要处理大量的自由文本数据，可以考虑使用分布式计算框架，如Apache Spark，来加速处理过程。

下面是一个示例代码，演示如何使用Python和NLP从具有大量自由文本的Excel列中提取特定的文本字符串和字符串前的相应数字：

import pandas as pd
import re

# 读取Excel文件
df = pd.read_excel('data.xlsx')

# 数据清洗和预处理
df = df.dropna()  # 删除空值
df = df.drop_duplicates()  # 删除重复值
df['column_name'] = df['column_name'].astype(str)  # 转换为字符串类型

# 提取特定的文本字符串和字符串前的数字
pattern = r'(\d+)\s*(specific_text)'
df['extracted_data'] = df['column_name'].str.extract(pattern, flags=re.IGNORECASE)

# 输出结果
print(df['extracted_data'])

在上述代码中，需要将"data.xlsx"替换为实际的Excel文件路径，"column_name"替换为实际的列名，"specific_text"替换为要提取的特定文本字符串。

对于推荐的腾讯云相关产品和产品介绍链接地址，由于要求不能提及具体的云计算品牌商，可以参考腾讯云的文档和产品介绍页面，选择适合的产品来支持云计算和NLP的开发需求。

导致浮点数出现的Pandas.to_csv

python、pandas、export-to-csv

我已经创建了一个程序，它接收Excel表格，用Pandas修改它们，并将它们保存到CSV中。当我检查输出CSV时，这些列被看作是ints，但是当我将这些列上传到Oracle时，这些列就会浮动。输入excel中的某些列是诸如"3“"4”"1“之类的东西，但其他列包含货币值的实际浮动值。因此，我不能将数据转换为as_type(int)。 excel工作表的编号为数百张，每个月都有不同的列名。因此，as_type(int)的列式应用程序将无法工作。代码示例： import pandas as pd output_location = save_location + &#

浏览 2提问于2020-03-04得票数 0

回答已采纳

2回答

如何过滤Excel列？

path

我在python中为我的数据寻找一个解决方案，它位于一个包含不同语句和数字的excel文件中。我想在列值的基础上过滤出行。 import pandas as pd df=pd.read.excel("Data.xlsx") df[df.Numbers.apply(lambda x: str(x).isdigit())] df.to_excel("Data1.xlsx") 有什么建议吗？

浏览 5提问于2020-09-11得票数 0

回答已采纳

1回答

使用regex提取列中的月份- Python

python、regex

我有以下数据： Data 0 12/25/2020 1 10/25/2020 2 2020-09-12 00:00:00 3 2020-12-09 00:00:00 我使用以下代码(python)提取前两个潜在数字来表示一个月： df['Data'].apply(lambda x: re.match('.*([1-2][0-9]{3})', x).group(1)) 但是，它返回一个NaN数据格式。当我在regex101中测试它时，它可以工作(链接：)。所以，我有两个问题：是否

浏览 0提问于2021-11-03得票数 1

回答已采纳

2回答

如何使用pandas从合并单元格中提取excel列数据到python列表中

python、pandas

我正在尝试使用pandas将'Country‘列数据提取到python列表中。下面是我以前用过的代码。还附上excel表和输出。代码： from pandas import DataFrame import pandas as pd open_file = pd.read_excel('data.xlsx', sheet_name=0) df = list(open_file['Country']) print(df) 输出： [nan, 'Great Britain', 'China ', 'Russia&#

浏览 17提问于2020-08-13得票数 1

2回答

使用spacy从dataframe中提取实体

python、pandas、spacy

我使用pandas读取excel文件中的内容： import pandas as pd df = pd.read_excel("FAM_template_Update 1911274_JS.xlsx" ) df 尝试使用spacy:：提取实体时： import spacy nlp = spacy.load("en_core_web_sm") doc = nlp(df) for enitity in doc.ents: print((entity.text)) Got：：TypeError:参数'string‘的类型不正确(应为str，go

浏览 20提问于2020-02-07得票数 2

2回答

如何从“对象”的熊猫列中的字符串中提取数字？

python、pandas

我有一个叫做“x”的数据。这个数据是关于房子的大小和类型的(如35A，9B，50C.)并且是“object”类型，包含缺失的值。我只想从这个数据中提取数字，并将它们转换成数字类型。在这种情况下我该怎么办？我试过以下几种方法，但都没有用： df['x'] = df['x'].str[0:2] df['x'] = pd.to_numeric(df['x']) Output ValueError:无法解析位于3766位置的字符串"9A“

浏览 4提问于2021-06-11得票数 0

回答已采纳

2回答

在python中打开xlsx文件时出错

python、openpyxl、xlrd

我正在尝试打开一个由另一个系统创建的xlsx文件(这是数据总是以这种格式出现，而不是我控制的格式)。我尝试了openpyxl (v2.3.2)和xlrd (v1.0.0) (以及熊猫(v0.20.1) read_excel和pd.ExcelFile()，它们都在使用xlrd，因此可能是模拟的)，我遇到了错误；另外，我的搜索没有找到答案。任何帮助都是非常感谢的。 xlrd代码： import xlrd workbook = xlrd.open_workbook(r'C:/Temp/Data.xlsx') 错误： Traceback (most recent call last):

浏览 6提问于2017-08-08得票数 2

回答已采纳

2回答

如何将字符串值的一部分放置在列中？

python、pandas

我有以下数据： import pandas as pd import numpy as np d={'P':['A[55]','B','C[98]"'], 'Q':['C[89]','F[98]','K[97]'], 'S':['B[89]',67,98], 'id':['a','b','c'] } df=pd.DataFrame(data=

浏览 0提问于2019-02-27得票数 2

回答已采纳

3回答

将特定列从字符串转换为浮动

python、pandas

我试图对肯尼思法国工业投资组合做一些简单的分析(第一次使用Pandas/Python)，数据是txt格式(参见代码中的链接)。在进行计算之前，首先要正确地将其加载到Pandas dataframe中，但我已经为此挣扎了几个小时： import urllib.request import os.path import zipfile import pandas as pd import numpy as np # paths url = 'http://mba.tuck.dartmouth.edu/pages/faculty/ken.french/ftp/48_Industry_Por

浏览 6提问于2015-10-29得票数 5

回答已采纳

1回答

Python:将字段值提取到新列中，写入Excel

python、regex、pandas、csv

我正在读取CSV文件，并打算写入Excel文件。CSV文件只有两列，但是在写入Excel之前，我想使用regex提取列数据并创建新列。 CSV文件：test.csv name, file_info test, c:\folder1\subfolder1\subfolder2\example.xls | history 12345 at 2020-01-01 以下是我到目前为止拥有的代码： import csv with open('test.csv',mode='r') as testFile reader = csv.DictReader(test

浏览 24提问于2020-02-14得票数 1

回答已采纳

1回答

Python -使用regex从Pandas DataFrame中的列(包含字符串)中提取权重，并将其添加到新列中。

python、regex、excel、pandas、dataframe

我有一个Excel电子表格，其中包含来自网站的产品数据，列标题如下： ProductID，ProductDescription ProductDescription字段包含详细说明网站产品完整描述的HTML，在每个描述中，权重显示为字符串的一部分(例如：‘重量是950克’或‘重量是1.5公斤’)，在数量和重量单位之间没有空隙。我想做的是：将XL电子表格导入到Pandas DataframeCreate中--一个名为‘’Parse每人'ProductDescription‘的新列(大约5000行产品)，并使用regex查找提到权重的文本(可以识别为'XXXXg’或'X

浏览 0提问于2020-01-23得票数 1

回答已采纳

2回答

使用Pandas从Excel读取到Python的日期时间

python、excel、pandas、datetime、types

我试图从一个Excel文件中读取，该文件被转换为python，然后被拆分为数字(整数和浮点数)和其他所有内容。有许多不同类型的列。我目前把这些数据 pd.read_excel 然后将数据分割成 DataFrame.select_dtypes("number") 当用户上传一个时间(所以12:30:00)时，他们希望它被识别为一个时间。然而，python (当前)将其视为dtype对象。如果我用parse_dates指定了列，那么它就能工作，但是由于我不知道数据是什么，所以理想情况下我希望这是自动完成的。我尝试过设置parse_dates = True，但这似乎没有什么区别。

浏览 0提问于2019-09-06得票数 0

回答已采纳

2回答

如何在Excel表格中使用re库或其他方法将字符串拆分为文本和数字？

python、python-3.x、excel、re

我需要将Excel工作表的第一列转换为整数值。需要删除字符串(比如LP001005，删除LP并获取数字的其余部分)。我能够在单个变量上实现这一点。但是，我需要在Excel工作表上实现这一点。我的意思是将整个Excel转换为LP001005中的数据帧，提取Loan_ID并进行转换(从pandas中删除LP )，然后使用数据帧。 >>> import re >>> test_str = "Geeks4321" >>> print("The original string is : " + str(test_s

浏览 44提问于2020-08-18得票数 0

1回答

如何在熊猫中设置本地化的日期时间列

python、pandas、datetime、timezone、truncate

我想在熊猫python中截断/轮转一个本地化的datetime列。例如，如果我有2017-10-15 15:03:25+02:00，我想得到2017-10-15 15:00:00+02:00。请注意，我希望保留时区信息。我试过的第一件事是： DF['dtColumn'].dt.floor('H') 这很明显地缩短了时区信息和保存时区信息，这个问题出现在dst日到来的时候，例如在2017-10-29。考虑到以下代码： dt1 = datetime.datetime(2017,10,29,0,1) dt2 = datetime.datetime(2017,10,29

浏览 0提问于2018-03-06得票数 2

1回答

如何使用python3将数据帧中的特定文本列转换为“utf-8”

python-3.x、ascii

我有一个dataframe，多个列和一个列包含从各种链接中刮来的文本。我试图将该列转换为utf-8，但它没有工作。以下是我的做法： df = pd.read_excel('data.xlsx',encoding=sys.getfilesystemencoding()) df['text'] = df['text'].apply(lambda x: x.encode('utf-8').strip()) print(df['text']) 我收到了一些ascii代码的短信： B‘b’#谢谢，它\xE2\x80\x99

浏览 0提问于2020-03-11得票数 1

回答已采纳

2回答

Python -以所需格式转置数据

python、excel、transpose

这里是Python新手。我是否可以知道如何将以下给定的数据转换成以下所述的所需格式？来源数据：输出数据必须如下所示：请给我建议。到目前为止，我的守则： # Transposing an excel file using python import pandas as pd # Location of the file loc = ("C:\\Users\\user1\\Documents\\Python_Files\\data.xlsx") # Reading the file df=pd.read_excel("C:\\Users\\user1\\Do

浏览 0提问于2018-10-29得票数 0

回答已采纳

1回答

使用pandas Python 2与3从标准输入读取Excel

python、excel、python-3.x、pandas、python-2.x

我正在尝试编写一个在命令行上解析Excel的工具；它适用于旧版本的Python和pandas，但不适用于新版本。这看起来像是Python2和Python3在sys.stdin上的不同，但是我不知道如何继续下去。 $ conda create -n py2 python=2.7 pandas=0.17.1 xlrd $ source activate py2 (py2) $ cat data.xlsx | python -c "import pandas as pd; import sys; df = pd.read_excel(sys.stdin); print(df.head())

浏览 8提问于2018-07-31得票数 0

回答已采纳

4回答

将int64 Pandas列拆分为两列

python、pandas

我得到了一个数据集，该数据集使用2019年5月的52019格式将日期作为整数。我已经将其放入Pandas DataFrame中，我需要将该日期格式提取到一个月列和一个年份列中，但我不知道如何对int64数据类型这样做，或者如何处理两位数的月份。所以我想拿点东西 ID Date 1 22019 2 32019 3 52019 5 102019 让它成为 ID Month Year 1 2 2019 2 3 2019 3 5 2019 5 10 2019 我该怎么办？

浏览 0提问于2019-05-21得票数 4

回答已采纳

3回答

提取名词短语的spaCy库- ValueError：[E866]需要一个字符串或“Doc”作为输入，但是got：<class 'float'>

python、spacy、phrase

目前我正在尝试从句子中提取名词短语。句子存储在excel文件中的一列中。这里使用python的代码： import pandas as pd import spacy df = pd.read_excel("xxx.xlsx") nlp = spacy.load("en_core_web_md") for row in range(len(df)): doc = nlp(df.loc[row, "Title"]) for np in doc.noun_chunks: print(np.text) 但我发现了一个

浏览 18提问于2021-12-17得票数 4

回答已采纳

1回答

使用XLRD从excel工作表中的列读取int值

python-3.x、excel、pandas、list、xlrd

我在excel工作簿中有一个带有逗号分隔值的单元格。此单元格可以具有以下模式的值。 0或123或123, 345。我希望使用XLRD或pandas.read_excel将它们提取为整数列表。我尝试过使用xlrd和下面的代码片段。 book = open_workbook(args.path) dep_cms = book.sheet_by_index(1) for row_index in range(1, dep_cms.nrows) excelList = [] excelList.extend([x.strip() for x in dep_cms.cell(

浏览 2提问于2020-05-01得票数 1

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用Python & NLP，如何从具有大量自由文本的Excel列中提取特定的文本字符串和字符串前的相应数字？

相关·内容

导致浮点数出现的Pandas.to_csv

如何过滤Excel列？

使用regex提取列中的月份- Python

如何使用pandas从合并单元格中提取excel列数据到python列表中

使用spacy从dataframe中提取实体

如何从“对象”的熊猫列中的字符串中提取数字？

在python中打开xlsx文件时出错

如何将字符串值的一部分放置在列中？

将特定列从字符串转换为浮动

Python:将字段值提取到新列中，写入Excel

Python -使用regex从Pandas DataFrame中的列(包含字符串)中提取权重，并将其添加到新列中。

使用Pandas从Excel读取到Python的日期时间

如何在Excel表格中使用re库或其他方法将字符串拆分为文本和数字？

如何在熊猫中设置本地化的日期时间列

如何使用python3将数据帧中的特定文本列转换为“utf-8”

Python -以所需格式转置数据

使用pandas Python 2与3从标准输入读取Excel

将int64 Pandas列拆分为两列

提取名词短语的spaCy库- ValueError：[E866]需要一个字符串或“Doc”作为输入，但是got：<class 'float'>

使用XLRD从excel工作表中的列读取int值

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐