Pandas和NLTK:如果NLTK标记中包含substring，则用相邻列的subsring替换空单元格

python、pandas、nltk

我有一个由产品名称和制造商组成的表格。一些maker单元格是空的，因此我想编写一段代码，将maker列中的空单元格替换为产品名称中的子字符串。以下是详细信息的表格： ? 为了识别我想要使用的子串，iam使用了NLTK库。以下是我到目前为止编写的代码： import pandas<

浏览 53提问于2020-05-03得票数 1

回答已采纳

1回答

python中的文本数据预处理

python、dataframe、nlp

我正在提取积极的，消极的和中性的关键字在python.There是10,000条评论在我的评论remarks.txt文件(编码的UTF-8).I要导入文本文件，读取个别行的评论和提取单词(标记化)从评论中提到的列c2，并存储在下一个相邻的列。我用Python.I编写了一个调用get_keywords函数的小程序，我创建了get_

浏览 17提问于2019-09-13得票数 1

1回答

从CSV中删除非英语单词

pandas、nlp、nltk

我是Python和NLTK的新手，掌握了存储在CSV中的Flickr数据，并且希望从标记列中删除非英语单词。我一直收到错误，说“期望一个字符串或一个类似字节的对象”。我有一种感觉，这是因为标签列目前是在Pandas系列数据类型中，而不是字符串。但是，我在Stack上看到的相关解决方案在转换为string时都没有起作用。我有这样的代码： #conv

浏览 7提问于2022-04-19得票数 0

回答已采纳

2回答

测试Pandas* dataframe单元格是否包含空值*

python、pandas、nan

我有一个Pandas dataframe，其中包含两列，这两列包含项目列表或NaN值。如果没有NaN值，则以下命令可以很好地工作： import nltk df['jd'] = df.apply(lambda x: nltk.jaccard_distance(set(x['colA']at index 3') 我尝试使用if...else子句仅在colB不包含NaN的</em

浏览 59提问于2020-01-02得票数 1

回答已采纳

1回答

将空单元格替换为0或空白

excel、null

如何在VBA中将工作簿中所有工作表中的空单元格替换为0或空白(“")？假设我有一些包含文本的列和包含数字的列：AA 3null 9EE null 在上面的示例中，如果相邻的列单元格是数字，并且

浏览 0提问于2012-01-25得票数 0

回答已采纳

1回答

将列表转换为字典，并标记键值-可能吗？

python-3.x、list、dictionary、nltk

因此，基本上，我有一个文件夹的文件，我打开和阅读到python。我已设法打开这些文件并将其读入列表中，但我的问题如下：我决定试着把这些文件作为字典导入。它可以工作，但是当我试图将值小写时，我会得到一个“list”对象属性错误--即使在我的变量资源管理器中，它也被定义为一个字典。所以我没有我需要的行。 2. I无论如何不能对列表

浏览 0提问于2019-08-15得票数 0

1回答

如何在列表中运行我的tokeniser函数--模块对象不可调用？

python、pandas、list、module、token

任务:在下面的代码单元格中，编写代码来运行NLTK_Tokenise和您自己的Tokenise函数。(r_list) 现在我有两个包含相同语料库信息的列表，我想把我的函数应用到上述的列表中如果我只是复制和粘贴我的<

浏览 0提问于2018-11-23得票数 1

回答已采纳

1回答

如果不同列表中的项目保持相同的索引不为0，如何从列表中仅添加项目？

python、excel、list、openpyxl、xlsxwriter

我正在使用Excel (使用xlsxwriter和openpyxl)，并尝试根据相邻列中的单元格是否包含0来填充列表中某列的单元格。如果相邻的列单元格中有0，代码应该忽略第二个列表中的任何数字，并在新的单元格中将其替换为0

浏览 1提问于2015-06-05得票数 2

2回答

无法标记数据文件中的多个列

python、machine-learning、nlp、nltk、tokenize

我有一个包含数值和字符串数据的表，但是在单独的列中。该表是对web窗体的回答，包含空单元格。我想对字符串列使用文本处理。我不能删除空单元格的行，因此对于空字符串列，我用aplhabet 'a‘替换了NaN。32 1 a Good mouse 0 0

浏览 0提问于2018-12-17得票数 1

回答已采纳

14回答

如何使用nltk或python删除停用词

python、nltk、stop-words

因此，我有一个数据集，我想删除要使用的停用词我正在努力如何在我的代码中使用它来简单地去掉这些单词。我已经有了这个数据集中的单词列表，我正在努力的部分是与这个列表进行比较并删除停用的单词。任何帮助都是非常感谢的。

浏览 1提问于2011-03-30得票数 128

1回答

如何迭代存储在dataframe中的文本，以提取句子并在循环中查找值？

python、pandas、loops

我把文本存储在一个包含许多句子的Dataframe中。我编写了一个单独的函数，在其中查找句子中的某些关键字和值，并希望能够将这些值存储在同一Dataframe的不同列中。当我迭代几行Dataframe首先标记到每个句子时，我遇到了问题。当我将明确的句子传递给函数时，这是有效的。我的问题是，当我试图将文本标记为循环中的<

浏览 0提问于2019-05-09得票数 0

回答已采纳

2回答

我需要计算训练数据中每个令牌的频率，列出频率至少等于N的令牌列表。为了将我的数据集拆分成训练和测试，我执行了以下操作： X = vectorizer.fit_transform(df['Text'].replace(np.NaN, "")) X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.30, stratify=y) <

浏览 19提问于2020-10-18得票数 5

回答已采纳

3回答

在已经标记化的输入中使用sklearn TfidfVectorizer？

scikit-learn、tfidfvectorizer

我有一个标记化的句子列表，并希望适合tfidf矢量器。我有十亿个句子，不想再对它们进行标记化。在此之前，它们在另一个阶段被标记化。

浏览 2提问于2018-02-08得票数 14

回答已采纳

1回答

替换r中的缺失值

r、excel、statistics、missing-data

在替换以下虚拟文件中缺少的值时，我需要帮助。替换缺失值时需要遵循以下规则。如果列</e

浏览 2提问于2022-05-07得票数 0

1回答

我需要将文本转换为向量，然后将向量输入分类器

deep-learning、classification、word2vec、cascade-classifier

1新鲜的外观服务于故事，永远不允许压倒它，留下一个漂亮的判断纱线来释放和迷住新的年轻影迷。1不可否认的是，3D为皮克斯1995年开创性的伙伴电影增加了额外的纹理，强调了巴斯和伍迪的玩具眼睛的世界观。1如果有什么不同的话，那就是在今天过度研究人口统计学上正确的电影制作的景观中，它感觉更新鲜，更有趣，更令人兴奋。1如果你有一段时间没

浏览 2提问于2019-08-01得票数 0

1回答

Excel:解决按日期对表格进行排序的问题，在范围内包含空行

excel、vba、sorting、cell

每一行都有一个从Bloomberg中提取数据的公式，因此即使单元格看起来是空的，excel也会识别出单元格中有内容。为了解决这个问题，我用公式"=(A1+0)“插入了相邻列(以单元格A1为例)，该公式允许从新到旧对列进行排序。这里的问题是，如果单元格A1不显示日期(换句话说，它看起来是空的，但单元格包含</em

浏览 6提问于2017-02-17得票数 0

回答已采纳

1回答

熊猫DataFrame中文本的Jaccard相似性

python、pandas、scikit-learn、similarity、sklearn-pandas

我想把它和前面的课文比较一下。因此，每个公司的第一个条目总是空的，因为没有文本可与之比较。df = df.sort_values(['Entity_Id', 'date'], ascending但<

浏览 6提问于2017-09-26得票数 5

2回答

preparedStatement.setString(1，" null ")被解释为null，而不是字符串(在preparedStatement.addBatch()之后)

java、jdbc、prepared-statement、netezza

我不知道怎样才能绕过这种误解，因为很多行都是作为批处理添加后立即执行的。( sql语句是一个INSERT INTO .)( VarChar不能为null，但如果它没有批处理发送，则表可以接受String a = "null" .整个程序由于服务器发出的错误消息而停止)代码： preparedStatement.setString(17

浏览 1提问于2019-04-18得票数 2

回答已采纳

1回答

Python初学者:预处理python中的法语文本，并使用词典计算极性

pandas、nlp、nltk、sentiment-analysis、treetagger

我正在用python编写一个算法，它处理一列句子，然后给出这列句子中每个单元格的极性(正或负)。该脚本使用了NRC情感词典(法语版)中的否定和肯定单词列表。我在编写预处理函数时遇到了问题。肯定词和否定词在同一个文件( lexicon )中，但我分别导出肯定词和否定词，因为我不知道如何使用该词典。我的函数计数出现正和负不起作用，我不知道为什么它总是给我0。我在每句话中</e

浏览 25提问于2019-05-22得票数 0

回答已采纳

1回答

CountVectorizer fit_transform错误: TypeError:预期的字符串或类似字节的对象

python、machine-learning、scikit-learn、nltk

我的目标是对来自PDF的多个.txt文档运行一个单词分析包，其中包含OCRed。我已经使用nltk清除了所有.txt文档(使所有文档小写，删除了诸如" the“、"a”等绑定词，并对其进行了修饰以确保只保留单词茎)，然后我将.txt文件保存在CSV中，为每个带有文档名称的列设置一行，然后为每个单独的单词保存一列。每行都有一个带有文件名的单元格，然后在每个单元格中

浏览 8提问于2021-05-24得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

python中的文本数据预处理

从CSV中删除非英语单词

测试Pandas* dataframe单元格是否包含空值*

将空单元格替换为0或空白

将列表转换为字典，并标记键值-可能吗？

如何在列表中运行我的tokeniser函数--模块对象不可调用？

如果不同列表中的项目保持相同的索引不为0，如何从列表中仅添加项目？

无法标记数据文件中的多个列

如何使用nltk或python删除停用词

如何迭代存储在dataframe中的文本，以提取句子并在循环中查找值？

计算文档中的标记

在已经标记化的输入中使用sklearn TfidfVectorizer？

替换r中的缺失值

我需要将文本转换为向量，然后将向量输入分类器

Excel:解决按日期对表格进行排序的问题，在范围内包含空行

熊猫DataFrame中文本的Jaccard相似性

preparedStatement.setString(1，" null ")被解释为null，而不是字符串(在preparedStatement.addBatch()之后)

Python初学者:预处理python中的法语文本，并使用词典计算极性

CountVectorizer fit_transform错误: TypeError:预期的字符串或类似字节的对象

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐