Python Pyspark -如果word (row的值)在停用词字典中，则文本分析/删除行

我的问题是什么时候平衡训练数据以进行情绪分析。在评估我的训练数据集时，它有3个标签(好的、坏的、中性的)，我注意到中性标签的数量是其他两个的两倍，所以我使用一个函数随机删除中性标签。为了解释，我是通过在训练数据中创建一个单词词汇表，并使用枚举将它们与数字链接起来来计算我的文本数据。我想用词汇表:索引值来计算训练

浏览 0提问于2020-04-07得票数 2

1回答

如何使代码运行得更快？

、

我有一个有43244行的dataframe，df和一个txt文件，text，1107957行。以下代码的目的是计算df中的条目，如果它们在文本中存在，则返回一个word_id值。0 word_row = text[lines].split()

浏览 2提问于2022-11-02得票数 0

回答已采纳

1回答

如何仅用字典或文本文件中存在的单词替换pandas数据框中的一列？

、、

我想要检查df中的每一行，用‘’拆分，对于每个单词，如果单词在文本中，则保留它，否则删除它。示例：假设我的文本文件如下所示 helloistest 描述如下所示 "hello this is a great test $5435" 那么输出将是hello this is atest，因为great和$5435不是文本形式。我可以这样写： de

浏览 1提问于2019-10-07得票数 0

回答已采纳

5回答

删除星火中数据帧列值中的空白

、、、

我有一个模式的数据框架(business_df)：|-- categories: array (nullable =string (nullable = true)|-- name: string (nullable = true) 我希望创建一个新的数据框架(new_df)，以便'name'列中的值不包含任何空格。我的

浏览 10提问于2016-02-21得票数 9

回答已采纳

2回答

Python中最常用的单词

我试图实现一个代码，这样我就可以在文本中找到最常见的10个单词。我是python的新手，我更习惯于C#、java甚至C++等语言。以下是我所做的：基本上，我的想法是创建一个字典，其中包含每个单词出现在我的文本中的次数。如果</

浏览 1提问于2018-03-03得票数 1

回答已采纳

1回答

如何理解我简单的三部分python代码中的缺陷？

、、

我在“类”中的Python练习如下：构造函数(_init_) -此方法应采用参数文本，使其小写，并删除所有标点符号。假设只使用以下标点符号:句点(.)、感叹号(!)将这个新格式化的文本分配给一个名为fmtText的</

浏览 4提问于2022-11-30得票数 0

14回答

如何使用nltk或python删除停用词

、、

因此，我有一个数据集，我想删除要使用的停用词我正在努力如何在我的代码中使用它来简单地去掉这些单词。我已经有了这个数据集中的单词列表，我正在努力的部分是与这个列表进行比较并删除停用的单词。任何帮助都是非常感谢的。

浏览 1提问于2011-03-30得票数 128

1回答

在Python定向邮件合并中跳过空值

、、、

我正在使用Python (Openpyxl)运行从Excel到Word的邮件合并。我遇到了一个问题，即空白值被合并成一个单独的空格，而不是像通常那样只显示一个真正的空白。我有一个编号列表，它将拉出8个不同的合并字段(每个字段到一个新行)，如果单元格是空的，应该跳过数字/行。是否有可能使openpyxl将空单元格视为真正的空白值，而不是将其显示为空白，然后

浏览 4提问于2020-06-29得票数 0

2回答

如何在文本文件中搜索给定单词的变形词

、、、、

我必须在一个文本文件中搜索给定单词的变形词。文本文件每行有一个单词。到目前为止，我已经成功地编写了一个函数，它从一个给定的单词创建一个字典，关键字是单词中的一个字母，它的值是该字母在单词中出现的次数。第二个函数遍历文本文件的每一行，创建具有相同键和值的第二个字典，并对这两个<

浏览 0提问于2016-05-13得票数 1

7回答

我在这里使用PySpark数据帧。"test1“是我的PySpark数据帧和事件 _ date是一个TimestampType。因此，当我尝试获取事件的不同计数时 _ date，结果是一个整数变量，但是当我尝试获取同一列的max时，结果是一个dataframe。我想了解哪些操作会导致数据帧和变量。我还想知道如何将事件日期的最大值存储为变量生成整数类型的代码： loop_cnt=test1.select('event_date&#x

浏览 147提问于2016-05-03得票数 5

回答已采纳

3回答

html - css块宽度/高度

、、

padding-right: 0;} <a href="#me" class="fa fa-home active"><span>Home</span></a>但是，如果文本长度超过10个字符，它将自动生成一个段落，将文本从原始框中提取出来。编辑我只想让屏幕截图中的背景框变大，因为文本越长

浏览 3提问于2013-12-19得票数 2

回答已采纳

2回答

PHP预先删除数组元素

、、

今天，当我在为博客开发文本分析工具时，我发现PHP的行为对我来说很奇怪，我就是无法用它来包装我的头脑。在规范文本的过程中，我试图删除小于最小长度的单词，因此我在规范化方法中这样写： foreach ($string as &$word} 奇怪的是，这会在我

浏览 3提问于2013-01-12得票数 5

回答已采纳

1回答

使用python3.5.3获取KeyError时:0

、

我们对使用python3编码有点陌生，我们已经成功地使用了其他脚本，但是尝试使用python3中的列表来设置这个风向标对我们来说是行不通的。如果任何人能为我和我10岁的孩子指明正确的方向，我将非常感激。在读取第36行(打印指令)后，我们得到一个KeyError 0:0。下面是我们的代码： import time adc = MCP3008(channel

浏览 1提问于2018-11-26得票数 0

1回答

如何将两个字典写入输出文件"txt“

、

这实际上是一个4部分的问题：2)返回一个字典，其中每个键都是一个单词，它的

浏览 1提问于2019-10-19得票数 1

4回答

简化许多if语句

、、、

这个解析函数确实有效(使用正确的字典)，但它必须为输入中的每个单词测试6个if语句。对于一个5个单词的句子，这将是30个if语句。它也是一种难以阅读的东西。[word] if not directObjectAdjective: if word in objectDict

浏览 4提问于2019-03-08得票数 0

4回答

Apache Spark的主键

、、、

我有一个与Apache Spark和PostgreSQL的JDBC连接，我想将一些数据插入到我的数据库中。当我使用append模式时，我需要为每个DataFrame.Row指定id。

浏览 2提问于2015-10-13得票数 33

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云