腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(3002)
视频
沙龙
2
回答
Python
Pyspark
-
如果
word
(
row
的
值
)
在
停
用词
字典
中
,
则
文本
分析
/
删除
行
、
、
、
希望有人能帮助我
在
Pyspark
中
做一个简单
的
情感
分析
。我有一个
Pyspark
dataframe,其中每一
行
都包含一个
word
。我还有一本常见stopwords
的
字典
。我想
删除
stopwords
字典
中
word
(
行
的
值
)所在
的
行
。输入: +-------+
浏览 40
提问于2021-11-12
得票数 0
回答已采纳
1
回答
如何将词干提取应用到
字典
中
?
、
、
、
我
在
某种自然语言处理公司工作。我比较了一系列文章和输入词。主要目标是
如果
找到一堆单词,
则
对
文本
进行分类search_values_st
浏览 14
提问于2019-08-12
得票数 3
1
回答
输入循环
文本
并显示为索引
的
计数
我正在开发一个小程序,它接受
文本
输入,然后将这些项目中
的
每一个放入
字典
中
,放在输入
的
行
旁边。目前,
如果
我输入4
行
文本
。它将正确地将它们全部取出,但每个单词都将被设置为
值
4-而不是输入它
的
循环。我已经从我
的
代码
中
删除
了所有其他函数(
删除
点、
删除
停
用词
、词干等)。为了让这一点更清楚。in word
浏览 1
提问于2017-11-26
得票数 0
1
回答
如何转换具有主
文本
和多个子
文本
的
字典
、
、
我有个
文本
文件。该文件包含
行
。
在
几行之后,有一个空行。此行用于指示节
的
结尾。第一
行
用来表示主
文本
的
结尾和子
文本
的
开头。当检测到另一个空行时,这意味着子
文本
部分已经完成,并启动了一个新
的
主
文本
部分。我已经编写了一些代码来解决
python
中
的
这个问题。主
文本
在
python
浏览 0
提问于2019-05-20
得票数 0
回答已采纳
1
回答
关于情感
分析
(机器学习)训练数据平衡
的
问题
、
、
、
我
的
问题是什么时候平衡训练数据以进行情绪
分析
。
在
评估我
的
训练数据集时,它有3个标签(好
的
、坏
的
、中性
的
),我注意到中性标签
的
数量是其他两个
的
两倍,所以我使用一个函数随机
删除
中性标签。为了解释,我是通过
在
训练数据
中
创建一个单词词汇表,并使用枚举将它们与数字链接起来来计算我
的
文本
数据。我想
用词
汇表:索引
值
来计算训练
浏览 0
提问于2020-04-07
得票数 2
1
回答
如何使代码运行得更快?
、
我有一个有43244
行
的
dataframe,df和一个txt文件,text,1107957
行
。以下代码
的
目的是计算df
中
的
条目,
如果
它们
在
文本
中
存在,
则
返回一个
word
_id
值
。0
word
_
row
= text[lines].split()
浏览 2
提问于2022-11-02
得票数 0
回答已采纳
1
回答
如何仅用
字典
或
文本
文件
中
存在
的
单词替换pandas数据框
中
的
一列?
、
、
我想要检查df
中
的
每一
行
,用‘’拆分,对于每个单词,
如果
单词
在
文本
中
,
则
保留它,否则
删除
它。示例: 假设我
的
文本
文件如下所示 helloistest 描述如下所示 "hello this is a great test $5435" 那么输出将是hello this is atest,因为great和$5435不是
文本
形式。我可以这样写: de
浏览 1
提问于2019-10-07
得票数 0
回答已采纳
5
回答
删除
星火中数据帧列
值
中
的
空白
、
、
、
我有一个模式
的
数据框架(business_df):|-- categories: array (nullable =string (nullable = true)|-- name: string (nullable = true) 我希望创建一个新
的
数据框架(new_df),以便'name'列
中
的
值
不包含任何空格。我
的
浏览 10
提问于2016-02-21
得票数 9
回答已采纳
2
回答
Python
中最常用
的
单词
我试图实现一个代码,这样我就可以
在
文本
中找到最常见
的
10个单词。我是
python
的
新手,我更习惯于C#、java甚至C++等语言。以下是我所做
的
:基本上,我
的
想法是创建一个
字典
,其中包含每个单词出现在我
的
文本
中
的
次数。
如果</
浏览 1
提问于2018-03-03
得票数 1
回答已采纳
1
回答
如何理解我简单
的
三部分
python
代码
中
的
缺陷?
、
、
我
在
“类”
中
的
Python
练习如下: 构造函数(_init_) -此方法应采用参数
文本
,使其小写,并
删除
所有标点符号。假设只使用以下标点符号:句点(.)、感叹号(!)将这个新格式化
的
文本
分配给一个名为fmtText
的</
浏览 4
提问于2022-11-30
得票数 0
14
回答
如何使用nltk或
python
删除
停
用词
、
、
因此,我有一个数据集,我想
删除
要使用
的
停
用词
我正在努力如何在我
的
代码中使用它来简单地去掉这些单词。我已经有了这个数据集中
的
单词列表,我正在努力
的
部分是与这个列表进行比较并
删除
停用
的
单词。任何帮助都是非常感谢
的
。
浏览 1
提问于2011-03-30
得票数 128
1
回答
在
Python
定向邮件合并
中
跳过空
值
、
、
、
我正在使用
Python
(Openpyxl)运行从Excel到
Word
的
邮件合并。我遇到了一个问题,即空白
值
被合并成一个单独
的
空格,而不是像通常那样只显示一个真正
的
空白。我有一个编号列表,它将拉出8个不同
的
合并字段(每个字段到一个新
行
),
如果
单元格是空
的
,应该跳过数字/
行
。是否有可能使openpyxl将空单元格视为真正
的
空白
值
,而不是将其显示为空白,然后
浏览 4
提问于2020-06-29
得票数 0
2
回答
如何在
文本
文件
中
搜索给定单词
的
变形词
、
、
、
、
我必须在一个
文本
文件
中
搜索给定单词
的
变形词。
文本
文件每行有一个单词。到目前为止,我已经成功地编写了一个函数,它从一个给定
的
单词创建一个
字典
,关键字是单词
中
的
一个字母,它
的
值
是该字母
在
单词中出现
的
次数。第二个函数遍历
文本
文件
的
每一
行
,创建具有相同键和
值
的
第二个
字典
,并对这两个<
浏览 0
提问于2016-05-13
得票数 1
7
回答
将
PySpark
数据框列聚合
值
存储到变量
中
、
我在这里使用
PySpark
数据帧。"test1“是我
的
PySpark
数据帧和事件 _ date是一个TimestampType。因此,当我尝试获取事件
的
不同计数时 _ date,结果是一个整数变量,但是当我尝试获取同一列
的
max时,结果是一个dataframe。我想了解哪些操作会导致数据帧和变量。我还想知道如何将事件日期
的
最大
值
存储为变量 生成整数类型
的
代码: loop_cnt=test1.select('event_date
浏览 147
提问于2016-05-03
得票数 5
回答已采纳
3
回答
html - css块宽度/高度
、
、
padding-right: 0;} <a href="#me" class="fa fa-home active"><span>Home</span></a>但是,
如果
文本
长度超过10个字符,它将自动生成一个段落,将
文本
从原始框中提取出来。编辑 我只想让屏幕截图中
的
背景框变大,因为
文本
越长
浏览 3
提问于2013-12-19
得票数 2
回答已采纳
2
回答
PHP预先
删除
数组元素
、
、
今天,当我在为博客开发
文本
分析
工具时,我发现PHP
的
行为对我来说很奇怪,我就是无法用它来包装我
的
头脑。
在
规范
文本
的
过程
中
,我试图
删除
小于最小长度
的
单词,因此我
在
规范化方法
中
这样写: foreach ($string as &$
word
} 奇怪
的
是,这会在我
浏览 3
提问于2013-01-12
得票数 5
回答已采纳
1
回答
使用
python
3.5.3获取KeyError时:0
、
我们对使用
python
3编码有点陌生,我们已经成功地使用了其他脚本,但是尝试使用
python
3
中
的
列表来设置这个风向标对我们来说是行不通
的
。
如果
任何人能为我和我10岁
的
孩子指明正确
的
方向,我将非常感激。在读取第36
行
(打印指令)后,我们得到一个KeyError 0:0。下面是我们
的
代码: import time adc = MCP3008(channel
浏览 1
提问于2018-11-26
得票数 0
1
回答
如何将两个
字典
写入输出文件"txt“
、
这实际上是一个4部分
的
问题:2)返回一个
字典
,其中每个键都是一个单词,它
的
浏览 1
提问于2019-10-19
得票数 1
4
回答
简化许多if语句
、
、
、
这个解析函数确实有效(使用正确
的
字典
),但它必须为输入
中
的
每个单词测试6个if语句。对于一个5个单词
的
句子,这将是30个if语句。它也是一种难以阅读
的
东西。[
word
] if not directObjectAdjective: if
word
in objectDict
浏览 4
提问于2019-03-08
得票数 0
4
回答
Apache Spark
的
主键
、
、
、
我有一个与Apache Spark和PostgreSQL
的
JDBC连接,我想将一些数据插入到我
的
数据库
中
。当我使用append模式时,我需要为每个DataFrame.
Row
指定id。
浏览 2
提问于2015-10-13
得票数 33
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券