腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(158)
视频
沙龙
1
回答
Pandas
和
NLTK
:
如果
NLTK
标记
中
包含
substring
,
则用
相邻
列
的
subsring
替换
空
单元格
python
、
pandas
、
nltk
我有一个由产品名称
和
制造商组成
的
表格。一些maker
单元格
是
空
的
,因此我想编写一段代码,将maker
列
中
的
空
单元格
替换
为产品名称
中
的
子字符串。以下是详细信息
的
表格: ? 为了识别我想要使用
的
子串,iam使用了
NLTK
库。以下是我到目前为止编写
的
代码: import
pandas<
浏览 53
提问于2020-05-03
得票数 1
回答已采纳
1
回答
python
中
的
文本数据预处理
python
、
dataframe
、
nlp
我正在提取积极
的
,消极
的
和
中性
的
关键字在python.There是10,000条评论在我
的
评论remarks.txt文件(编码
的
UTF-8).I要导入文本文件,读取个别行
的
评论
和
提取单词(
标记
化)从评论中提到
的
列
c2,并存储在下一个
相邻
的
列
。我用Python.I编写了一个调用get_keywords函数
的
小程序,我创建了get_
浏览 17
提问于2019-09-13
得票数 1
1
回答
从CSV
中
删除非英语单词
pandas
、
nlp
、
nltk
我是Python
和
NLTK
的
新手,掌握了存储在CSV
中
的
Flickr数据,并且希望从
标记
列
中
删除非英语单词。我一直收到错误,说“期望一个字符串或一个类似字节
的
对象”。我有一种感觉,这是因为标签
列
目前是在
Pandas
系列数据类型
中
,而不是字符串。但是,我在Stack上看到
的
相关解决方案在转换为string时都没有起作用。我有这样
的
代码: #conv
浏览 7
提问于2022-04-19
得票数 0
回答已采纳
2
回答
测试
Pandas
dataframe
单元格
是否
包含
空
值
python
、
pandas
、
nan
我有一个
Pandas
dataframe,其中
包含
两
列
,这两
列
包含
项目列表或NaN值。
如果
没有NaN值,则以下命令可以很好地工作: import
nltk
df['jd'] = df.apply(lambda x:
nltk
.jaccard_distance(set(x['colA']at index 3') 我尝试使用if...else子句仅在colB不
包含
NaN
的</em
浏览 59
提问于2020-01-02
得票数 1
回答已采纳
1
回答
将
空
单元格
替换
为0或空白
excel
、
null
如何在VBA中将工作簿中所有工作表
中
的
空
单元格
替换
为0或空白(“")?假设我有一些
包含
文本
的
列
和
包含
数字
的
列
:AA 3null 9EE null 在上面的示例
中
,
如果
相邻
的
列
单元格
是数字,并且
浏览 0
提问于2012-01-25
得票数 0
回答已采纳
1
回答
将列表转换为字典,并
标记
键值-可能吗?
python-3.x
、
list
、
dictionary
、
nltk
因此,基本上,我有一个文件夹
的
文件,我打开
和
阅读到python。我已设法打开这些文件并将其读入列表
中
,但我
的
问题如下:我决定试着把这些文件作为字典导入。它可以工作,但是当我试图将值小写时,我会得到一个“list”对象属性错误--即使在我
的
变量资源管理器
中
,它也被定义为一个字典。所以我没有我需要
的
行。 2. I无论如何不能对列表
浏览 0
提问于2019-08-15
得票数 0
1
回答
如何在列表
中
运行我
的
tokeniser函数--模块对象不可调用?
python
、
pandas
、
list
、
module
、
token
任务:在下面的代码
单元格
中
,编写代码来运行
NLTK
_Tokenise和您自己
的
Tokenise函数。(r_list) 现在我有两个
包含
相同语料库信息
的
列表,我想把我
的
函数应用到上述
的
列表
中
如果
我只是复制
和
粘贴我
的<
浏览 0
提问于2018-11-23
得票数 1
回答已采纳
1
回答
如果
不同列表
中
的
项目保持相同
的
索引不为0,如何从列表
中
仅添加项目?
python
、
excel
、
list
、
openpyxl
、
xlsxwriter
我正在使用Excel (使用xlsxwriter
和
openpyxl),并尝试根据
相邻
列
中
的
单元格
是否
包含
0来填充列表
中
某
列
的
单元格
。
如果
相邻
的
列
单元格
中有0,代码应该忽略第二个列表
中
的
任何数字,并在新
的
单元格
中将其
替换
为0
浏览 1
提问于2015-06-05
得票数 2
2
回答
无法
标记
数据文件
中
的
多个
列
python
、
machine-learning
、
nlp
、
nltk
、
tokenize
我有一个
包含
数值
和
字符串数据
的
表,但是在单独
的
列
中
。该表是对web窗体
的
回答,
包含
空
单元格
。我想对字符串列使用文本处理。我不能删除
空
单元格
的
行,因此对于空字符串列,我用aplhabet 'a‘
替换
了NaN。32 1 a Good mouse 0 0
浏览 0
提问于2018-12-17
得票数 1
回答已采纳
14
回答
如何使用
nltk
或python删除停用词
python
、
nltk
、
stop-words
因此,我有一个数据集,我想删除要使用
的
停用词我正在努力如何在我
的
代码中使用它来简单地去掉这些单词。我已经有了这个数据集中
的
单词列表,我正在努力
的
部分是与这个列表进行比较并删除停用
的
单词。任何帮助都是非常感谢
的
。
浏览 1
提问于2011-03-30
得票数 128
1
回答
如何迭代存储在dataframe
中
的
文本,以提取句子并在循环中查找值?
python
、
pandas
、
loops
我把文本存储在一个
包含
许多句子
的
Dataframe
中
。我编写了一个单独
的
函数,在其中查找句子
中
的
某些关键字
和
值,并希望能够将这些值存储在同一Dataframe
的
不同
列
中
。当我迭代几行Dataframe首先
标记
到每个句子时,我遇到了问题。 当我将明确
的
句子传递给函数时,这是有效
的
。我
的
问题是,当我试图将文本
标记
为循环中
的<
浏览 0
提问于2019-05-09
得票数 0
回答已采纳
2
回答
计算文档
中
的
标记
python
、
pandas
、
nltk
我需要计算训练数据
中
每个令牌
的
频率,列出频率至少等于N
的
令牌列表。为了将我
的
数据集拆分成训练
和
测试,我执行了以下操作: X = vectorizer.fit_transform(df['Text'].replace(np.NaN, "")) X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.30, stratify=y) <
浏览 19
提问于2020-10-18
得票数 5
回答已采纳
3
回答
在已经
标记
化
的
输入中使用sklearn TfidfVectorizer?
scikit-learn
、
tfidfvectorizer
我有一个
标记
化
的
句子列表,并希望适合tfidf矢量器。我有十亿个句子,不想再对它们进行
标记
化。在此之前,它们在另一个阶段被
标记
化。
浏览 2
提问于2018-02-08
得票数 14
回答已采纳
1
回答
替换
r
中
的
缺失值
r
、
excel
、
statistics
、
missing-data
在
替换
以下虚拟文件
中
缺少
的
值时,我需要帮助。
替换
缺失值时需要遵循以下规则。
如果
列</e
浏览 2
提问于2022-05-07
得票数 0
1
回答
我需要将文本转换为向量,然后将向量输入分类器
deep-learning
、
classification
、
word2vec
、
cascade-classifier
1新鲜
的
外观服务于故事,永远不允许压倒它,留下一个漂亮
的
判断纱线来释放
和
迷住新
的
年轻影迷。1不可否认
的
是,3D为皮克斯1995年开创性
的
伙伴电影增加了额外
的
纹理,强调了巴斯
和
伍迪
的
玩具眼睛
的
世界观。1
如果
有什么不同的话,那就是在今天过度研究人口统计学上正确
的
电影制作
的
景观
中
,它感觉更新鲜,更有趣,更令人兴奋。1
如果
你有一段时间没
浏览 2
提问于2019-08-01
得票数 0
1
回答
Excel:解决按日期对表格进行排序
的
问题,在范围内
包含
空行
excel
、
vba
、
sorting
、
cell
每一行都有一个从Bloomberg中提取数据
的
公式,因此即使
单元格
看起来是
空
的
,excel也会识别出
单元格
中有内容。为了解决这个问题,我用公式"=(A1+0)“插入了
相邻
列
(以
单元格
A1为例),该公式允许从新到旧对
列
进行排序。这里
的
问题是,
如果
单元格
A1不显示日期(换句话说,它看起来是
空
的
,但
单元格
包含</em
浏览 6
提问于2017-02-17
得票数 0
回答已采纳
1
回答
熊猫DataFrame中文本
的
Jaccard相似性
python
、
pandas
、
scikit-learn
、
similarity
、
sklearn-pandas
我想把它
和
前面的课文比较一下。因此,每个公司
的
第一个条目总是
空
的
,因为没有文本可与之比较。df = df.sort_values(['Entity_Id', 'date'], ascending但<
浏览 6
提问于2017-09-26
得票数 5
2
回答
preparedStatement.setString(1," null ")被解释为null,而不是字符串(在preparedStatement.addBatch()之后)
java
、
jdbc
、
prepared-statement
、
netezza
我不知道怎样才能绕过这种误解,因为很多行都是作为批处理添加后立即执行
的
。( sql语句是一个INSERT INTO .)( VarChar不能为null,但
如果
它没有批处理发送,则表可以接受String a = "null" .整个程序由于服务器发出
的
错误消息而停止)代码: preparedStatement.setString(17
浏览 1
提问于2019-04-18
得票数 2
回答已采纳
1
回答
Python初学者:预处理python
中
的
法语文本,并使用词典计算极性
pandas
、
nlp
、
nltk
、
sentiment-analysis
、
treetagger
我正在用python编写一个算法,它处理一
列
句子,然后给出这
列
句子
中
每个
单元格
的
极性(正或负)。该脚本使用了NRC情感词典(法语版)
中
的
否定
和
肯定单词列表。我在编写预处理函数时遇到了问题。肯定词
和
否定词在同一个文件( lexicon )
中
,但我分别导出肯定词
和
否定词,因为我不知道如何使用该词典。 我
的
函数计数出现正和负不起作用,我不知道为什么它总是给我0。我在每句话
中</e
浏览 25
提问于2019-05-22
得票数 0
回答已采纳
1
回答
CountVectorizer fit_transform错误: TypeError:预期
的
字符串或类似字节
的
对象
python
、
machine-learning
、
scikit-learn
、
nltk
我
的
目标是对来自PDF
的
多个.txt文档运行一个单词分析包,其中
包含
OCRed。我已经使用
nltk
清除了所有.txt文档(使所有文档小写,删除了诸如" the“、"a”等绑定词,并对其进行了修饰以确保只保留单词茎),然后我将.txt文件保存在CSV
中
,为每个带有文档名称
的
列
设置一行,然后为每个单独
的
单词保存一
列
。每行都有一个带有文件名
的
单元格
,然后在每个
单元格
中
浏览 8
提问于2021-05-24
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
肝了3天,整理了90个Pandas案例
实例教程:如何用自然语言处理来预测垃圾邮件?
进阶高手必备的15个技巧,快来看下有没有你熟悉的
2018年最受关注10大Python函数包
EXCEL大量数据快速录入技巧
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券