腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
pandas
系列
中
的
标记
化
单词
python
、
pandas
、
nlp
、
nltk
我在panda
系列
中
对
单词
进行
标记
化时遇到了问题。我
的
系列
名为df text1 I would=nltk.word_tokenize(df),但结果是TypeError: expected string or bytes-like object 我还尝试了.apply(lambda row:)
的
3df.apply(
浏览 18
提问于2020-10-28
得票数 1
回答已采纳
2
回答
替换稀有
单词
标记
: Python
python
、
pandas
我希望能够在语料库中用标识符'UNK‘替换所有稀有
单词
。下面的代码可以工作,但速度很慢。有没有更好更聪明
的
方法?编辑:瓶颈是rareWordstoUNK函数-前面的部分非常快。在我
的
熊猫
系列
中大约有8万行。 X_train是一个
pandas
系列
,其中每个“行”都是诸如['this','is','my','first', 'sentence']之类
的
单词<
浏览 2
提问于2016-04-16
得票数 1
4
回答
在元组
中
的
列表中提取列表,该列表恰好在pd.series
中
python
、
pandas
、
iterable-unpacking
type(x) 我想要创建一个
系列
,它只包含元组
中
列表
的
值,比如那些[a]、[u]或[w]。 我怎么提取?谢谢。更新:我意识到我表达这个问题
的
方式令人困惑。我现在改了。它更好地代表了我
的
问题。基本上,我需要逐行提取所有[a]、[u]或[w]。这是
标记
化
的
文本数据,它们是句子
中
的
单词
。很抱歉给你造成了混乱。
浏览 13
提问于2022-02-07
得票数 -1
回答已采纳
1
回答
形象
化
注意力:使用注意权重
的
颜色
标记
python
、
matplotlib
、
deep-learning
、
visualization
、
colormap
我有一
系列
的
标记
,每个
标记
都有一个注意权重。现在,我想使用特定颜色
的
阴影来可视
化
标记
。例如,根据重量从最轻到最暗
的
蓝色阴影。 我知道是可能
的
。但是,如何做那个节目/打印
标记
/
单词
?
浏览 5
提问于2019-12-06
得票数 1
回答已采纳
1
回答
使用
pandas
dataframe
中
的
函数从列表创建列表
python
、
python-3.x
、
lambda
、
nltk
、
stemming
我想要创建一个新
的
pandas
列,方法是对另一列
中
的
单词
列表运行
单词
词干函数。我可以使用apply和lambda对单个字符串进行
标记
化
,但我不知道如何将其外推到对一
系列
单词
运行它
的
情况。test) df['tokenized'] = df.apply (lambda row: nltk.word_tokenize(row['Statement']), axis
浏览 0
提问于2017-02-25
得票数 0
回答已采纳
1
回答
如何在python
中
搜索xlsx表
中
的
多个项
python
、
nlp
、
tokenize
我从用户那里获取输入,然后对其进行
标记
化
,
标记
化
是成功
的
,但我面临
的
问题是它不显示任何内容 我正在尝试搜索用户输入
的
xlsx文件
中
的
单词
,然后它应该显示该特定
单词
所在
的
完整行。import xlrdfrom openpyxl import load_workbook from xlrd import open_workbo
浏览 6
提问于2019-01-14
得票数 0
2
回答
根据条件从
pandas
系列
中
删除重复项
python
、
python-3.x
、
pandas
我有一个熊猫
系列
,如下所示: increased 1.601759 reports我只想从序列
中
删除重复
的
单词
,并保留具有较高数值
的
单词
。我已经尝试过将一个序列转换为
pandas
数据帧,它运行良好。但是,这将是一个耗时
的
过程,因为我有大量
的
系列
。所以,我只想在现有的
系列
中<
浏览 0
提问于2018-08-03
得票数 2
1
回答
使用
pandas
dataframe
的
nltk freqdist
中
的
类型错误
python
、
pandas
、
dataframe
、
nltk
、
frequency-distribution
在对句子进行
标记
化
之后,我尝试使用nltk
的
FreqDist从我
的
数据列(文本字符串)
中
获取最常用
的
单词
。 然而,在应用
pandas
dataframe之后,我得到了一列列表,而不是字符串。Description'].map(tokenize) word_dist = nltk.FreqDist(df['Tokenized']) #type error: unhashable type 现在我
的
标
浏览 40
提问于2019-05-24
得票数 0
1
回答
如何从
pandas
序列
中
删除一个或多个字母x?
python
、
pandas
我一直在尝试从
pandas
系列
中
删除只包含字母x
的
单词
,但它并没有像预期
的
那样工作。如何从熊猫
系列
中
删除像x xx xxx xxxx这样
的
单词
,这些
单词
可以只有任意数量
的
x?我
的
尝试 import numpy as nppd.set_option('max_colwidth',500
浏览 41
提问于2020-10-23
得票数 1
回答已采纳
1
回答
如何去除
pandas
序列
中
的
重复子串?
python
、
pandas
我试图删除
pandas
中
的
重复字符串,但该方法不起作用。我
的
尝试ser.str.replace(r'(\w)\1',r'\1',regex=True) # does not work re.sub(r'(\w+)\1',r'
浏览 22
提问于2019-11-27
得票数 2
回答已采纳
1
回答
在
pandas
中将
标记
化
的
单词
组合到单个列表
中
arrays
、
python-3.x
、
pandas
我有一个
pandas
dataframe,列为‘tokenized_text’:-[trump,election[football,world,cup]预期输出 [obama,america,counterpart,trump,election,development
浏览 0
提问于2018-06-22
得票数 0
4
回答
统计文件中所有
单词
的
词频
python
、
python-3.x
、
pandas
、
text
、
nltk
我还对它进行了
标记
化
(将其分解为所有
单词
的
列表),以防使用列表操作更容易。longData =
pandas
.DataFrame([], index=[], columns=['Frequency']) longData.loc[wor
浏览 2
提问于2019-05-28
得票数 1
3
回答
将目录
中
的
文件名与
Pandas
系列
匹配,删除不匹配
的
文件
python
、
pandas
我用
的
是Python 2.7。RE: We have Apple.msgRE: Pick up some cabbage please.msgHigh Quality Orange如何遍历目录,找到包含
pandas
系列
中
单词
的
文件名,并删除未找到匹配<e
浏览 3
提问于2018-07-27
得票数 0
1
回答
Tensorflow
标记
器:保留
的
最大字数
tensorflow
、
tensorflow2.0
、
tokenize
尝试通过应用Tensorflow
标记
器对IMDB电影评论进行
标记
化
。我想拥有最多10000个
单词
的
词汇量。对于看不见
的
单词
,我使用默认
标记
。type(X), X.shape, X[:3] 0 first think another disney movie(num_words=10000,oov_token='xxxxxxx') #
浏览 16
提问于2020-10-05
得票数 0
5
回答
java
标记
器或断字符,适用于不同
的
语言
java
、
normalization
、
wordbreaker
我想知道是否有一些基于java
的
语言实用程序可以帮助完成以下字符串
标记
化
或断字和去噪Friday's meeting is wonderfulFridaymeeting wonderful和for字符串预期结果将是
单词
其中I,to,
浏览 5
提问于2012-06-04
得票数 0
回答已采纳
3
回答
计算大熊猫
的
Tf-Idf分数?
python
、
python-3.x
、
pandas
、
tf-idf
、
tfidfvectorizer
我用
的
是蟒蛇和熊猫。import
pandas
as pd 'sent': ['This is the first在
标记
化
之后,我已经将其用于TF计算:但这给了我一个计数,但我想要(count/total number我希望Tf和Idf都作为
pandas</
浏览 13
提问于2018-08-02
得票数 2
1
回答
为什么pandasUDF
系列
(PandasUDFType.SCALAR_ITER)
系列
的
迭代器(PandasUDFType.SCALAR)是可用
的
?
apache-spark
、
pyspark
、
apache-spark-sql
根据函数
的
输入和输出类型,有不同类型
的
pandasUDFType。@
pandas
_udf('long', PandasUDFType.SCALAR) return v + 1 还有
系列
PandasUDFType.SCALAR_ITER
的
迭代器 from pyspark.
浏览 5
提问于2022-01-02
得票数 3
回答已采纳
3
回答
在
pandas
数据帧
的
所有行
中
迭代nltk.tokenize
python
、
pandas
、
nltk
、
tokenize
感谢你帮我问了个愚蠢
的
问题。我已经将一个sqlite表放到了一个
pandas
数据框
中
,这样我就可以对一
系列
tweet
中
的
单词
进行
标记
化
和统计。 columns=["WORD","COUNT"]) 当我将该值更改为单行以外
浏览 0
提问于2019-10-01
得票数 1
1
回答
Python:比较两个具有不同键
的
计数器对象
python
、
python-2.7
、
pandas
、
comparison
我有两个字符串,我希望对它们进行
单词
标记
化
,然后比较它们
的
差异s2 = 'one one two'from collections import Counter def counter_series
浏览 36
提问于2018-06-26
得票数 1
回答已采纳
1
回答
熊猫:检查A
系列
单词
是否以B
系列
中
的
一个
单词
结尾
的
最快方法
python
、
performance
、
pandas
我想检查一个名为strings
的
系列
中
的
单词
是否以ending_strings
系列
的
一个
单词
结尾。'foo'])我想出了下面的代码,但是是否有一种更快,或者更像熊猫
的
方式来做到这一点呢from
pandas
import Series
浏览 3
提问于2014-09-04
得票数 7
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
这些很实用的Pandas技巧,你都会了吗?-乌森数据可视化系列(1)
系列化零件设计表在制作焊件轮廓中的作用
【数字化系列第四篇】聊一聊企业数字化转型中的关注点!
【数字化转型科普系列1】多维度了解数据中台的定义及价值
Python自然语言处理:使用SpaCycle库进行标记化、词干提取和词形还原
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券