腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
在
将
字符串
转
换为
列表
后
,
如何
从
我
的
nltk
标记
中
删除
'\
n
‘,
或者
首先
阻止
它
出现
?
python
、
pandas
、
nlp
、
nltk
我
已经
将
列
从
CSV转
换为
列表
,然后转
换为
字符串
以进行
标记
化。
在
它被转换成一个
字符串
后
,
我
始终得到'\
n
‘。
我
希望要么完全
阻止
它
的
发生,要么
在
它
发生
后
将其移除。到目前为止,
我
已经尝试了replace、strip和r
浏览 6
提问于2019-06-22
得票数 3
2
回答
Python在从
列表
转换到
字符串
时处理新行字符
string
、
list
、
nlp
、
nltk
、
newline
我
有一个关于换行符和返回字符
的
问题。这对
我
来说很难解释,但我会尽力
的
。为了使用NLP
标记
这个句子,尽管
NLTK
,
我
需要这个句子
在</em
浏览 4
提问于2017-03-28
得票数 0
1
回答
如何
在对数据进行聚类
后
,根据其他列生成新列?
python
、
machine-learning
、
data-science
、
k-means
、
unsupervised-learning
我
怎么能这么做?
我
应该
将
A列转
换为
二进制0 a 1s吗?
我
应该对
浏览 1
提问于2021-03-06
得票数 1
回答已采纳
1
回答
从
文件到语句
的
word2vec模型流数据
的
训练
python
、
streaming
、
nltk
、
gensim
、
word2vec
现在,
我
的
txt文件有点混乱,
我
需要
删除
所有的“\
n
”换行符,
从
我
加载
的
字符串
(txt-file)
中
读取所有句子,然后
标记
每个句子,以便使用word2vec模型。
我
不知道
如何
将
字符串
列表
转
换为
列表
列表
,其中每个子
列表
都包含句子,同时通过生成
浏览 1
提问于2019-07-20
得票数 0
回答已采纳
1
回答
使用
NLTK
的
命名实体识别。提取
的
关键字
的
相关性
nltk
、
relevance
、
named-entity-recognition
我
正在检查
NLTK
的
命名实体识别功能。是否有可能找出提取
的
关键字
中
与原始文本最相关
的
关键字?另外,可以知道提取
的
关键字
的
类型(个人/组织)吗?
浏览 4
提问于2011-04-16
得票数 4
2
回答
使用Python
NLTK
标记
大型(>70MB) TXT文件。连接并将数据写入流错误
python
、
nltk
、
tokenize
首先
,
我
是python/
nltk
的
新手,所以如果这个问题太基本了,
我
很抱歉。
我
有一个大文件,
我
试图对其进行
标记
;
我
得到了内存错误。
我
读过
的
一种解决方案是一次读取一行文件,这是有意义
的
,但是,在这样做
的
时候,
我
得到了错误cannot concatenate 'str' and 'list' obje
浏览 0
提问于2012-03-25
得票数 5
回答已采纳
2
回答
python正则表达式
将
所有windows换行符替
换为
空格
python
、
regex
我
这样做了:import
nltk
html = urlopen(url).read()现在,
我
在
python中有一个很长
的
字符串
,其中充满了定期被windows换行符/r/
n
中断
的
文本,
我
只想使用正则表达式<
浏览 0
提问于2011-06-30
得票数 14
回答已采纳
4
回答
如何
从一系列文本条目中提取常见/重要短语
nlp
、
text-extraction
、
nltk
、
text-analysis
我
有一系列
的
文本项-来自MySQL数据库
的
原始超文本
标记
语言。
我
希望在这些条目中找到最常见
的
短语(而不是单个最常见
的
短语,理想情况下,不强制逐字匹配)。
我
的
例子是Yelp.com上
的
任何评论,
它
显示了来自数百条对给定餐厅
的
评论
的
3个片段,格式如下:例如,本页
的
“回顾亮点”部分:
我
已经安装了<e
浏览 1
提问于2010-03-16
得票数 70
1
回答
使用dataframe
删除
标记
化
nltk
中
的
标点符号(python)
python
、
dataframe
、
nlp
、
nltk
我
有一些
我
能够处理
的
文本,
从
停用词,链接,表情符号等。
在
标记
我
的
数据帧
后
,
我
得到了一个不太好
的
图片。有许多额外
的
标点符号,它们被标识为单独
的
单词,并
出现
在处理
后
的
文本
中
。添加镜像 ? '].apply(
nltk
.word_tokenize) 如你所见,有很多像破折
浏览 59
提问于2021-11-04
得票数 0
3
回答
使用re模块输出soup.findall()作为进一步文本操作
的
输入
python
、
regex
、
web-scraping
、
beautifulsoup
尝试使用BeautifulSoup
从
网页中提取文本。希望
将
soup.findall()
的
输出作为输入传递,以便使用re模块进一步清理数据 纯文本输入正常工作,但如果传递soup.findall()
的
输出,它将引发以下错误。回溯(最近一次调用):文件“scpe2.py”,第18行,
在
url = re.search( ',univ) File "/usr/lib/python2.7/re.py“
中
,第142行,
在
搜
浏览 6
提问于2013-11-24
得票数 0
回答已采纳
3
回答
查找
字符串
中
字符/单词
的
周围句子
python
、
regex
、
nltk
我
正在尝试使用python
从
包含给定子
字符串
的
字符串
中
获取句子。 end: 10 { start: 123, }}
我
循环遍历每个亮点,
在
摘要
中</
浏览 2
提问于2013-03-21
得票数 7
回答已采纳
1
回答
打印出
列表
中
项目的
出现
情况
python
、
list
首先
,标识符
的
列表
可以是
字符串
或数值。第二,包含多个项目的
列表
。对于每个标识符(标识符
列表
中
的
项),计算标识符
在
项
列表
中
出现
的
频率。对于每个标识符,创建以下outout: identifier
在
列表
中
出现
的
次数。
将
标记
<>替
换为
标识符
的<
浏览 0
提问于2019-11-04
得票数 0
6
回答
基于正则表达式
标记
的
NLP词干化和局部化
python
、
python-3.x
、
nlp
、
nltk
定义一个名为performStemAndLemma
的
函数,
它
接受一个参数。第一个参数textcontent是一个
字符串
。在编辑器
中
给出了函数定义代码存根。执行下列指定任务:
将
浏览 13
提问于2020-06-30
得票数 1
回答已采纳
4
回答
python
中
的
nltk
NERTagger UnicodeDecodeError
python
、
nltk
、
stanford-nlp
我
正在用python 2.7.6编写一个程序,
它
使用
nltk
和Stanford
在
Windows7专业版
中
命名
的
实体
标记
器来
标记
文本并打印结果,如下所示: ra
浏览 0
提问于2015-01-03
得票数 0
1
回答
从
CSV
中
删除
非英语单词
pandas
、
nlp
、
nltk
我
是Python和
NLTK
的
新手,掌握了存储
在
CSV
中
的
Flickr数据,并且希望
从
标记
列
中
删除
非英语单词。
我
一直收到错误,说“期望一个
字符串
或一个类似字节
的
对象”。
我
有一种感觉,这是因为标签列目前是
在
Pandas系列数据类型
中
,而不是
字符串
。但是,
我
在
St
浏览 7
提问于2022-04-19
得票数 0
回答已采纳
2
回答
“‘list”对象
在
wordnet同义词集中没有属性“lower”问题
python
、
nltk
、
wordnet
、
synonym
、
part-of-speech
我
正在尝试编写一个函数,该函数
将
返回一个
NLTK
定义
列表
,用于
从
受该单词
的
词性约束
的
文本文档中
标记
的
“tokens”。
我
首先
将
nltk
.pos_tag提供
的
标记
转
换为
wordnet.synsets使用
的
标记
,然后依次应用.word_tokenize()、.pos_tag()、.synsets,
浏览 6
提问于2017-08-30
得票数 0
2
回答
如何
使用
NLTK
或pywsd进行词汇化
python
、
nltk
、
sentiment-analysis
、
lemmatization
、
part-of-speech
我
导入了csv文件,将其转
换为
数据帧,
将
变量/列转
换为
正确
的
数据类型。然后,
我
执行停用词
删除
: # Stop word removal stop_words = set(stopwords.words(但没有停止字 接下来
的
两个步骤让
我
感到困惑(词性
标记
和词汇化)。
我
试过两件事: 1)
将</em
浏览 28
提问于2020-03-27
得票数 2
回答已采纳
2
回答
NLTK
标签能正确识别收缩吗?
python
、
nltk
我
想知道
在
向
NLTK
的
pos标签发送给定
的
文本之前,是否需要编写一个反收缩函数。
我
不愿意
标记
单词,因为它们最终可能会像(不要‘do’,‘nt’)一样,
我
怀疑这会使pos
标记
更加困难。简而言之,
我
的
问题是:
nltk
的
pos标签是否能识别大多数收缩(根据我有限
的
经验,
它
似乎能很好地实现w/o单词
标记
)?单
浏览 6
提问于2021-08-09
得票数 1
回答已采纳
2
回答
nltk
pos标签
的
内部实现
nlp
、
nltk
、
spacy
我
刚接触过NLP,试着使用
nltk
pos标签,对使用有疑问,
nltk
pos标签也是一样
的
吗?如果是,那么为
浏览 4
提问于2018-08-08
得票数 2
回答已采纳
2
回答
在
dataset上阻塞数据时,UnicodeDecodeError意外结束数据
python
、
unicode
、
pandas
、
nltk
、
stemming
我
对python很陌生,
我
正试着开发一小块Yelp!dataset是
在
JSON中使用
的
,但我使用库和
NLTK
转
换为
CSV。 tokens =
浏览 1
提问于2015-05-17
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
即学即用的 30段Python 实用代码
Python基础:05-总结:双重循环,数据类型
总结!实用Python文本预处理代码
实例教程:如何用自然语言处理来预测垃圾邮件?
Python自然语言处理:使用SpaCycle库进行标记化、词干提取和词形还原
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券