腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(340)
视频
沙龙
1
回答
如
何在
nltk
Python
中将
某些
单词
视为
分隔符
?
、
、
我正在尝试使用停用词(‘is’,' the ','was')作为
分隔符
对下面的文本进行标记 预期输出如下: ['Walter', 'He', 'He probably', stopwords = ['
浏览 32
提问于2020-10-23
得票数 1
回答已采纳
1
回答
从文本中提取正面和负面
单词
?
、
、
、
、
我需要找到
某些
评论在网站上给出的意见。我正在使用sentiwordnet来做这件事。我首先将包含所有评论的文件发送到POS标签器。有没有其他准确的标记化方法,除了将其
视为
两个单独的
单词
之外,还可以将其
视为
不好的一个
单词
。 File "C:\
Python
27\lib\site-package
浏览 20
提问于2017-01-22
得票数 2
1
回答
绘制条件频率分布时以百分比格式显示y轴
、
、
当绘制文本语料库中
某些
单词
的条件频率分布时,y轴显示为计数,而不是百分比 我遵循Steven Bird,Ewan Klein和Edward Loper在"Natural Language Processingwith
Python
“中概述的代码,以显示不同语言的UDHR在Jupyter Notebook中的
单词
频率分布。from
nltk
.corpus import udhr languages = ['Chickasaw', 'English',
浏览 23
提问于2019-04-01
得票数 2
回答已采纳
2
回答
在blob中如何计算情感分析
、
我对几乎一半的短语的极性得分有一些零,我想知道这个零是否表示中性,或者更确切地说,这个短语没有以具有极性的
单词
为特征。我想知道另一个情绪分析器也有同样的问题:NaiveBayesAnalyzer。
浏览 0
提问于2015-12-30
得票数 10
10
回答
如何将字符串拆分成列表?
、
、
、
我希望我的
Python
函数拆分一个句子(输入),并将每个
单词
存储在一个列表中。我当前的代码拆分句子,但没有将
单词
存储为列表。我该怎么做?
浏览 0
提问于2009-04-13
得票数 612
回答已采纳
2
回答
在
python
中提取
分隔符
[]之间的
单词
从下面的字符串中,我想提取
分隔符
[ ]之间的
单词
,
如
'Service Current','Service','9991','1.22'如
何在
python
中提取相同的内容?
浏览 8
提问于2010-05-18
得票数 9
3
回答
在哪里可以找到包含常见食物列表的文本列表或图书馆?
、
、
、
我正在编写一个
Python
脚本来解析电子邮件,这涉及到在电子邮件的文本中搜索任何常见的食品
单词
。我需要一些方法来确定
单词
是否真的是食物。我看过几个自然语言处理API(
如
AlchemyAPI和
NLTK
2.0),它们似乎有命名实体提取(这正是我想要的),但我找不到特定的食物实体类型。我是否需要编写自己的抓取器来解析
某些
在线资源,或者是否有更简单的方法?
浏览 3
提问于2013-10-28
得票数 9
1
回答
如
何在
python
中将
文本块标记为一个令牌?
、
、
、
在以前关于自然语言处理的工作中,我使用了来自
nltk
的sent_tokenize和word_tokenize来标记句子和
单词
。但是当我在基因组数据集上使用这些功能时,它不能正确地标记基因组。下面的文字显示了基因组数据集的
某些
部分。(
如
>NR_004049 1 )开头的每个块都应该被
视为
一个令牌。更新:解决此问题的一种方法是在每个块中附加行,然后使用
nltk
令牌程序。例如,这意味着要追加>NR_004049 1和>NR_004048 1之间的所有行,以便从多行生成一个字符
浏览 10
提问于2022-11-30
得票数 3
回答已采纳
4
回答
将未知
单词
解析为已知
单词
的有效方法?
、
、
、
、
我正在设计一个文本处理程序,将生成一个长的分项文本文档的关键字列表,并结合意义相似的
单词
的条目。有一些指标,但是我有一个新的问题来处理我正在使用的字典中没有的
单词
。我目前正在使用
nltk
和
python
,但我在这里遇到的问题要抽象得多。给定一个字典中没有的
单词
,将其解析为字典中的
单词
的有效方法是什么?我目前唯一的解决方案是浏览字典中的
单词
,并选择与输入
单词
具有最短Levenshtein距离(编辑距离)的
单词
。显然,这是一种非常缓慢和不切
浏览 3
提问于2012-06-14
得票数 3
回答已采纳
1
回答
bash和zsh之间的
单词
前向/后向
分隔符
差异
、
、
它将斜杠
视为
单词
分隔符
,大多数环境(
如
Safari和使用Cocoa文本编辑功能的应用程序)也是如此。在zsh中,当我尝试做同样的事情时,第一个Alt键-左箭头键将光标一直跳回到"/foo/bar/baz“的开头,这使得它对直接编辑长整型的
某些
部分没有多大用处。 这可以在zsh中配置吗?
浏览 29
提问于2020-03-18
得票数 4
回答已采纳
2
回答
如何从没有空格的字符串中提取
单词
?
、
、
、
、
我对
python
还有点陌生,所以我被困在一个我不知道如何解决这个特定问题的问题上。所以我想至少能用大写字母来平分。然而,我不知道如
何在
python
中这样做。 如
何在
不消
浏览 0
提问于2017-05-07
得票数 0
6
回答
如何标记马来语
单词
?
、
、
ഇതുഒരുസ്ടലംമാണ് 这是一个Unicode字符串,意思是
nltk
.wordpunct_tokenize('ഇതുഒരുസ്ഥാലമാണ്
nltk
.word_tokenize('ഇതുഒരുസ്ഥാലമാണ് '.decode('utf8'))"കണ്ടില്ല " = കണ്ടു +ഇല്ല,[u'\u0d07\
浏览 2
提问于2013-10-22
得票数 17
2
回答
从没有任何库的文本中删除非
单词
如
何在
不使用
python
中的任何库的情况下从其中删除非
单词
? 我所说的
单词
是指只包含英文字母加上“‘”和“-”的字符串。因此,我们将“can‘t”、“John’s”和“full-time”等词
视为
有效词。此外,
单词
不包含任何数字或符号,
如
“.”、“”、“!”、“?”等。英语中唯一的单字母
单词
是“a”和“i”。
浏览 19
提问于2021-10-14
得票数 0
回答已采纳
2
回答
标签预测的特征空间约简
、
、
、
、
我正在编写一个ML模块(
python
)来预测堆栈溢出问题(tag + body)的标记。我的语料库大约有500万个问题,每个问题的标题、正文和标签。为了训练和测试,我要把这个3:2分开。此外,在存储数据的方式(redis +稀疏矩阵)中,很难使用已经实现的模块(sklearn、
nltk
等)来完成这项任务。
浏览 3
提问于2015-01-31
得票数 6
2
回答
Doc2Vec段落输入
、
我理解doc2vec是如何工作的,但我不清楚在数据中输入数据的最佳实践。我真的很喜欢足球。佩顿·曼宁是个伟大的球员.然而,这对我来说没有直觉意义,因为这些词来自不同的句子。 有什么建议吗?
浏览 0
提问于2017-11-29
得票数 0
1
回答
如
何在
python
中将
内容相同的
单词
视为
一个
单词
?
、
我有一个类似于下面的列表,我想将具有相同内容的
单词
视为
一个
单词
。有没有办法更有效地做到这一点?
浏览 20
提问于2021-09-27
得票数 0
回答已采纳
3
回答
如何从
python
中的文本中提取关键字?
我想从文本和打印中提取一些关键词,但是怎么做呢?text = "Merhaba bugun bir miktar bas agrisi var, genellikle sonbahar gunlerinde baslayan bu bas agrisi insanin canini sikmakta. Bu durumdan kurtulmak icin neler yapmali."keywords = ('bas agrisi', 'kurtulmak') 我想要检测这些关键词
浏览 4
提问于2021-09-08
得票数 1
回答已采纳
3
回答
伯特模型需要文本吗?
、
、
、
、
Bert模型是否需要预处理文本(例如删除特殊字符、停止词等)或者我可以直接把我的文本传递给伯特模型。(HuggigFace库)。
浏览 14
提问于2022-01-10
得票数 0
4
回答
从给定文本中提取英语动词
、
、
我需要从给定的课文中提取所有的英语动词,我想知道我怎么做……乍一看,我的想法是使用正则表达式,因为所有的英语动词时态都遵循模式,但也许还有另一种方法。我的想法很简单: 提前谢谢你! 所有这一切的主要问题是,项目包括动词的名词化(只
浏览 4
提问于2011-03-23
得票数 8
11
回答
如何使用
NLTK
标记器消除标点符号?
、
、
、
我刚刚开始使用
NLTK
,我不太明白如何从文本中获取
单词
列表。如果我使用
nltk
.word_tokenize(),我会得到一个
单词
和标点符号的列表。相反,我只需要文字。我怎样才能摆脱标点符号?此外,word_tokenize不能处理多个句子:在最后一个
单词
上添加圆点。
浏览 0
提问于2013-03-21
得票数 138
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
带来Python NLP入门教程!
实用Python文本预处理代码
Python NLP入门教程
Python文本预处理:步骤、使用工具及示例
实例教程:如何用自然语言处理来预测垃圾邮件?
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券