腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何
从
现在
分词
或
Python
中
的
其他
变体
中找到
单词
的
词根
?
python
、
algorithm
、
nlp
、
nltk
、
linguistics
我正在做一个NLP项目,
现在
,我一直在检测某些短语
的
反义词,这些短语不是“标准”形式(比如动词、形容词、名词),而是
现在
分词
、过去时或类似的东西。例如,如果我有短语“到达”
或
“到达”,我需要将其转换为“到达”。同样,"come“应该是”come“。最后,“不满意”应该是“不满意”。有人能帮我解决这个问题吗?我用
Python
在NLTK
中
尝试了几个词干分析器和lemmanizer,但都没有用;它们
中
的
大多数都不能生成正确
浏览 15
提问于2020-05-27
得票数 0
1
回答
在spaCy
中
从
词根
(引理)和词性部分(POS)标记
中
获取完整
的
单词
“文本”。
python
、
nlp
、
spacy
如何
将
词根
和部
分词
性标记组合成一个完全修改
的
单词
?I希望逆转这个过程--获得一个给定特定“引理”/“POS”/“标记”组合
的
“文本”字符串。是否可以在spaCy
中
实现,如果可以,
如何
实现?我知道可以复数/共轭/etc ("untokenize"?
浏览 3
提问于2017-12-26
得票数 3
回答已采纳
1
回答
删除TF下手
的
同义词导致
python
python
、
nlp
、
tf-idf
、
cosine-similarity
我目前正在进行一个项目,在这个项目中使用
python
中
的
tfidf获取文档集中最相关
的
10个
单词
。然而,也有结果,其中有得到相同
的
词和它
的
多元
或
副词左右。为了解决这个问题,我决定使用
词根
,但这会导致一个问题,即
单词
及其反义词可以具有相同
的
词根
,或者通过将一个
单词
还原为它
的
根,如果用户要搜索它,就不能返回并在文档
中找到
这个特定<e
浏览 1
提问于2019-12-27
得票数 1
回答已采纳
1
回答
ntlk:
如何
获得词
的
变化
python
、
nltk
、
lemmatization
我有一个
单词
列表,将近5000个英语
单词
,每个
单词
我都需要这些屈折
的
形式:动词:不定式,
现在
简单,
现在
简单第三人称,过去简单,
现在
分词
(形式),过去
分词
副词
如何
通过
python
从
ntlk
中
的
给定
单词
(例如帮助)中提取这些信息?(或者可能有一份现成
的
清单)
浏览 1
提问于2016-05-05
得票数 2
回答已采纳
1
回答
神经标记器是
如何
工作
的
?
neural-network
、
tokenization
但我不清楚这种模型在输出格式方面应该
如何
工作。如果输出是令牌,那么它们可以表示为
从
嵌入中提取
的
嵌入、一个热索引
或
索引/int?你能描述这种模型
的
输入和输出
的
形状和意义吗? 是否可以使用嵌入式输出(
或
嵌入层
的
反向输出来输出表示令牌
的
整数)?如果输出是一个热
的
,那么
浏览 0
提问于2020-10-15
得票数 -1
2
回答
JQL实际
的
“包含”
jira
、
contains
、
jql
我想在一个包含部分内容
的
文本字段上执行一个简单
的
搜索,但我不知道开始部分。我基本上想要
的
是人们对“包含搜索”
的
期望。如果我在issue
中
搜索345,我会得到以下结果:234567...在JQL
中
,这将是查询issue ~ "*345*"
的
结果,但是通配符查询
中
不允许*作为第一个字符。有没有一种简单
的
方法来获得这个结果,最好是使用JQL查询?
浏览 2
提问于2017-05-22
得票数 4
2
回答
寻找基本
单词
并估计它们
的
难度
algorithm
、
language-agnostic
、
nlp
、
heuristics
", 0.5]] 难度/复杂性
从
“小菜一碟”到“令人难以置信
的
一件事”。关于什么应该被认为是基本
单词
的
一些想法可以找到,但也许一种更简单的确定它
的
方法是使用一本字典。不过,有可能(
浏览 4
提问于2013-04-13
得票数 4
2
回答
为什么
分词
和文件名扩展不适用于`[.]]‘
中
的
条件表达式?
bash
来自Bash参考手册shell扫描参数展开、命令替换和算术扩展
的
结果,这些结果没有出
现在
双引号内,用于
分词
。如果出现其中一个字符,则该
单词
被视为模式,并替换为与模式匹配
的
按字母排序
的
文件名列表。 因此,在参数展开、命令替换和算术扩展之后,除非对双引号
中
的
部分进行
分词
,否则会发生
分词
现象。在[[ ... ]]
中
,贾尔斯和John1024都说
单词
浏览 0
提问于2016-03-16
得票数 0
1
回答
基于R文本分析
的
拼写错误识别
r
、
replace
、
words
、
tm
、
stemming
我对R
中
的
TM包很陌生,我正在尝试执行一个
单词
频率分析,但我知道我
的
源文件中有几个拼写问题,我想知道
如何
在执行
单词
频率分析之前修复这些拼写错误。我已经读了另一篇文章(),但我对其中提出
的
解决方案有一个疑问:在创建TermDocumentMatrix和词频分析之前,是否可以使用字典(例如,数据框架)在我
的
语料库中进行几个/所有的替换?我有一个带有字典
的
数据框架,它
的
结构如下: sept -> sep
浏览 2
提问于2015-05-19
得票数 2
回答已采纳
1
回答
python
-使用nltk和scikit
从
文本
中
为标记云选择最相关
的
单词
--学习
python
、
data-mining
、
nltk
、
text-mining
、
scikit-learn
为了准备一个标签云,我想从文本
中
获取最相关
的
单词
。我使用了来自scikit-learn包
的
CountVectoriser: stop_wordscounts = cv.fit_transform([text]).toarray().ravel()我可以过滤掉不常出现
的
词我
的</e
浏览 4
提问于2013-02-07
得票数 3
2
回答
如何
从
数百万个段落中提取包含特定
单词
的
句子
python
、
python-2.7
、
nlp
我使用
Python
Scrapy删除了数百万篇报纸文章。
现在
,我想提取一个包含一个
单词
的
句子。下面是我
的
实现。for w in words: sentences[w].append(s) 我有大约1000个
单词
上面的代码效率不高,而且需要花费大量
的
时间。此外,句子可以包含不同形式
的
词根
(过去时)。<em
浏览 2
提问于2015-02-01
得票数 1
2
回答
Porter Stemmer可以返回词缀而不是词干吗?
python
、
nlp
、
nltk
、
porter-stemmer
我正在做一个项目,在这个项目中,我试图计算多个语料库
的
词形变化百分比,以便对它们进行比较。我知道
如何
使用nltk Porter Stemmer来获取
单词
的
词根
,但如果我能返回词缀而不是
词根
,对我来说会更有帮助。如果我能做到这一点,我可以只计算词干截断
的
词缀数量("ly“、"ed”等),并将其与
单词
总数进行比较。这可能是一个简单
的
翻转,但我不知道
如何
用根来做这件事。
浏览 17
提问于2019-03-30
得票数 1
2
回答
Word2Vec
如何
对待不在词汇表
中
的
单词
word2vec
我试图为我句子
中
的
每个
单词
指定一个向量。有些词即使是非常相似的词也不被识别--例如:Going,gone,go被识别,而goes则不被识别。我应该
如何
将任何逻辑值分配给goes这个词
或
类似的任何
单词
?请注意,我不知道什么词是不会被认出来
的
。
浏览 0
提问于2016-08-29
得票数 1
4
回答
如何
找到基本
的
,无曲解
的
词进行搜索?
perl
、
search
、
nlp
、
stemming
、
lemmatization
所以对于动词,这些都是相同
的
词根
,be: 那么对于名词来说,单数形
浏览 2
提问于2011-05-31
得票数 2
回答已采纳
1
回答
Solr拼写检查查询术语修改
solr
、
spell-checking
我有以下问题:</lst><bool name="correctlySpelled">false</bool></response> 上面的输出也有像“wor
浏览 2
提问于2017-08-28
得票数 1
回答已采纳
2
回答
NLP:我
如何
将词干和标签结合起来?
python
、
nlp
、
nltk
、
tagging
、
stemming
我正在尝试编写代码,它传递
的
文本已经被标记,停止词被过滤掉,然后继续并标记它。但是,我不确定我应该按照什么顺序进行标记。然而,由于我是第一个词干,pos_tag经常给
单词
贴上错误
的
标签。例如,它将"hous“标记为形容词,而原来
的
单词
实际上是名词"house”。但是,当我试图在标记后进行词干时,它给了我一个关于pos_tag
如何
不能处理‘元组’
的
错误--我猜这与
词根
分析器将
单词
列表格式化为[('come&
浏览 4
提问于2020-04-24
得票数 0
回答已采纳
3
回答
只在一个句子
中找到
一个
单词
,而不是在一个
单词
中找到
一个
单词
(
python
)
python
在
Python
中
,通过使用: number = number + 1word = "or"if word in sentence: n
浏览 6
提问于2013-11-01
得票数 1
回答已采纳
5
回答
如何
避免重复加载大文件?
java
、
python
、
performance
、
process
、
persistence
我正在尝试
从
python
中
调用一个Java程序(斯坦福中文
分词
程序)。Java程序需要加载一个大
的
(100M)字典文件(帮助
分词
的
单词
列表),这需要12+秒。我想知道是否有可能加快加载过程,更重要
的
是,当我需要多次调用
python
脚本时,
如何
避免重复加载它?以下是代码
的
相关部分:
浏览 4
提问于2012-01-28
得票数 4
回答已采纳
2
回答
使用哪个HTML5标签来强调和讨论一个
单词
?
html
、
tags
、
semantic-markup
当我想强调
或
讨论与普通文本块
中
的
计算机代码相关
的
单词
时,我使用<code>标记。例如:
单词
浏览 0
提问于2018-08-27
得票数 1
1
回答
在使用Word2vec时,
如何
从
看不见
的
单词
语料库
中
获得结果?
python
、
word2vec
我正在使用Word2vec模型来提取相似的
单词
,但我想知道是否有可能在使用看不见
的
单词
进行输入
的
同时获得
单词
。这是可能
的
情况吗?
浏览 0
提问于2020-03-06
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券