腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
具有
快速
文本
的
单词
相似
度
查询
python
、
nltk
、
distance
、
fasttext
我有两个
单词
列表,比如说, 列表1:未来证明列表2:房屋过去
的
foo酒吧 我想计算列表1中
的
每个
单词
与列表2中
的
每个
单词
之间
的
语义距离。
快速
文本
有一个很好
的
功能来显示最近
的
邻居,但如果有一种方法可以读出两个已定义
单词
之间
的
语义距离就更好了。有人能帮帮忙吗? 谢谢
浏览 12
提问于2020-06-28
得票数 1
2
回答
如何在文档中实现语义
相似
度
information-retrieval
我正在做一个项目,在这个项目中,我需要根据搜索
查询
对
文本
文档进行排名,但我需要对
具有
单词
或句子
的
语义
相似
度
的
文档进行排名,我无法开始关于如何使用java找到语义
相似
度
。是否有任何链接或论文可以让我开始在文档或任何想法中找到
单词
的
语义
相似
度
。
浏览 3
提问于2014-06-25
得票数 0
1
回答
在keras中结合使用Gensim Fasttext模型和LSTM nn
tensorflow
、
keras
、
nlp
、
gensim
、
word-embedding
我已经用Gensim在非常短
的
句子(最多10个
单词
)语料库上训练了
快速
文本
模型。我知道我
的
测试集中包含不在我
的
训练语料库中
的
单词
,即我
的
语料库中
的
一些
单词
,如“催产素”、“来曲霉素”、"Ematrophin“、”Betaxitocin“。给定测试集中
的
一个新词,fasttext非常清楚地知道通过使用字符级n-gram来生成与训练集中
的
其他
相似</
浏览 25
提问于2020-07-06
得票数 4
回答已采纳
1
回答
在
快速
文本
中有没有什么方法可以将两个
单词
作为输入并返回它们
的
相似
度
nlp
、
word2vec
、
fasttext
我按照文档运行了
快速
文本
,相当简单。诸如$ ./fasttext nn result/fil9.bin之类
的
命令可用于查找
单词
的
最近邻居。然而,在
快速
文本
中有没有这样
的
简单命令,它接受"Vehicle“和"Car”等两个
单词
作为输入,并返回它们
的
(余弦)
相似
度
,即类似于0.777
的
数字。
浏览 0
提问于2018-12-20
得票数 1
1
回答
用java程序计算余弦
相似
度
java
、
tf-idf
、
trigonometry
我有一个问题,要计算一个
相似
性度量,为我
的
最终项目开发一个搜索引擎。我有自己
的
数据库,里面有811份文件。
浏览 3
提问于2011-03-28
得票数 0
4
回答
基于elasticsearch
的
Word2vec
文本
相似
性搜索
elasticsearch
、
word2vec
我有一个很大
的
文本
集合,每个
文本
都在
快速
增长。我需要实现一个
相似
性搜索。是否可以使用elasticsearch来获取余弦
相似
度</
浏览 93
提问于2017-02-23
得票数 20
1
回答
对问答系统NLP
的
几点建议
nlp
、
artificial-intelligence
、
chatbot
、
question-answering
我正在尝试建立一个问题回答系统,其中我有一组预定义
的
问题和他们
的
答案。对于来自用户
的
任何给定问题,我必须查找类似的问题是否已经存在于预定义
的
问题中,并发送答案。如果它不存在,它必须回复一个通用响应。任何关于如何使用NLP实现这一点
的
想法都会非常有帮助。 提前感谢!!
浏览 2
提问于2020-03-15
得票数 0
1
回答
为什么我
的
余弦
相似
度
总是为正?(
快速
文本
)
numpy
、
trigonometry
、
similarity
、
fasttext
我正在尝试评估代表
单词
的
两个向量
的
余弦
相似
度
。我使用
的
是
快速
文本
中预先训练好
的
单词
向量。现在,我想知道为什么我
的
余弦
相似
度
总是正数,不管我用
的
是什么词。有什么建议吗? 这是我
的
代码
的
一部分。np.linalg.norm(a) return dot
浏览 15
提问于2020-03-26
得票数 0
1
回答
基于关键字数量
的
文档与其他文档相关
的
概率
statistics
、
probability
如果用户搜索
单词
"Computer“,并且我想显示基于关键字"Computer”
的
最相关
的
文档。我
的
算法根据关键词在文档中出现
的
次数来选择最相关
的
文档。唯一
的
问题是文档X有10个
单词
,"Computer“出现两次,而文档Y有1000个
单词
,"Computer”出现100次。从文档中
的
字数来看,说文档Y比文档X更相关是不正确
的
。如何对此进行规范化,以获得最准确<
浏览 8
提问于2016-01-09
得票数 0
4
回答
是否可以使用Google BERT来计算两个
文本
文档之间
的
相似
度
?
python
、
text
、
scikit-learn
、
nlp
、
word-embedding
是否可以使用Google BERT来计算两个
文本
文档之间
的
相似
度
?据我所知,BERT
的
输入应该是有限大小
的
句子。一些作品使用BERT来计算句子
的
相似
度
,例如: 是否有BERT done
的
实现,以便将其用于大型文档而不是句子作为输入(
具有
数千个
单词
的
文档)?
浏览 1
提问于2019-09-11
得票数 12
1
回答
关于word2vec most_similar()函数
text-mining
、
gensim
、
word2vec
我使用如下
的
most_similar()方法来获取与给定
单词
相似
的所有
单词
:AFAIK,它
的
作用是计算给定
单词
和字典中所有其他
单词
之间
的
余弦
相似
度
。当我检查
单词
和分数时,我可以看到列表中有负分数
的
单词
。这是什么意思?它们是与给定<e
浏览 2
提问于2016-01-19
得票数 5
1
回答
单词
嵌入是如何影响
单词
相似
度
的
?
python
、
nlp
、
word2vec
、
word-embedding
、
doc2vec
我正在尝试应用word2vec/doc2vec来查找
相似
的句子。首先考虑
单词
相似
度
的
word2vec。我所理解
的
是,CBOW可以用于在给定上下文
的
情况下找到最合适
的
单词
,而Skip-gram用于在给定某个
单词
的
情况下查找上下文,因此在这两种情况下,我都会得到频繁出现
的
单词
。但是如何找到
相似
的
单词
呢?我
的</em
浏览 1
提问于2017-12-05
得票数 1
1
回答
Elasticsearch
单词
相似
度
elasticsearch
、
diff
、
similarity
单
单词
相似
度
检查
的
选项是什么? 考虑以下情况:我们有字段电子邮件存在
的
文档。当添加新文档时,我们希望检查是否有电子邮件与
具有
某些
相似
性约束
的
新文档类似的文档--例如,80%匹配。是否有任何特定
的
内置
查询
可以使用?
浏览 1
提问于2017-10-12
得票数 3
1
回答
理解
快速
文本
的
get_sentence_vector()和get_word_vector()
nlp
、
word-embedding
、
fasttext
我想做
的
是获取一对
单词
或短语
的
嵌入,并计算
相似
度
。 from scipy.spatial.distanceprint(is_equal) 如果我切
浏览 6
提问于2020-09-15
得票数 0
1
回答
基于WordNet
的
语义
相似
度
矩阵
python
、
nlp
、
information-retrieval
、
wordnet
、
word-sense-disambiguation
我有一个用于整个文档集合
的
独特
单词
(不包括停用词)
的
词汇表。我想执行
查询
扩展。在一些方法中,我发现对于
查询
中
的
每个
单词
,它
的
前k个同义词(通常是k=3)都会增加到
查询
中。但是,我使用
的
是基于TFIDF文档表示
的
向量空间模型,因此向
查询
中添加不在词汇表中
的
单词
最终会被删除。而且,由于不会使用词义消除歧义技术,因此添加同义词将不能保证所添加
的
浏览 43
提问于2021-06-30
得票数 0
1
回答
使用Ruby访问Java应用程序DISCO (Kolb 2008)
java
、
ruby
(extracting related words using共现)是一个Java应用程序,它允许检索任意
单词
和短语之间
的
语义
相似
度
。我需要写代码,这样我就可以输入一个列表,一个
单词
对,并接收
相似
度
值作为输出。 我
浏览 0
提问于2016-06-22
得票数 0
1
回答
Tensorflow嵌入层中
的
权值更新
tensorflow
、
word-embedding
我不确定我
的
理解是否正确但是..。 在训练seq2seq模型时,我想在嵌入层中启动一组预先训练
的
快速
文本
权重,目的之一是减少测试环境中
的
未知
单词
(这些未知
单词
不在训练集中)。由于预训练
的
快速
文本
模型词汇量较大,在测试环境中,未知词可以用
快速
文本
的
词汇向量来表示,在训练集中,这些向量应该与语义
相似
的词
具有
相似
的方
浏览 2
提问于2017-05-19
得票数 2
回答已采纳
1
回答
聚类内聚类,即多类聚类
的
数据表
的
嵌套聚类
python
、
python-2.7
、
machine-learning
、
artificial-intelligence
、
cluster-analysis
如何对数据集中
具有
相似
名称(如McDonald和Mc DOnald's)
的
字符串应用聚类,并且如果字符串相同(如sam和其他sam),则如何再次基于价值或价格进行聚类例如-考虑一个
具有
10个元素
的
数据表8 g11ita 23 我使用了使用fuzzywuzzy和Levenheneitein distance
的
字符串聚类
浏览 28
提问于2019-06-15
得票数 1
回答已采纳
3
回答
从字符串列表中,如何获得python中最奇怪
的
单词
/字符串?
python
, 'all', 'mimsy', 'were', 'the', 'borogoves', 'and', 'the', 'mome', 'raths', 'outgrabe'] 如何返回与字符串中其他
单词
最不同
的
单词
列表-基于与列表中所有其他
单词
的
最小
相似
度
和平均
相
浏览 0
提问于2012-04-12
得票数 1
1
回答
word2vec是如何找到句子
相似
性
的
?
nlp
、
data-science
、
word2vec
我使用word2vec/doc2vec查找两个文档
的
文本
相似
性。我研究了word2vec在两种方法上
的
工作: 但我仍然无法理解这两种方法是如何计算
文本
相似
性
的
。另外,哪一种是当前任务
的
更好方法。
浏览 0
提问于2019-01-25
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
基于ALBERT的文本相似度解决方案
四种计算文本相似度的方法对比
基于深度学习的短文本相似度学习与行业测评
在类似ChatGPT的模型中,嵌入(embeddings)扮演着什么角色?(第四部分)
如何索引数以十亿计的文本向量?
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券