腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(3004)
视频
沙龙
1
回答
如何
基于
Pandas
中行
之间
的
文本
相似
度
来
消除
重复
、
、
我有一个新闻标题
的
数据集。我想删除
重复
的
或高度
相似
的标题,
基于
与过去十天
的
标题
的
文本
相似
性。对于高度
相似
的标题,我想保留最早
的
。我在考虑做一个
基于
日期和标题
的
连接,其中日期在最近十天内,类似于这样(在SQL语句中): create table df_joined as select a.*, b.date as date_b,b.Headline as Head
浏览 22
提问于2019-04-09
得票数 0
1
回答
基于
WordNet
的
语义
相似
度
矩阵
、
、
、
、
我有一个用于整个文档集合
的
独特单词(不包括停用词)
的
词汇表。我想执行查询扩展。在一些方法中,我发现对于查询中
的
每个单词,它
的
前k个同义词(通常是k=3)都会增加到查询中。但是,我使用
的
是
基于
TFIDF文档表示
的
向量空间模型,因此向查询中添加不在词汇表中
的
单词最终会被删除。而且,由于不会使用词义
消除
歧义技术,因此添加同义词将不能保证所添加
的
同义词保留查询中
的
单词
的
含义,从而导致查询漂
浏览 43
提问于2021-06-30
得票数 0
1
回答
从coo_matrix到csr_matrix计算无矩阵
重复
和
的
余弦
相似
度
、
、
、
我想要计算购买数据集
的
产品
之间
的
余弦
相似
度
。我有超过100000行( row =用户购买事件)和超过80000个产品。要避免使用
pandas
.crosstab使数据集采用以下格式,请执行以下操作:> 我将购买数据集转换为scipy.coo_matrix,并认为我必须执行tocsr()
来<
浏览 21
提问于2018-09-05
得票数 1
回答已采纳
3
回答
两个表
之间
的
模糊匹配
、
、
HBC MS USA 5004116 Anurag 123 CA USA 5001 我想知道
基于
全地址在上面两个表
之间
进行模糊匹配
的
最好方法是什么
浏览 3
提问于2017-03-22
得票数 0
1
回答
如何
选择句子和段落
之间
的
相似
度度量
、
、
、
问题有几种测量句子
相似
性
的
方法,但我不知道
如何
为我
的
数据(句子)找到合适
的
方法。
的
句子或段落 如果可以同时获得一个句子和一个包含句子
的
段落,那么哪个句子或段落
之间
的
相似
性更准
浏览 0
提问于2022-02-07
得票数 2
回答已采纳
1
回答
连接
相似
字符串上
的
两个表
、
、
、
、
简单地说,我正在尝试在数据集中查找
重复
项。我想做
的
是类似于这个‘Select 'Hi I am sam'::text sSelect 'Hi, I am'::text s“”“
浏览 0
提问于2020-03-31
得票数 1
1
回答
两阶段文献检索中
的
排序评价方法
、
、
、
我创建了一个
基于
文本
相似
度
(余弦
相似
度
)
的
查询文档对
之间
的
两级排序系统。现在我需要验证我
的
排名系统,对于用户来说,检索到
的
适当排序项是否正确,我应该选择哪种方法。我读过关于Pointwise/成对/列表方法
来
验证排名,但是手动评估排名系统,这会更有帮助。如果有人能启发出一种更好
的
评价方法,这将对我很有帮助。谢谢
浏览 0
提问于2016-11-28
得票数 0
回答已采纳
1
回答
数值和
文本
值
的
组合
之间
的
余弦
相似
度
、
、
我正在尝试在Yelp数据集上使用关于餐厅
的
数据做一个简单
的
基于
内容
的
过滤模型。,其中回答
的
问题是“给定一家餐厅,推荐
相似
的餐厅”。基本上,他们使用一些
文本
字段
来
构建计数向量器矩阵,然后对行进行余弦
相似
度
计算,以获得电影
之间
的
相似
度
。我正在尝试使用类别、属性、纬度和对数(对于距离)、明星和评论计数(
基于
评论计数对明星进行加权-评论
浏览 27
提问于2021-02-27
得票数 0
回答已采纳
2
回答
如何
使用词性
来
评估语义
文本
的
相似
度
?
、
、
、
我正在尝试编写一个程序
来
评估
文本
之间
的
语义
相似
度
。我已经比较了
文本
之间
的
n-gram频率(一种词汇测量)。我想要一些不那么肤浅
的
东西,我认为在句子结构中查看
相似
度
是评估
文本
相似
度
的
一种方法。然而,我所能做
的
就是计算词性(例如,每个
文本
4个名词,2个动词,等等)。然后,这类似于
浏览 1
提问于2012-07-12
得票数 1
1
回答
“谁买了这个项目也买了”类型
的
推荐矩阵因子分解
我知道可以使用
基于
项目的协作过滤
来
做“谁买了这个项目也买了”类型
的
推荐。我
的
问题是,我们
如何
使用矩阵分解(MF)
来
做到这一点。一种可能
的
解决方案可能是使用MF学习项目特征,然后
基于
这些特征计算项目的
相似
度
。但这不是“纯MF",我
的
意思是,最终我仍然需要计算所有项目特征对
之间
的
相似
度
,这需要$O(n^2)$时间。有什么想
浏览 2
提问于2016-05-11
得票数 0
1
回答
如何
在python中提高词移位距离
相似
度
,并使用加权句子提供
相似
度
评分
、
、
、
、
单词移动距离可用于识别
文本
之间
的
相似
性。这种
相似
性可用于比较多个
文本
以找到最接近
的
相似
文本
。然而,我无法定制算法
来
做以下事情:1)
消除
位置(GPE) -由spacy识别,在
文本
中在比较
相似
度
时有任何权重。2)对
文本
第一句中
的
特征赋予更多
的
权重,而不是第二句和第二句中
的
特征比第
浏览 27
提问于2019-02-05
得票数 1
回答已采纳
1
回答
寻找
文本
中句子
之间
的
语义连贯性
、
、
、
、
我需要一些帮助写一个程序
的
基础上,从这些链接和
的
代码,将自动计算
之间
的
语义
相似
度
a.连续
的
句子和b.句子由1个中间短语,在和整个文件(1000句子)。提供
的
代码已经标记化并可以找到语义
相似
度
,但我不知道
如何
编写新代码
来
计算(并显示)整个
文本
(a,b)中连续和“插入”句子
之间
的
语义
相似
度
。.I不
浏览 13
提问于2017-01-11
得票数 0
1
回答
如何
将
文本
和分类数据混合在一起
的
数据进行聚类?
、
、
、
我有一组字符串,每个字符串都有与之相关
的
分类信息。但是,分类信息并不总是很好,所以我需要根据
文本
内容和类别对消息进行聚类。做这件事最好
的
方法是什么?
浏览 0
提问于2015-05-18
得票数 3
1
回答
在语义网络
相似
度
中评估短
文本
、
、
、
、
我有一个评估短
文本
的
程序。它给出一个原始
文本
,并将其传输到语义网络。然后将其与几个短
文本
进行比较,这些短
文本
也被转换为语义网络。使用意义与句子
的
相似
度
来
衡量原始
文本
与其余
文本
之间
的
相似
度
。
如何
在Python中执行这些步骤?可以使用哪些库?有没有现成
的
代码可以在我
的
工作中使用?
浏览 24
提问于2020-11-12
得票数 0
2
回答
如何
在spark mllib中进行
基于
项目的推荐?
、
、
、
在Mahout中,支持使用API方法进行
基于
项目的推荐:但是在Spark Mllib中,看起来ALS内部
的
API可以获取推荐
的
产品,但userid必须通过以下方式提供:有没有一种方法可以根据类似的产品获得推荐产品,而不需要提供用户id信息,就像
浏览 1
提问于2014-12-18
得票数 8
1
回答
两个文档
之间
的
不同特征
、
、
、
我试图找出这两份文件
之间
的
不同之处。我正在使用gensim,到目前为止已经获得了
相似
度
分数。 有没有办法知道两个文档
之间
的
相异分数和相异特征?
如何
评估它?
浏览 1
提问于2018-07-03
得票数 0
0
回答
将数据可视化为图形
、
、
我有一个来自不同书籍
的
书名数据集。我希望使用每本书标题
之间
余弦
相似
度
的
网络图
来
可视化这一点。这些书有两个目录- 1或0 -我想
基于
类别的颜色坐标。每个标题
之间
的
余弦
相似
度
应该是顶点
的
权重。cs_abstract = squareform(pdist(abst.toarray(), 'cosine'))pri
浏览 1
提问于2017-06-17
得票数 0
1
回答
CLUTO聚类时输入数据
的
数据预处理
、
、
、
我正在尝试根据一些单词(两个单词
之间
)
的
相似
度
对它们进行聚类,我
的
数据
的
一部分如下所示(它只是一个例子"animal.txt",它与邻接矩阵
相似
)。2horse 3 1 5 4数字越大,表示两个单词
之间
的
相似
度
越高
基于
这种
浏览 3
提问于2013-12-28
得票数 0
1
回答
计算给定语音记录中
的
语义连贯性
、
、
、
、
我正在尝试计算给定段落/
文本
的
语义连贯性,即。如果有人在谈论某件事或话题时偏离了轨道--更具体地说是描述一张图片(图片可能有很多子细节)。文字记录1:我喜欢运动。世界上有这么多体育迷。有一种致命
的
病毒正在世界各地传播。
文本
1
的
语义连贯性应该是高
的
,而
文本
2
的
语义连贯性应该是低
的
。我正在使用BERT (bert-as-service)为句子生成句子嵌入。然后,我尝试通过计算句子嵌入向量
之间
浏览 9
提问于2020-03-04
得票数 0
6
回答
如何
计算两个向量
的
余弦
相似
度
?
、
、
、
如何
找到向量
之间
的
余弦
相似
性?用户界面机 …以及它们各自
的
载体在tF-以色列国防军之后,然后使用大规模集成电路进行标准化,例如[1,0.5]和[0.5,1]。我
如何
测量这些向量
之间
的
微笑
度
?
浏览 1
提问于2009-02-06
得票数 34
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python自然语言处理分析倚天屠龙记
手把手教学,利用Python构建一个简单的推荐系统
查重多少字算一次重复?
Python3 文本聚类分析:探索文本数据的隐藏关联与结构
文本相似度计算综述
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券