如何基于Pandas中行之间的文本相似度来消除重复

、、

我有一个新闻标题的数据集。我想删除重复的或高度相似的标题，基于与过去十天的标题的文本相似性。对于高度相似的标题，我想保留最早的。我在考虑做一个基于日期和标题的连接，其中日期在最近十天内，类似于这样(在SQL语句中)： create table df_joined as select a.*, b.date as date_b,b.Headline as Head

浏览 22提问于2019-04-09得票数 0

1回答

基于WordNet的语义相似度矩阵

、、、、

我有一个用于整个文档集合的独特单词(不包括停用词)的词汇表。我想执行查询扩展。在一些方法中，我发现对于查询中的每个单词，它的前k个同义词(通常是k=3)都会增加到查询中。但是，我使用的是基于TFIDF文档表示的向量空间模型，因此向查询中添加不在词汇表中的单词最终会被删除。而且，由于不会使用词义消除歧义技术，因此添加同义词将不能保证所添加的同义词保留查询中的单词的含义，从而导致查询漂

浏览 43提问于2021-06-30得票数 0

1回答

从coo_matrix到csr_matrix计算无矩阵重复和的余弦相似度

、、、

我想要计算购买数据集的产品之间的余弦相似度。我有超过100000行( row =用户购买事件)和超过80000个产品。要避免使用pandas.crosstab使数据集采用以下格式，请执行以下操作：> 我将购买数据集转换为scipy.coo_matrix，并认为我必须执行tocsr()来<

浏览 21提问于2018-09-05得票数 1

回答已采纳

3回答

两个表之间的模糊匹配

、、

HBC MS USA 5004116 Anurag 123 CA USA 5001 我想知道基于全地址在上面两个表之间进行模糊匹配的最好方法是什么

浏览 3提问于2017-03-22得票数 0

1回答

如何选择句子和段落之间的相似度度量

、、、

问题有几种测量句子相似性的方法，但我不知道如何为我的数据(句子)找到合适的方法。的句子或段落如果可以同时获得一个句子和一个包含句子的段落，那么哪个句子或段落之间的相似性更准

浏览 0提问于2022-02-07得票数 2

回答已采纳

1回答

连接相似字符串上的两个表

、、、、

简单地说，我正在尝试在数据集中查找重复项。我想做的是类似于这个‘Select 'Hi I am sam'::text sSelect 'Hi, I am'::text s“”“

浏览 0提问于2020-03-31得票数 1

1回答

两阶段文献检索中的排序评价方法

、、、

我创建了一个基于文本相似度(余弦相似度)的查询文档对之间的两级排序系统。现在我需要验证我的排名系统，对于用户来说，检索到的适当排序项是否正确，我应该选择哪种方法。我读过关于Pointwise/成对/列表方法来验证排名，但是手动评估排名系统，这会更有帮助。如果有人能启发出一种更好的评价方法，这将对我很有帮助。谢谢

浏览 0提问于2016-11-28得票数 0

回答已采纳

1回答

数值和文本值的组合之间的余弦相似度

、、

我正在尝试在Yelp数据集上使用关于餐厅的数据做一个简单的基于内容的过滤模型。，其中回答的问题是“给定一家餐厅，推荐相似的餐厅”。基本上，他们使用一些文本字段来构建计数向量器矩阵，然后对行进行余弦相似度计算，以获得电影之间的相似度。我正在尝试使用类别、属性、纬度和对数(对于距离)、明星和评论计数(基于评论计数对明星进行加权-评论

浏览 27提问于2021-02-27得票数 0

回答已采纳

2回答

如何使用词性来评估语义文本的相似度？

、、、

我正在尝试编写一个程序来评估文本之间的语义相似度。我已经比较了文本之间的n-gram频率(一种词汇测量)。我想要一些不那么肤浅的东西，我认为在句子结构中查看相似度是评估文本相似度的一种方法。然而，我所能做的就是计算词性(例如，每个文本4个名词，2个动词，等等)。然后，这类似于

浏览 1提问于2012-07-12得票数 1

1回答

“谁买了这个项目也买了”类型的推荐矩阵因子分解

我知道可以使用基于项目的协作过滤来做“谁买了这个项目也买了”类型的推荐。我的问题是，我们如何使用矩阵分解(MF)来做到这一点。一种可能的解决方案可能是使用MF学习项目特征，然后基于这些特征计算项目的相似度。但这不是“纯MF"，我的意思是，最终我仍然需要计算所有项目特征对之间的相似度，这需要$O(n^2)$时间。有什么想

浏览 2提问于2016-05-11得票数 0

1回答

如何在python中提高词移位距离相似度，并使用加权句子提供相似度评分

、、、、

单词移动距离可用于识别文本之间的相似性。这种相似性可用于比较多个文本以找到最接近的相似文本。然而，我无法定制算法来做以下事情:1)消除位置(GPE) -由spacy识别，在文本中在比较相似度时有任何权重。2)对文本第一句中的特征赋予更多的权重，而不是第二句和第二句中的特征比第

浏览 27提问于2019-02-05得票数 1

回答已采纳

1回答

寻找文本中句子之间的语义连贯性

、、、、

我需要一些帮助写一个程序的基础上，从这些链接和的代码，将自动计算之间的语义相似度a.连续的句子和b.句子由1个中间短语，在和整个文件(1000句子)。提供的代码已经标记化并可以找到语义相似度，但我不知道如何编写新代码来计算(并显示)整个文本(a，b)中连续和“插入”句子之间的语义相似度。.I不

浏览 13提问于2017-01-11得票数 0

1回答

如何将文本和分类数据混合在一起的数据进行聚类？

、、、

我有一组字符串，每个字符串都有与之相关的分类信息。但是，分类信息并不总是很好，所以我需要根据文本内容和类别对消息进行聚类。做这件事最好的方法是什么？

浏览 0提问于2015-05-18得票数 3

1回答

在语义网络相似度中评估短文本

、、、、

我有一个评估短文本的程序。它给出一个原始文本，并将其传输到语义网络。然后将其与几个短文本进行比较，这些短文本也被转换为语义网络。使用意义与句子的相似度来衡量原始文本与其余文本之间的相似度。如何在Python中执行这些步骤?可以使用哪些库？有没有现成的代码可以在我的工作中使用？

浏览 24提问于2020-11-12得票数 0

2回答

如何在spark mllib中进行基于项目的推荐？

、、、

在Mahout中，支持使用API方法进行基于项目的推荐：但是在Spark Mllib中，看起来ALS内部的API可以获取推荐的产品，但userid必须通过以下方式提供：有没有一种方法可以根据类似的产品获得推荐产品，而不需要提供用户id信息，就像

浏览 1提问于2014-12-18得票数 8

1回答

两个文档之间的不同特征

、、、

我试图找出这两份文件之间的不同之处。我正在使用gensim，到目前为止已经获得了相似度分数。有没有办法知道两个文档之间的相异分数和相异特征？如何评估它？

浏览 1提问于2018-07-03得票数 0

0回答

将数据可视化为图形

、、

我有一个来自不同书籍的书名数据集。我希望使用每本书标题之间余弦相似度的网络图来可视化这一点。这些书有两个目录- 1或0 -我想基于类别的颜色坐标。每个标题之间的余弦相似度应该是顶点的权重。cs_abstract = squareform(pdist(abst.toarray(), 'cosine'))pri

浏览 1提问于2017-06-17得票数 0

1回答

CLUTO聚类时输入数据的数据预处理

、、、

我正在尝试根据一些单词(两个单词之间)的相似度对它们进行聚类，我的数据的一部分如下所示(它只是一个例子"animal.txt"，它与邻接矩阵相似)。2horse 3 1 5 4数字越大，表示两个单词之间的相似度越高基于这种

浏览 3提问于2013-12-28得票数 0

1回答

计算给定语音记录中的语义连贯性

、、、、

我正在尝试计算给定段落/文本的语义连贯性，即。如果有人在谈论某件事或话题时偏离了轨道--更具体地说是描述一张图片(图片可能有很多子细节)。文字记录1:我喜欢运动。世界上有这么多体育迷。有一种致命的病毒正在世界各地传播。文本1的语义连贯性应该是高的，而文本2的语义连贯性应该是低的。我正在使用BERT (bert-as-service)为句子生成句子嵌入。然后，我尝试通过计算句子嵌入向量之间

浏览 9提问于2020-03-04得票数 0

6回答

如何计算两个向量的余弦相似度？

、、、

如何找到向量之间的余弦相似性？用户界面机 …以及它们各自的载体在tF-以色列国防军之后，然后使用大规模集成电路进行标准化，例如[1,0.5]和[0.5,1]。我如何测量这些向量之间的微笑度？

浏览 1提问于2009-02-06得票数 34

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

基于WordNet的语义相似度矩阵

从coo_matrix到csr_matrix计算无矩阵重复和的余弦相似度

两个表之间的模糊匹配

如何选择句子和段落之间的相似度度量

连接相似字符串上的两个表

两阶段文献检索中的排序评价方法

数值和文本值的组合之间的余弦相似度

如何使用词性来评估语义文本的相似度？

“谁买了这个项目也买了”类型的推荐矩阵因子分解

如何在python中提高词移位距离相似度，并使用加权句子提供相似度评分

寻找文本中句子之间的语义连贯性

如何将文本和分类数据混合在一起的数据进行聚类？

在语义网络相似度中评估短文本

如何在spark mllib中进行基于项目的推荐？

两个文档之间的不同特征

将数据可视化为图形

CLUTO聚类时输入数据的数据预处理

计算给定语音记录中的语义连贯性

如何计算两个向量的余弦相似度？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐