基于TextProfileSignature fnv-text-profile-signature的近重复文档检测

、、

我有许多文档已经转换为文本。这些文档中的许多都是从网页中获取的。Apache Tika用于其中的一部分(如果有人关心的话)。我想要一个Java库，我可以用它来查找近似重复项(NDD)。我可以为您提供有关这方面的不同方法和文档的链接，但是，这个问题是专门关于TextProfileSignature的使用的。也就是说，如果我从另一个现有的包中遗漏了一些明显的东西，我对近乎重复

浏览 12提问于2016-09-10得票数 1

回答已采纳

2回答

数据库中200.000篇文本的比较

、、、

我们有很多重复的文本(或超过80%的模拟文本)。从现在起，这些文本需要捆绑。在PHP中，我知道有非常好的函数来计算这些模拟。我的问题是：我如何聪明地(阅读:尽可能快地)将每一个新文本与DB中的现有文本进行比较？

浏览 6提问于2013-08-08得票数 2

回答已采纳

1回答

如何使用分带技术与分布式MinHash对集合(用户/文档)进行聚类？

、、、

对于如何使用MinHash和分带技术进行集群设置，我有很大的疑问。我假设每个阅读的人都对MinHash有很好的了解，所以我不会定义我正在使用的大多数术语。我的目标是使用MinHash根据用户签名的相似性对他们进行聚类。在一个本地的、非带状的设置中，这将是微不足道的:如果它们的签名散列是相同的，那么它们就在同一个集群中。如果我们在乐队中分割签名并独立地处理它们，我可以像我前面所说的那样对待一个乐队，

浏览 2提问于2016-05-24得票数 0

回答已采纳

1回答

使用SOLR重复数据删除功能保留重复文章的一个条目

、

我在solrconfig.xml中使用了以下设置的Solr重复数据消除 <processor class="true</bool> <str name="signatureClass">solr.processor.<e

浏览 5提问于2012-08-03得票数 1

1回答

避免在Solr中复制文档

、、

当使用SolrJ对DB文档进行索引时，我发现Solr(5.2.1)中有重复的文档。我想避免重复和重写基于"id“字段的文档。在我的googling中，"dedupe“对于复制很有用，所以我将其应用于solrconfig.xml，但遗憾的是，它没有起作用。true</bool> <str name="fields">id<

浏览 5提问于2016-05-04得票数 0

回答已采纳

1回答

Solr中的近重复检测

、、、、

Solr正被用于搜索用户生成的列表数据库。这些清单通过MySQL通过DataImportHandler导入到Solr中。问题：--通常情况下，用户会向数据库报告相同的列表，有时还会对其列表帖子做一些小的更改，以避免被发现为重复的帖子。我想大概有四个地方可以进行这种

浏览 2提问于2012-10-07得票数 1

回答已采纳

1回答

最近邻搜索与近重复检测

、、、、

我在寻找一些AI/ML和非AI/ML解决方案的“近重复检测”问题(文本，图像，音频)，我发现有一个类似/准确的问题，即“最近邻居搜索”，也似乎处理方式与“接近重复检测”。我不知道这两个问题之间是否有任何差异，或它们的解决办法有什么不同。

浏览 5提问于2022-06-19得票数 -1

1回答

如何对超过100 K的计算机视觉图像进行1K与rest图像相似性比较时，如何管理内存约束并提高速度？

、、、、

在使用机器/深度学习时，我正在寻找如何更好、更有效地做事情的想法。我正在研究一个使用计算机视觉的搜索改进问题，我正在考虑比较两幅图像并查看它们的相似性评分，所以理论上有很多东西我可以尝试，比如：Structural Similarity, Template Matching因此，在这两种情况下，我必须搜索每一张图片和每一张其他图像，并得到最高的k分数，这表明k最相似的图像。问题:我有一个巨大的和巨大的，我指的是大约20个Million+图像数据。因此，理论上，假设即使我使用1

浏览 0提问于2020-12-28得票数 0

2回答

从一组文件中查找最相似的文件(最近的邻居)

、、

如果没有必要，我并不真正感兴趣对文档进行分类，仅仅是相似性或相关性，理想情况下，我希望输出一个80,000 x 80,000矩阵的所有文档与相应的距离(或可能相关？相似？)其他文件。我目前正在使用NLTK来处理文档的内容并获取ngram，但是从那里我不确定应该采取什么方法来计算文档之间的相似性。我读过关于使用tf-以色列国防军和余弦相似性的文章，但是由于大量的主题，我期望有很多独特的标记，因此将两个

浏览 2提问于2014-11-23得票数 3

回答已采纳

1回答

使用faster_rcnn_inception_v2_coco_2018_01_28 tensorflow对象检测只需400步

、、

我有一个基于：的tensorflow对象检测有什么想法吗？

浏览 0提问于2018-06-26得票数 0

1回答

用于近重复检测的板条比较

、、、、

我正在研究一些代码来比较接近重复的代码。我有点被比较代码卡住了。到目前为止，这是我的艰难尝试。例如，如果我把每一块石板和每一块石板进行比较，那么这些文件将是相同的.{blah blah blah, Once upon a, time blah blah}如果我在同一个文档上做了一个位置比较，那么位置1将是“诸如此类的废话”而不是“曾经的”，那就会返回错误。我认为循环将是更密集<

浏览 1提问于2018-07-27得票数 1

回答已采纳

1回答

检测高于阈值的近重复值

我想要能够查询一个表的记录，我怀疑可能是几乎重复。CREATE TABLE sales `id1` int auto_increment primary key, `date

浏览 4提问于2013-05-15得票数 1

回答已采纳

3回答

基于图像处理的近水平线检测

、、

有什么方法可以使用opencv来检测几乎是水平的线条吗？我混淆了中提到的一些概念--我可以用精明的方法进行边缘检测，但我对如何使用Hough变换并将它们限制在水平线上有点不知所措。这里有一堆示例图像：特别地，每个图像具有一对水平边缘，其长度约为1200像素，且在3度的水平范围内。(这些照片是由我扫描到的照片的角落形成的。)

浏览 18提问于2021-12-24得票数 1

2回答

如何使用Apache mp3来检测文件是否是TypeDetector？

、

如何使用apache来检测文件是否为mp3？我不是在寻找仅仅基于文件扩展名的检测。我正在使用：但是，当我尝试检测类型时，答案总是：(无论我发送什么这个问题不是重复的。有人使用Tika来检测文件扩展名。这对我来说还不够。我需要知道文件是mp3还是不基于文件类型，而不是基于<

浏览 1提问于2017-04-19得票数 1

回答已采纳

1回答

由sdk中的Convertquotetosalesorder创建的Salesorder的Statecode

、

通过dynamics 365 sdk调用convertquotetosalesorder创建的销售订单的预期状态码是什么？此外，假设重复检测不会阻止第二次创建，基于该报价的现有销售订单是否会影响创建的其他销售订单的状态代码？我在文档里找不到任何信息。

浏览 3提问于2018-12-02得票数 0

2回答

谷歌云存储近线定价

、

我想知道是否有人知道Google如何计算Google Cloud Storage Nearline的价格。我是说..。如果他们对上传、下载、删除、日期等收费。提前谢谢你。

浏览 3提问于2017-09-09得票数 0

2回答

忽略主键重复

、、

我有一个包含近5000个对象的数组，我正在将其输入到一个MySQL数据库中。我可以在插入每一行之前检查表，但由于我期望在5000个左右的对象中只有1到2个重复的对象，这似乎是非常昂贵的。

浏览 3提问于2012-01-11得票数 0

回答已采纳

2回答

在Elasticsearch中对同一文档进行重新索引

、

以前它是一个基于内容的函数，因此可以保证相同文档具有相同的ID，但为了处理重复的文档，它被删除了。现在我们使用Elastic自己生成的ID，因此相同的文档不会有相同的ID。如果我们插入一个具有相同内容和相同ID的现有文档，会发生什么情况？它会触发重新索引吗？或者它会检测到什么都没有改变，并且什么也不做？

浏览 4提问于2021-05-21得票数 0

1回答

如何将Amazon文档更新错误与文档匹配

、

color_id\" has no value (near operation with index 949)" "adds": 1000,}所以我的问题有两部分： CloudSearch如何在错误/警告消息中返回文档id？如果#1不可能，Clou

浏览 3提问于2014-12-30得票数 0

3回答

如何优化寻找相似点？

、、

我有一套用浮动向量表示的30000份文件。所有向量都有100个元素。通过向量间的余弦测度进行比较，可以找到两种文档的相似性。问题是找到最相似的文件需要很长时间。有什么算法能帮我加快速度吗？编辑每个向量的元素之和等于1。

浏览 1提问于2014-04-16得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

数据库中200.000篇文本的比较

如何使用分带技术与分布式MinHash对集合(用户/文档)进行聚类？

使用SOLR重复数据删除功能保留重复文章的一个条目

避免在Solr中复制文档

Solr中的近重复检测

最近邻搜索与近重复检测

如何对超过100 K的计算机视觉图像进行1K与rest图像相似性比较时，如何管理内存约束并提高速度？

从一组文件中查找最相似的文件(最近的邻居)

使用faster_rcnn_inception_v2_coco_2018_01_28 tensorflow对象检测只需400步

用于近重复检测的板条比较

检测高于阈值的近重复值

基于图像处理的近水平线检测

如何使用Apache mp3来检测文件是否是TypeDetector？

由sdk中的Convertquotetosalesorder创建的Salesorder的Statecode

谷歌云存储近线定价

忽略主键重复

在Elasticsearch中对同一文档进行重新索引

如何将Amazon文档更新错误与文档匹配

如何优化寻找相似点？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐