MongoDB:如何查找/删除两个或多个连续的重复项？_MongoDb -删除匹配两个条件的重复项_如何在具有两个条件的mongoDB中查找重复项 - 腾讯云开发者社区

javascript、regex、replication、string-length

我想找到任何重复的字符串。我有以下代码： let match: Object; let repetition: ?string; while ((match = /(.+?)\1+/g.exec(string)) !== null && repetition === null) { repetition = match[1]; } 它在'weabcabcjy‘中找到'abc’复制，但在'all‘中也找到'll’。我希望regex将复制的最小长度限制为2个字符。这意味着它总是将最少的两个字符和另外两个字符进行比较。

浏览 0提问于2016-11-22得票数 2

回答已采纳

8回答

配置中定义的两个或多个Web模块具有相同的上下文根

tomcat、tomcat6

我正在运行tomcat server 6.0，当我试图在此服务器上运行任何web应用程序时，它会给我一个错误，提示我“配置中定义的两个或更多Web模块具有相同的上下文根要启动此服务器，您需要删除重复的(S)。” 我使用的是Eclipse3.6Helios。如何删除重复项？

浏览 3提问于2011-03-09得票数 13

回答已采纳

1回答

如何获得连续匹配的正则表达式模式？

regex

考虑这个简单的例子 http://time.com/this-time-is-different 在这里，我想匹配序列，比如this-time-is-different。也就是说，单词的任何序列后面跟着一个-，该序列至少重复三次。因此，在本例中，序列word-仅使用this-time-is-different重复三次然而，当我使用[-\w]{3,}时，我得到了太多的匹配，比如http，后面甚至没有- 这里出了什么问题？谢谢!

浏览 56提问于2018-08-30得票数 1

回答已采纳

2回答

如何在Mongo中预置数组并删除重复项？

ruby、mongodb、mongodb-query、mongomapper

在MongoDB中，有什么好方法可以预先将项添加到数组中，并删除任何重复的项？如果项已经在数组中，则$addToSet不会执行任何操作。此显示了两种前置方法，但不会删除重复项。在Mongo2.4.1，MongoMapper和Ruby中工作。

浏览 7提问于2014-07-04得票数 1

2回答

如何从一个数组中删除两个连续的重复项？c++

c++、duplicates

我有一个数组a={1,2,3,3,2,2,3,3}，我需要删除重复项，如下所示： 1: a={1,2,2,2,3,3} 2: a={1,2,3,3} 3: a={1,2} 我需要删除两个连续的重复项：(1,2,3,3将是1,2)，(1,2,2,2将是1,2)。这是我的尝试，但正如您所见，我需要一些帮助。 #include <iostream> int main() { int n; std::cin >> n; int a[n]; for (int i = 0; i < n; i++) std::cin >

浏览 50提问于2018-06-13得票数 0

回答已采纳

1回答

MongoDB：$set会导致文档的删除/插入吗？

mongodb

我有一个计数器，我想在我的web服务器上的请求之间持久化，我想我可以把它粘贴到MongoDB数据库中，因为它已经存在了。我期待这个柜台的更新，大约每1-3秒。但是，我看到，每当您在MongoDB中保存文档时，文档就会被删除并重新插入。我想知道，在不更新整个文档的情况下，当您执行$set时，是否也会出现同样的情况？而且，如果是这样的话，我会期望对数据库产生任何特定的性能影响吗？

浏览 1提问于2015-04-04得票数 0

回答已采纳

2回答

std::unique()函数坏了吗？

c++、algorithm、stl、c++17

我使用std：：of ()函数来删除int向量中的所有重复项，以及如何始终存在额外的元素 vec.erase(unique(vec.begin(),vec.end()),vec.end()); 我查找了，该示例也显示了相同的行为，它有一个重复值但是，当我对向量进行排序并尝试唯一向量时，它工作得很好。这是某种未定义的行为吗？

浏览 1提问于2020-05-19得票数 0

5回答

C++删除向量中的重复条目

c++、std

我有一个时间向量，有很多地方的时间是重复的。时间向量只是文本文件中的一列数据，同一数据文本文件中还有其他几个向量(速度、位置等)。如何根据时间删除重复的条目，同时保留所有其他条目？可以这样说： if (time[j] == time[j + 1] { do stuff... } 我实际上有几个向量，所以我也会删除其中的重复条目。我需要保留其他向量中数据的顺序(它们不一定是连续的)。我只想删除连续的重复点。谢谢。

浏览 0提问于2012-02-21得票数 2

1回答

Data Studio中的REGEXP_REPLACE YouTube视频网址清理

regex、youtube、google-data-studio、re2

我正在触发一个事件，该事件发送一个事件标签"{{YouTube视频名称}}-{{视频URL}}“，并且我正在尝试清理我的Data Studio报告以删除重复项。这是我试图清理(合并)的三个字符串结构，第一个示例是主要的，也是期望的结果。视频名称- 视频名称- 视频名称- REGEXP_REPLACE(Event Label,'(.*youtube\\.com/watch\\?v=[^\\&]*)\\&(.*)','\\1') REGEXP_REPLACE(Event Label,'(.*youtube\\.com/watc

浏览 0提问于2020-05-01得票数 1

2回答

如何使用ruby查找和删除重复的mongo文档？

ruby、mongodb、duplicates

我在Mongo中有一个集合，在一个特定的键上有重复项，我需要删除除其中一个之外的所有项。Map Reduce解决方案似乎没有清楚地说明如何删除除一个副本之外的所有副本。我正在使用Ruby，我如何才能以一种更有效的方式做到这一点呢？我现在的解决方案太慢了！我目前只是迭代重复键的数组，并删除返回的第一个文档，但只有当每个键最多有一个重复文档时才有效，而且速度非常慢。 dupes.each do |key| $mongodb.collection("some_collection").remove($mongodb.collection("some_collecti

浏览 7提问于2013-04-13得票数 1

3回答

mongo 3在唯一索引- dropDups上重复

mongodb、indexing、unique、duplicate-removal

在mongoDB的文档中写道：“在3.0版中发生了变化: dropDups选项不再可用。” 如果我真的想创建一个唯一的索引并销毁重复的条目，我还能做些什么(除了降级之外)？请记住，我每秒收到大约300个插入，所以我不能删除所有的重复，并希望当我完成索引时没有一个进来。

浏览 4提问于2015-05-12得票数 21

7回答

如何删除mongodb中的数组元素？

mongodb

下面是数组结构 contact: { phone: [ { number: "+1786543589455", place: "New Jersey", createdAt: "" } { number: "+1986543589455", place: "Houston", createdAt: ""

浏览 2提问于2013-06-06得票数 170

回答已采纳

1回答

MongoDB外壳，$pop的工作方式很奇怪

javascript、arrays、mongodb

我正在学习MongoDB，我决定用$pop做一个小小的练习： MongoDB Enterprise > db.produits.insert({compteur: 100001, tab:['a','b','c']}) WriteResult({ "nInserted" : 1 }) MongoDB Enterprise > db.produits.find({compteur: 100001}); { "_id" : ObjectId("57c011106d76da1c1e34edd2"

浏览 0提问于2016-08-26得票数 3

2回答

NANP电话号码的Regex，后7位不重复

.net、regex、validation、phone-number

我必须在.NET中验证NANP格式的10位(美国)电话号码(不允许特殊字符)，并检查以确保电话号码的最后7位不重复。到目前为止，我已经编写了以下正则表达式来验证NANP格式 ^(?:[2-9][0-8][0-9])([2-9][0-9]{2}[0-9]{4})$ 我如何修改这个正则表达式，使其也支持不重复的后7位数？请注意，由于现有代码的限制，不能使用两个正则表达式。编辑:我必须检查所有7位数字中的连续重复。例如，2062222222应被视为无效，而2062221234或2062117777应被视为有效。谢谢

浏览 3提问于2011-09-01得票数 0

回答已采纳

1回答

如何在Scrapy项目中使用PyMongo MongoDB插入新记录时删除重复项

python、python-3.x、web-scraping、scrapy、pymongo

在我的Scrapy项目中，我使用PyMongo将抓取的数据存储在MongoDB中。在以逐页的方式抓取网页时有重复的记录，我只想删除那些在插入到数据库中时具有相同名称的重复记录。请给我推荐最好的解决方案。下面是我用"pipelines.py"编写的代码。请指导我如何去除"process_item"方法中的重复项。我发现在互联网上很少有从数据库中删除重复项的查询，但我想要一个Python解决方案。 from pymongo import MongoClient from scrapy.conf import settings class MongoDBPipelin

浏览 13提问于2018-08-21得票数 1

4回答

使用MapReduce删除重复记录

mongodb、mapreduce

我正在使用MongoDB，需要删除重复的记录。我有一个列表集合，如下所示：(简化) [ { "MlsId": "12345"" }, { "MlsId": "12345" }, { "MlsId": "23456" }, { "MlsId": "23456" }, { "MlsId": "0" }, { "MlsId": "0" }, { "MlsId"

浏览 6提问于2011-04-03得票数 9

回答已采纳

2回答

如何查找相同字符的单词或连续重复的任何特殊字符(3+时间)

python、regex

我正在为两个不同的查询尝试用' '查找和替换单词查找和替换具有相同字符重复3次以上连续的单词或查找并替换具有的单词，任何特殊字符连续重复3次或多次。查看以下查询： re.findall(r'([a-zA-Z])\1{3,}', 'I doono if HELLO && AA+-AA should be here but hellllooooo or Whyyy should definitely be. So should ++, x+=-y --- ') 它给出了应该在['hellllo

浏览 12提问于2022-02-15得票数 -1

1回答

Node Package Manager (NPM)似乎会生成重复的包

node.js、module、npm

我一直在安装一些node包，我注意到NPM创建了一堆重复的包。例如，我首先安装了mongoose，它自然地安装了一堆依赖项。然后我安装了mongodb包，该包也附带了bson作为依赖项。由于重叠的依赖关系，我有以下异常： Mongodb位于以下目录中： /usr/local/lib/node_modules/mongodb/ /usr/local/lib/node_modules/mongoose/node_modules/mongodb/ 另外，bson，mongodb的一个依赖项存在于这两个库中： /usr/local/lib/node_modules/mongodb/ /usr/loc

浏览 0提问于2013-04-11得票数 5

回答已采纳

2回答

删除Notepad++中的重复字符串

regex、notepad++、duplicate-removal

我试图找到一种方法来删除Notepad++中的重复字符串(而不是删除重复的行)。例如，如果我有文本：爱丽丝最喜欢的冰淇淋(不是冰淇淋)是:香草！爱丽丝最喜欢的冰淇淋(不是冰淇淋)是:香草！请去商店买些冰激凌结果应该是爱丽丝最喜欢的冰淇淋(不是冰淇淋)是:香草！请去商店买些冰激凌我试着查找了一些示例，并找到了，但是它并没有像预期的那样工作。提前谢谢。

浏览 4提问于2015-04-09得票数 2

回答已采纳

3回答

如何删除重复内容？

php、mysql、mongodb、solr、sphinx

我有一个分类网站( PHP和Mysql)，在那里用户可以免费发布他们的广告。但用户经常发布重复的广告。该脚本不允许他们发布完全相同的重复内容，因此他们通过更改一个或两个字符来做到这一点。有没有办法找到重复的广告并提醒用户(即使他们修改了文本的某些部分)？我的网站是PHP和Mysql。我正在使用sphix进行搜索。正在考虑将其更改为mongodb和apache solr。

浏览 3提问于2013-06-08得票数 5

3回答

处理增量数据- Hadoop

hadoop、architecture、hive、hbase、hadoop2

我们在集群中有5年的数据，我们每天都在加载数据。每天添加的数据可能包含重复数据、部分修改的数据等等。 1.如何处理重复的数据-应该作为高级编程接口的一部分来处理--猪、蜂巢等等。或者任何其他的选择。如果有一个usecase来找出两个记录之间的变化，给出查找行的键。什么是最好的数据建模方法，使用哪种hadoop系统组件。

浏览 2提问于2015-10-30得票数 0

3回答

对于mongodb驱动程序，如何获得内部异常？

mongo-go

当我插入新的MongoDB Go驱动程序到集合中时，我会得到一个重复的异常，在抛出它时我可以看到它。(mongo.WriteException)多次写入错误： [{写错误：{E11000重复键错误集合: fhir.documents索引: enterprise_id_1 dup键：{："Cache-37"，："102“}}，{}] 如何从编程上了解这个内部错误，知道它是一个重复的键，并且我能够处理它？

浏览 1提问于2019-07-06得票数 11

回答已采纳

2回答

字符串匹配后查找哪些文件有重复字符

linux

我有100个文件，包含P1，P2，P3后的字符串，如下所示- P1 AJFNAJFNJASCLMAAKSNCLKJAXCJKAJCAMSAMNCM P2 AKJFKJASKANSKNCNAKSNCKANSKC P3 ADAJSDKJANDKNNANDNKNAKNDADNAMNDANDMNAD 在这100个文件中，有些文件可能包含重复的“N”字符。例如，在P2中- P1 SFKJANKCNAKCAJSCBAJCJACJNAJKSNC P2 NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN P3 AKJSCBAJSBCKJASCKJASKJCKASNCKJAN

浏览 26提问于2021-02-02得票数 0

回答已采纳

2回答

如何更新大型mongodb集合？

python、mongodb、pymongo、memory-limit

我在python中使用pymongo更新mongodb中的一个大型集合。我希望防止在集合中添加重复的对象。因此，我使用这个命令来更新整个mongodb集合： mycollection.update_one({'obj_id': "MY_OBJ_ID"}, {"$set": {"my_object": obj }}, upsert=True) 当胶原蛋白大小增长时，将显示此错误：更新后的文档大于16777216，完全错误：{'index'：0，'code'：17419，'errmsg&#

浏览 12提问于2020-12-12得票数 1

回答已采纳

1回答

NodeJS MongoDB锁定文档

node.js、mongodb、concurrency、locking

我正在使用mongodb驱动程序，并且担心可能会出现重复对象的并发问题。阅读一些关于堆栈溢出的问题和答案，我相信写操作是原子的，但这可能解决不了我的并发问题。假设有两个对doSomeAndDelete的并发调用具有相同的id：HERE中的操作可能需要一些时间，但这两个函数中只有一个应该能够处理result。如何实现锁？ async function doSomeAndDelete(id){ const result = await myCollection.findOne({ _id : id }); /*Some operations on result [HERE]*/ if(/*c

浏览 3提问于2021-08-08得票数 0

回答已采纳

3回答

找到不同的x和相应的y

splunk

我有一组记录，在两个字段X和Y上有多个重复值。我想编写一个splunk查询来查找不同的X及其对应的Y值。我完全不知所措，也不知道如何提出这个查询。有人能帮帮忙吗？

浏览 3提问于2014-04-03得票数 3

2回答

何时在MongoDB设计中使用对象数组或对象对象？

database-design、mongodb

关于如何正确地设计mongodb的一般指导，我有一个问题：场景：我有许多对象集合，所有对象都由它们的contract_address唯一标识，我希望能够在需要时从其中提取。我找到了这个帖子，但它似乎没有足够的推理。所以，让每个文档都有structure A或structure A是否有意义？ structure A - objects of objects { "name": "Peter". "all_nfts": { "0x202": {...}, "0x342": {...}, ...

浏览 0提问于2022-11-01得票数 1

回答已采纳

2回答

强密码检查

regex、regex-lookarounds、regex-group

我需要一个正则表达式来检查密码：至少是8字符至少包含1大写字母至少包含1小写字母至少包含1数字或至少1特殊字符不在行中重复字符2次以上吗应该与之相匹配的例子： Test1234！ Te123stE 不应与之相匹配的例子： Teeest123！ !TESTT1234 这就是我迄今为止尝试过的： ^(?!.*pass|.*Pass|.*qwer|.*Qwer)(?=.*?[A-Z])(?=.*?[a-z])(?=.*?[0-9#?!@$%^&*-]).{8,}$ 我不知道如何匹配这些重复的字符。有什么想法吗？

浏览 3提问于2020-03-10得票数 1

回答已采纳

2回答

如何在MongoDb中删除重复项？

mongodb、indexing、duplicates、duplicate-removal

我在mongodb中有一个很大的集合(大约270万个文档)，并且有很多重复的文档。我尝试在集合上运行ensureIndex({id:1}, {unique:true, dropDups:true})。在决定使用too many dups on index build with dropDups=true之前，Mongo对它进行了一段时间的研究。如何添加索引并去掉重复项？或者反过来，删除一些dup的最好方法是什么，以便mongo可以成功地构建索引？对于奖励积分，为什么可以删除的dups数量有限制？

浏览 0提问于2012-02-18得票数 7

回答已采纳

1回答

如何实现这个grep正则表达式

grep

我正在尝试grep所有有两个重复数字的行。起初，我尝试了grep "[0-9][0-9]"，但这只是要求行有两个数字。我如何使它看起来是相同的两个数字？

浏览 0提问于2015-06-26得票数 1

回答已采纳

2回答

带间隙的二进制搜索

algorithm、data-structures、language-agnostic

让我们想象这样的两个数组: 8,2,3,4,9,5,7 0，1，1，0，1，1 我如何才能只以数字执行二进制搜索，而忽略其馀的1呢？我知道这可以在O(log )比较中进行，但是我现在的方法比较慢，因为它必须经过所有的0，直到达到1。

浏览 3提问于2016-04-16得票数 0

回答已采纳

2回答

当多台服务器正在访问数据库时，如何使用mongodb只允许一个条目？

javascript、mongodb、mongoose

我有多个“工作”服务器处理作业并访问相同的MongoDB数据库，但我只希望创建一条消息，并且永远不允许运行相同作业的两台服务器创建相同的消息。当一条消息被发送时，它的status字段被设置为“已发送”，或者如果它被禁用，它被设置为“已禁用”。因此，它首先检查是否有任何已发送或禁用的消息。然后，它创建一个文档，将lockedAt字段设置为当前时间，并检查相同的消息是否已经被锁定。我使用lockedAt字段的原因是，如果作业由于某种原因失败，它将允许锁过期并再次运行。这似乎在大多数情况下都是有效的，但如果两个“工作人员”在几毫秒内运行相同的作业，就会有一些消息通过，所以我的逻辑并不完美，但我不

浏览 0提问于2020-12-30得票数 0

1回答

如何从MongoDB中清除重复对象

javascript、arrays、node.js、mongodb、mongoose

我在数据库中的一个对象中有一个数组，该数组会随着时间的推移积累重复的对象(这是使用不可靠的Instagram API的缺点)。我试图常规地清除这个重复的数组，并用清理过的数组替换它。我很难理解为什么下面的代码不能在我的节点服务器上运行。trimArray函数工作得很好，但是我的MongoDB对象中的“照片”数组从未更新过。 // Takes in an array and outputs an array with only unique objects function trimArray(bloatedArray) { var seen = {}; var trimme

浏览 0提问于2015-02-21得票数 0

回答已采纳

2回答

如何删除DynamoDB表中包含特定字符串匹配的项？

amazon-dynamodb、amazon-dynamodb-streams

我要删除表中特定的字符串匹配项。例如，Table1在name列中有Foo123Bar和Foo345Bar。我想删除name列中的两个recs。

浏览 2提问于2017-09-20得票数 0

回答已采纳

1回答

在查找记录处理器中使用MongoDBLookup服务进行Nifi数据丰富

mongodb-query、apache-nifi

我正在尝试用来自两个不同mongo集合的数据来丰富我的传入的流文件。我是否可以配置MongoDB查找服务，以便在Nifi的同一处理器组中访问两个不同的mongo集合。目前，我无法为多个Mongo集合配置mongo服务。

浏览 23提问于2021-09-06得票数 2

1回答

未解析的依赖项: io.swagger:swagger-core:jar in maven

java、maven、swagger、pom.xml

在尝试构建github项目时，我遇到了以下错误： ? 整个pom看起来是这样的： <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd"> <mode

浏览 809提问于2020-10-21得票数 0

回答已采纳

1回答

删除Excel中超过第二行的重复行，基于单列

excel、duplicates、delete-row

我有一个包含重复行的Excel电子表格，我想为一个给定的用户保留最多两行。我如何保留两个重复的行，然后删除所有额外的行，如果它们在列C中具有相同的值？下面是一个示例--我想保留突出显示的两行，但删除其余行：

浏览 2提问于2016-03-23得票数 0

1回答

如何删除文件中列中的重复数字？

linux、text

我有一份文件看起来像：投入： 34 34 34 43 54 54 10001 10001 10001 10001 100005 100005 500000 所以我需要每个数字只出现一次： OUt： 34 43 54 10001 100005 500000 考虑到真正的文件有太多的重复，有什么建议吗？

浏览 0提问于2016-08-10得票数 4

回答已采纳

1回答

求一个数的非连续平方的所有可能和

algorithm

问题是:给定一个数字n。找出它可以写成非连续和非重复平方和的方式的数目。例如，n = 117，您可以用3种方式编写它： 1^2 + 4^2 + 6^2 + 8^2 = 117 1^2 + 4^2 + 10^2 = 117 6^2 + 9^2 = 117 我已经考虑过使用动态编程，使用一个2D表(每个维度都是sqrt(n))，但是我想不出填充表的方法。如果有人能给我指点如何解决这个问题，或者其他解决问题的方法，我会很感激的。

浏览 1提问于2016-01-31得票数 2

回答已采纳

6回答

使用正则表达式查找重复的数字

regex

有没有人可以帮助我或指导我构建一个正则表达式来验证重复的数字例如: 11111111,2222,99999999999等它应该验证任何长度。

浏览 2提问于2011-06-28得票数 35

回答已采纳

1回答

Android build.gradle排除重复类

android、android-studio、gradle、build.gradle、purchasely

在这个项目中，我需要集成两个库Bitmovin和Purchasely。在我添加了这两个依赖项后，由于bitmovin和puchasely库之间的冲突，应用程序无法运行。我知道有一种方法可以通过排除所有重复的类来解决这个问题。不幸的是，我不熟悉这个术语，也不知道要排除的组名和模块名是什么。另外，我也不确定应该对哪个依赖项使用"exclude“。 implementation ("com.bitmovin.player:playercore:2.64.0"){ exclude group: 'group_name', module: 'mod

浏览 195提问于2021-04-27得票数 1

回答已采纳

1回答

命令打开一个新选项卡并在那里运行一个命令。

bash、osx

需要使用OSx El Capitan中的bash脚本自动执行以下重复任务。打开“新建终端”选项卡，转到一个目录，在该目录上运行命令启动meteor服务器，重复上述2次，但在不同的目录中，命令略有不同。打开运行流星的命令是： MONGO_URL='mongodb://username:password@cluster0-shard-00-00-oko1k.mongodb.net:27017,cluster0-shard-00-01-oko1k.mongodb.net:27017,cluster0-shard-00-02-oko1k.mongodb.net:27017/dbname?

浏览 0提问于2017-09-01得票数 0

3回答

如何使用T-SQL消除重复

sql-server、tsql

嗨，我有一个登录表，其中有一些重复的用户名。是的，我知道我应该对它进行限制，但现在已经太晚了！所以本质上我想要做的是首先识别重复项。我不能删除它们，因为我不能太确定哪个帐户是正确的。这两个帐户具有相同的用户名，两个帐户具有大致相同的信息，但有一些小差异。有没有办法高效地编写脚本，以便我可以在每个副本中只向一个帐户添加"_duplicate“？

浏览 1提问于2017-12-18得票数 1

2回答

MongoDB、Grails和关系

grails、mongodb、grails-orm、relationship

我很好奇Grails的MongoDB插件将如何处理关系。为了测试这一点，我使用两个域类创建了一个非常简单的应用程序： Author有两个字段：String firstName和String lastName Book有两个字段：String title和Author author 在设置MongoDB和Grails之后，我创建了一些Author和Book，并使用MongoDB交互式shell进行了查看。我发现，这些关系的处理方式与在关系数据库中处理关系的方式相同:对其他对象的id字段的引用。所以现在我们来问一下：为了让戈姆做到这一点，它是否需要一个单独的连接来检索每个文档?如果是的话，在关

浏览 3提问于2011-03-05得票数 5

回答已采纳

2回答

如何对表中的两个字段进行排序，一个名称对应一个日期

excel、excel-formula

如何对表中的两个字段进行排序，以删除一个日期的重复名称。我需要配方奶粉。我知道一种方法，是将日期转换为文本类型，然后将这些字段(A2和B2)连接起来，然后使用“删除重复项”按钮删除重复项。但我的数据从csv动态变化，我不想每次都删除重复的手动操作。谢谢。我的文件示例如下：

浏览 1提问于2021-01-17得票数 1

5回答

用regex删除连续逗号

javascript、regex、replace

我使用 str.replace(/(^,)|(,$)/g, '') 删除引号和后缀逗号。如何扩展它，以便删除两个连续的逗号？所以,some text,,more text,应该变成some text,more text 一种方法是用链子 str.replace(/(^,)|(,$)/g, '').replace(/,,/g, ',') 但是，,some text,,,,more text,将成为some text,,more text而不是some text,more text。

浏览 7提问于2016-10-19得票数 1

回答已采纳

2回答

在MongoDB 3.2中创建索引以避免重复的文档/行

java、mongodb、indexing、duplicates、crud

我正在使用MongoDB 3.2，并希望避免在我的集合中重复。为了做到这一点，我使用了createIndex()方法(我尝试了不同的变体，其中没有一个不能工作)： dbColl.createIndex(new Document("guid", 1)); dbColl.createIndex(new BasicDBObject("guid", 1)); dbColl.createIndex(new Document("guid.content", 1)); dbColl.createIndex(new BasicDBObject("guid

浏览 8提问于2016-01-09得票数 3

回答已采纳

2回答

数据流中的近似重复检测

streaming、duplicates、filtering、bloom-filter

我目前正在开发一个能生成大量文本内容的流式API。不出所料，API提供了大量重复数据，我们也有过滤接近重复数据的业务需求。我对数据流中的重复检测做了一些研究，并阅读了有关的内容。稳定布隆过滤器是用于数据流中的重复检测的数据结构，具有错误阳性率的上限。但是，我想要识别近似重复项，我还查看了散列算法，如LSH和MinHash，它们用于最近邻问题和近似重复检测。我有点卡住了，正在寻找如何继续进行的指针，以及我可以查看的论文/实现？

浏览 1提问于2012-04-27得票数 6

回答已采纳

3回答

mongo复制是拆分数据还是复制数据？

mongodb、mongoose、gridfs

我正在创建一个基于mongoDB/nodejs的CMS，并使用GridFS存储所有上传的文档。我的问题是：是否允许MongoDB复制集允许增加数据库存储量，或者只是重复数据库。例如，如果我有5个服务器，每个服务器有1TB的存储，如果我在所有服务器上复制芒果，理论上我的GridFS系统会有5TB的存储(减去缓存和填充)或者1TB的存储重复几次以获得更好的读取性能？谢谢!

浏览 6提问于2011-12-16得票数 1

回答已采纳

3回答

如果行上存在部分重复，则删除行

bash、scripting

我有一个包含400+行的文件，但其中一些行具有部分重复项。下面是一个简化的版本。 file.txt： A_12_23 A_12_34 B_12_23 B_12_34 A_1_34 A_23_34 B_1_12 B_1_23 这些字段以空格分隔，其中第一个下划线之前的字母是标识符，第一个下划线之后的值是它的值。部分重复是指A的一个字段在下划线后的值与B字段的值相同。对行进行排序，以便A字段始终在B字段之前。没有其他标识符。我想要做的是删除所有部分重复的行。 output.txt： A_1_34 A_23_34 B_1_12 B_1_23 我该怎么做呢？我知道如何删除一行中的完全重复项，方法是

浏览 15提问于2020-08-24得票数 0

回答已采纳