在按字符串相似度对条目进行排序时，使用数据库会提高性能吗？

javascript、database、information-retrieval、querying

Maracaibo", "population": 19637,}] 我执行一个查询，按名称对城市进行排序为此，使用数据库有什么好处吗？我已经得到了非常令人满意的结果，但我不知道我是否可以把速度提高一点，以便为新功能获得更多开销。用途是:用户将进入

浏览 33提问于2021-01-18得票数 0

回答已采纳

1回答

在大型数据集中查找可能匹配的字符串

hashmap、string-comparison、wikipedia、n-gram、large-data

我正在进行一个项目，在这个项目中，我必须处理文本文档，并通过维基百科链接来增强它们。预处理文档包括定位所有可能的目标文章，因此我提取所有的ngram并与包含所有项目名称的数据库进行比较。当前的算法是一个简单的无实例字符串比较，前面有简单的裁剪。但是，我希望它更灵活，更能容忍错误，或者像前缀这样的小文本修改。此外，数据库很大，我觉得在这么大的数据库中进行字符串比较不是最好的主意。我想到的是一个散列函数，它将为任何文章或ngram分配一个唯一的(我宁愿避免

浏览 0提问于2014-03-09得票数 1

回答已采纳

1回答

标记和/或搜索

mysql、database-design、search、tags、full-text-search

如果我使用标签的话。我的想法是，我将词条剥离为单词，并将随之而来的任何元数据都剥离为标签。模式将是mysql人员推荐的Toxi (多对多)模式。我对标签的问题是它们不像搜索那样灵活。除非，您还实现了对标记的搜索。在这一点上，我担心性能，或者为什么不直接使用直接搜索。第二个问题是将标签的重复和相似度降到最低。如果您愿意，可以标记垃圾收集。如果我使用搜索，我将不得不使用LIKE或FULLTEXT (虽然myISM不是很好

浏览 2提问于2011-05-11得票数 5

1回答

MongoDB是否适合加载随机记录？

mongodb

我们的应用程序使用较短的文本( 100-1000个字符的字符串)存储记录。它提供对给定查询文本的最相似记录的搜索。我们使用Lucene对文本进行索引。完整的记录存储在数据库中。我们采用Mysql作为数据库，每个域都有自己的表。现在，由于向外扩展，我们尝试迁移到MongoDB。所有记录都存储在单个集合中，domain是记录的一个属性。Ids仍然是从Lucene搜索中获得的。但我们观察到，与使用Mysql的解决方案相比，从MongDB加载

浏览 3提问于2012-06-26得票数 0

回答已采纳

2回答

如何在数据库中查找重复项？

php、mysql、duplicates、duplicate-removal

关于如何在数据库中查找重复项有很多问题，但不是我所遇到的具体问题。我有一张桌子，大约有。120000个条目。我需要找到复制品。不可能对初始查询中已经存在的所有重复项进行排序，因为我必须遍历所有条目，因为我的重复搜索不仅对100%相似的条目敏感，而且对90%相似的条目也很敏感。为此，我使用similar_text()。我认为第一个循环是可以的，但是循环遍历循环中的所有其他条目太多了。对于120000

浏览 1提问于2012-07-13得票数 0

回答已采纳

3回答

使用MongoDB实现更高效的近似字符串匹配

java、regex、mongodb、string-matching、similarity

我有一个相对较大(几乎130000个文档)的MongoDB名称集合，由于光学字符识别噪声，其中包含许多重复项，我正在尝试使用近似字符串匹配将这些重复项分组在一起。我已经使用在Java语言中实现了这一点，如下所示： } } finally{ persons.cl

浏览 2提问于2015-03-19得票数 2

2回答

为什么Get和MultiGet对于大密钥集要比使用Iterator慢得多？

c++、rocksdb

目前，我正在使用RocksDB (C++)，并且对我所经历的一些性能指标感到好奇。出于测试目的，我的数据库键是文件路径，值是文件名。我的数据库里有大约200万条条目。当我想查看数据库中的所有键时，我看到在使用Iterator而不是为每个键调用Get时，性能提高了4-8倍。MultiGet的使用没有什么不同。为什么反复调用Get比使用Iterator慢得多？有办法缩小这两个API之

浏览 0提问于2019-03-26得票数 2

回答已采纳

1回答

如何处理Django的Queryset的低效？

python、django、database

考虑到这个过程只是试图获得它的长度(通过使用len函数，我也尝试了count()方法，但它似乎在一定程度上是有限的)，我知道通过对象的搜索是可以忽略不计的(特别是利用相似算法对它们进行搜索)。elif sim > zenith_sim[1]:return str(zenith_sim[0]) 上面的代码搜索与用户字符串最相似的字符串，尽管为了避免不重要的迭代，如果相似

浏览 2提问于2018-02-10得票数 1

4回答

但这是个好主意吗？

mysql、database-optimization

长话短说，我正在开发的应用程序的一部分需要在数据库中存储一定数量的数据，以便应用程序的另一部分稍后得到。通常情况下，这将是< 2000行，但偶尔会超过300,000行。现在，有很多东西要塞进一排桌子里。请注意，数据最多不会超过60-80 MB的。但我的问题是，实际这么做是个好主意吗？我目前正在使用的两个解决方案如下所示： finish.Inserting 将所有数据作为单个行插入到“临时”表中，该表将在完成后作为序列化字符串截断所有数据到行中的LONGTEXT列中。纯粹从性

浏览 8提问于2010-01-19得票数 0

回答已采纳

1回答

实体框架高效查询

sql-server、entity-framework、linq-to-sql

如果我执行类似于var articles = db.Articles.ToList()的操作，那么它就是为数据库中的每一篇文章检索整个文章模型，并将其保存在内存中，对吗？因此，如果我正在填充一个只显示条目日期和标题的表，是否有一种方法可以只使用使用实体框架从数据库中检索这些列，它会更有效吗？在对象上下文中跟踪返回的对象需要付出一定的代价。检测对象的更改并确保对同一个逻辑实体的多个请求返回相同的对象实例需要将对象附加到Obj

浏览 0提问于2012-07-21得票数 4

回答已采纳

5回答

什么是数据库索引？

database、indexing

我知道它们可能会提高性能，而且它们似乎是特定于列的-- (“我们在date_of_birth列上为用户表建立索引”)。我只是想快速了解它们到底是什么，它们是用来做什么的，以及它们是如何工作的。

浏览 6提问于2013-03-06得票数 54

1回答

针对超大查询的最快MySQL引擎

mysql、sql、performance

在测试期间，该站点在传统的MySQL DB中搜索了40,000个条目，以获得各种不同的标准，然后根据总体排名对每个条目进行排序和显示。对于这种级别的数据，性能非常好，平均在2-3秒内返回结果。因为信心十足，我将数据库中的条目从40,000个增加到大约325,000个。现在，在数据库中搜索大约需要4分钟。一次搜索使用大约2 2GB的RAM！如果我再多工作一个月，我的性能可能会提高1%

浏览 0提问于2014-02-02得票数 0

5回答

在SQL Server中，什么时候应该使用索引视图而不是真正的表？

sql-server、indexed-view

但是，为什么我需要使用视图而不是表呢？

浏览 1提问于2010-10-05得票数 4

回答已采纳

2回答

将SQLExecDirect与预先格式化的查询字符串而不是SQLPrepare+SQLBindParameter+SQLExecute一起使用是否是个坏主意？

sql、sql-server、visual-c++、odbc

以下是我的想法:司机迟早会有(我怀疑晚些时候，但无论如何.)将参数(我用SQLBindParameter提供给它)转换为字符串表示形式，对吗？(也许不是？)因此，如果我在我的应用程序中进行这种格式化(printf-like格式)，我的性能会有任何损失吗？如果不是这样，那么在应用程序中使用SQLPrepare+SQLBindParameter+SQLExecute而不是格式化完整的查询字符串，然后使用SQLExecDirect是否<em

浏览 1提问于2012-02-08得票数 1

回答已采纳

3回答

在mongodb中，索引正在进行的活动，或者我们需要cron吗？

mongodb

我对数据库的整个索引是新手，想知道我是否发出了下面的命令即使发布了新条目，数据库也会始终被索引吗？另外，索引对于2000+条目的数据库有很大的影响吗？

浏览 0提问于2012-06-28得票数 3

回答已采纳

2回答

使用Pandas Dataframe时，Scipy Cosine相似性非常慢

python、pandas、dataframe、cosine-similarity、collaborative-filtering

我正在使用协同过滤来获取两个数据帧之间的余弦相似度，如下所示for i in range(0,len(user_normalized.index你们能帮我一下吗？

浏览 2提问于2018-05-23得票数 0

1回答

这个长的python类型声明是否正确，是否有更短、有效的声明？

python、python-3.x、python-typing

首先，它是正确的吗?它的确切含义是什么？在这种情况下，有没有更简单的方法来进行类型声明？例如，List[Dict]是否同样有效？

浏览 0提问于2020-05-12得票数 0

1回答

在中型字符串数据集中使用AutoCompleteTextView的最佳方法

android、database、sqlite

如果我想使用AutoCompleteTextView作为搜索函数，根据用户当前输入的文本生成一个字符串列表(假设大约1000-3000个字符串)，那么最好是从外部数据库加载这些字符串，还是将它们存储在内部SQLite数据库中并从那里加载字符串？我计划存储的字符串数量是否太大(每个字符串大约有10-20个字符长，它们是常量，不会更改)在SQLite数据库中使用吗？这会在多大程度上减缓

浏览 3提问于2016-04-26得票数 2

回答已采纳

1回答

在MySQL中存储100 K×100 k数组

mysql、database

以下是我的想法： 100 k*100 k可以生成100亿个数据点，这比32位可以得到的多，所以我不能使用INT作为主键。在研究堆栈溢出时，一些人在使用BI

浏览 1提问于2017-06-10得票数 1

2回答

Android:使用UUID作为SQLite的主键

android、performance、sqlite、primary-key、uuid

我的问题是:在android sqlite数据库表中，使用UUID (String / integer )作为主键，而不是一个会自动递增的整数，是不是一个坏主意？我猜使用字符串( UUID有36个字符)作为主键会有性能问题。然而，我看不到任何其他的可能性来实现这样的协作同步系统，所

浏览 0提问于2013-01-07得票数 34

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在大型数据集中查找可能匹配的字符串

标记和/或搜索

MongoDB是否适合加载随机记录？

如何在数据库中查找重复项？

使用MongoDB实现更高效的近似字符串匹配

为什么Get和MultiGet对于大密钥集要比使用Iterator慢得多？

如何处理Django的Queryset的低效？

但这是个好主意吗？

实体框架高效查询

什么是数据库索引？

针对超大查询的最快MySQL引擎

在SQL Server中，什么时候应该使用索引视图而不是真正的表？

将SQLExecDirect与预先格式化的查询字符串而不是SQLPrepare+SQLBindParameter+SQLExecute一起使用是否是个坏主意？

在mongodb中，索引正在进行的活动，或者我们需要cron吗？

使用Pandas Dataframe时，Scipy Cosine相似性非常慢

这个长的python类型声明是否正确，是否有更短、有效的声明？

在中型字符串数据集中使用AutoCompleteTextView的最佳方法

在MySQL中存储100 K×100 k数组

Android:使用UUID作为SQLite的主键

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐