哪种排序算法最适合大数据集和长键？

sorting、time-complexity

考虑一个包含大量待排序元素的数据集，其中每个键都是一个长整型值，那么哪种排序算法是最好的？

浏览 16提问于2019-09-29得票数 0

回答已采纳

1回答

哪种排序算法在非常大的数据集上效果最好

algorithm、sorting

我在互联网上搜索，以找出哪种排序算法最适合非常大的数据集。我发现许多人认为合并排序是最好的，因为它是公平的，而且它确保了时间复杂度是O(n log n)，快速排序是不安全的:快速排序的变体也可能是不安全的，因为真实的数据集可以是任何东西。如果交换这两个元素的时间开销可以忽略不计，那么为什么我们不能选择堆排序作为这种情况下的最佳排序算法</

浏览 2提问于2015-08-27得票数 18

回答已采纳

1回答

对于我的二进制分类问题，哪种算法是最好的选择？

classification、machine-learning-model、data-science-model

对于我的二进制分类问题，哪种算法是最好的选择？我有大约200 K样本在培训集和18个属性，包括二进制，数字和分类。我想得到最适合我的问题的三大算法的列表。

浏览 0提问于2018-09-23得票数 -2

2回答

分类和数值混合特征的机器学习算法

machine-learning

我有一个包含1000个样本的训练数据集。它包含大约50个特征，其中30个是分类特征，其余是数字/连续特征。哪种算法最适合处理分类特征和连续特征的混合特征集？

浏览 0提问于2016-11-05得票数 3

4回答

我想要更多关于排序算法，还有比编码更好的方法！所以我想我需要一些数据来处理。我创建一些“标准”数据的方法如下:创建一组项目，不确定它有多大，但我想找点乐子，让我的计算机发出一点呻吟:D。一旦我有了这个列表，我将把它推到一个文本文件中，然后读取它来运行我的算法。我应该有4个文本文件填充相同的数据，但只是排序不同，以运行我的算法(见下文)。如果我错了，请纠正我，但我相信我需要4种不同的场景来分析我的算法。随机排序的<e

浏览 3提问于2011-08-13得票数 1

回答已采纳

3回答

表示和乘以稀疏布尔矩阵的最快方法是什么？

algorithm、performance、data-structures、matrix、bit-manipulation

所以，我使用的布尔矩阵的维数通常是几十到几百，它们通常是相当稀疏的(在大多数行和列中只有2-4个非零)，并且我的运行时主要由它们的乘法控制。在这种情况下，哪种数据结构最适合加速乘法？目前，我将每个矩阵按行存储在一个连续的位集(64位长的数组)中，并使用基本的标准算法将它们相乘，只是通过在字中定位下一组位的快速操作以及通过位掩码操作进行矢量化来加速稀疏性。

浏览 0提问于2010-09-05得票数 9

2回答

欧洲网站的最佳字符集和排序规则

sql、mysql

我需要知道哪种排序规则和字符集最适合用户输入的数据。或者我应该为每种语言单独制作一个表。如果有一篇文章能解释这一点，那就太好了。谢谢:)

浏览 0提问于2010-06-28得票数 4

回答已采纳

1回答

二进制分类算法

machine-learning、classification

我有一个零售客户交易数据集，具有客户ID，产品，日期，购买产品数量，客户邮政编码，交易金额等功能。已有一种基于业务规则的细分，如果客户对可口可乐感兴趣或不感兴趣的话，可以根据其购买情况进行细分。对于哪种算法和方法最适合这个数据集，有什么建议吗？

浏览 0提问于2019-09-17得票数 1

3回答

数据结构:有效地排序和搜索

data-structures、search、sorting

我需要一个数据结构，比如说4键。我可以对这些钥匙中的任何一个进行排序。我可以选择什么数据结构？分拣时间应该很短。这4个字段源ip，目标ip，源端口，目标共有12个字节，每个记录的总大小为40字节。大约一个lac记录打印时，对

浏览 0提问于2012-09-18得票数 3

1回答

对于Python中的dict排序，这两种排序格式是否完全相同？

python

print(s1)指纹如下：[3, 4, 1, 2, 0]我通常使用第二种方法来按值对数据进行排序，但是今天我看到了其他人的代码来使用第一种方法来对一个数据进行排序。

浏览 2提问于2022-05-26得票数 1

回答已采纳

3回答

LINQ Joins -性能

sql、linq、join

每个节点都提供了有关是否执行排序、扫描、选择、连接等操作的信息。在我们的执行计划中的“Join”节点上，我们可以看到三种可能的算法: Hash Join、Merge Join和Nested Join。Sql Server将根据内表和外表中的预期行数、我们正在执行的连接类型(某些算法不支持所有类型的连接)、我们是否需要数据排序以及许多其他因素来选择每个连接操作的算法。加入算法：嵌套循环连接:最适合小输入，可以通过有序

浏览 1提问于2010-06-14得票数 11

回答已采纳

1回答

在approxSimilarityJoin()函数上永远保持稳定

java、apache-spark、locality-sensitive-hash、minhash

我试图在包含50000行和5000个特性的大型数据集中为每个用户找到最近的邻居。这是与此相关的代码。

浏览 6提问于2018-02-22得票数 3

16回答

哪种排序算法提供了最佳的最坏情况性能？

algorithm、sorting

对于绝对最坏的情况，已知的最快排序算法是什么？我不关心最好的情况，假设有一个巨大的数据集，如果这很重要的话。

浏览 0提问于2009-04-21得票数 4

3回答

DBM数据库的理想字符串长度？

database、berkeley-db、dbm、gdbm

当使用DBM数据库(例如Berkeley或GDBM)时，使用较少的长字符串存储数据还是使用较多的短字符串存储数据更好？无论哪种方式，我都可以很容易地组织我的数据。

浏览 4提问于2009-07-15得票数 1

1回答

占用大量内存的Redis数据结构

memcached、redis、in-memory-database、in-memory

我在Redis上做了一个实验来测试大键的内存使用情况。我加载了1 600万字符串，其中包含50-60个字符(字节)，大致将磁盘上的802 MB放入Redis中的排序集。它耗尽了(膨胀到)3.12GB的RAM用于这个排序集。然后，我将1600万个短字符串 (10-12个字符)加载到另一个排序集中，占用磁盘上220 MB的空间，它仍然消耗了2.5GB的内存。很明显，磁盘上的空间使用减少了很多(减少了72%)，但是Redis排序集仍然使用

浏览 11提问于2013-02-17得票数 3

回答已采纳

2回答

卡桑德拉(Hbase)的memtable (memstore)中的数据排序

cassandra、hbase

我知道输入到系统的数据首先放在内存中(memtable或memstore)。在缓冲区中，根据行键和列名对数据进行排序。当缓冲区大小达到一定的限制时，数据将被刷新到磁盘。如果将缓冲区大小限制配置为大值(~256 MB)，则数据点的数目必须非常大(~数千万)。为此目的所使用的数据结构和排序算法是什么？

浏览 5提问于2015-11-09得票数 1

回答已采纳

2回答

在Android中存储字符串和图像数据的最佳方式？

java、android、xml

我想要完成的是，我有大量的静态数据，组织如下：大小: 2m地域: QLD颜色:棕色我需要存储大约200组这样的数据，以及每个数据集的图像。)和大小因此，我需要能够按属性对数据进行排序。(我认为这种方法最适合动态数据，而不是静态数据)。谁能告诉我我应该用哪种方式存储我的数据

浏览 3提问于2013-05-28得票数 0

1回答

如何在Django/Postgres应用程序中存储用户位置

python、sql、django、postgis、geodjango

，我的目标是为用户存储尽可能多的位置数据，这样我就可以做一些机器学习来计算他们日常活动区域中的哪些职位将最适合他们。我使用GeoDjango和PostGis来使应用程序位置感知，并且很难确定数据库中哪种数据结构最适合这种情况。问题在于我是否应该给每个用户一个location = pg_fields.ArrayField()属性，这个属性最终会变得非常大，还是使用location=models.ManyToManyField(我知道，在具有大数组的Pos

浏览 0提问于2018-03-13得票数 1

回答已采纳

3回答

在GLSL中快速排序？

opengl、glsl、gpgpu、quicksort

我遇到的一个直接问题是，在其中一个步骤中，算法需要维护一个元素列表，对它们进行排序，并取几个最大的元素(哪个数字取决于数据)。在CPU上，这只需使用STL向量和qsort()即可完成，但在GLSL中，我没有这样的工具。有没有办法解决这个问题呢？

浏览 0提问于2009-04-05得票数 6

回答已采纳

1回答

当所有列都有大致相同的方差时，维数的降维和预测

python、dataset、predictive-modeling、random-forest、pca

我有一个25列的数据集，目标是根据前24列预测第25列的值。数据集相当大，这就是为什么我最初认为在进行任何预测之前都要继续进行PCA。我想知道在这种情况下可以做些什么来降低维数，以及什么数据科学算法最适合解决这个问题。我已经尝试过OLS，随机森林，SVR和梯度增强回归，但他们的分数在目前看来相当令人失望，撇开计算时间是相当大的事实。

浏览 0提问于2020-04-11得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

哪种排序算法在非常大的数据集上效果最好

对于我的二进制分类问题，哪种算法是最好的选择？

分类和数值混合特征的机器学习算法

生成几乎没有唯一值的数据集

表示和乘以稀疏布尔矩阵的最快方法是什么？

欧洲网站的最佳字符集和排序规则

二进制分类算法

数据结构:有效地排序和搜索

对于Python中的dict排序，这两种排序格式是否完全相同？

LINQ Joins -性能

在approxSimilarityJoin()函数上永远保持稳定

哪种排序算法提供了最佳的最坏情况性能？

DBM数据库的理想字符串长度？

占用大量内存的Redis数据结构

卡桑德拉(Hbase)的memtable (memstore)中的数据排序

在Android中存储字符串和图像数据的最佳方式？

如何在Django/Postgres应用程序中存储用户位置

在GLSL中快速排序？

当所有列都有大致相同的方差时，维数的降维和预测

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐