R的hist函数在大数据集上运行非常慢_Spark在一个非常小的数据集上运行非常慢_在R中绘制非常大的数据集 - 腾讯云开发者社区

、

我有一个不太大的(好吧，"large“是相对的)数组/向量，包含1,224,647个p值。在我的Ubuntu虚拟机上运行大约需要15分钟。长时间的运行时间让我感到困扰，因为这只是我必须分析的数据的一小部分。我已经通读了手册，运行搜索引擎，我没有看到其他人有这个问题，这是非常令人费解的。() 我可以编写一个脚本来计算每个直方图柱，然后创建一个

浏览 25提问于2020-10-07得票数 1

1回答

选择php用来存储数组的散列函数

、、、、

实际上，在PHP中，每个数组都存储为orderd映射(哈希表)。有可能控制PHP使用的散列函数吗？用例-运行速度非常慢的非常大的哈希。在较小的数据集上运行速度要快得多，但在较大的数据集上，我的代码<em

浏览 0提问于2013-10-18得票数 0

1回答

返回距离矩阵的Julia中的快速hamming距离函数

、

我想使用Julia计算一个非常大的数据集上的hamming距离。为了进一步分析这个矩阵，我需要返回行之间的距离矩阵。数据如下所示 df = convert(Dat

浏览 0提问于2021-02-20得票数 5

2回答

将大的长数据转换为宽的R

、、

我的原始数据如下-数据有三个主要列-1 a social3 a mathid是唯一的键，它告诉哪个员工在一天中去了大学的哪个部门。对于具有1100个唯一部门值的较小数据集，我在reshape2包中使用dcast来获得所需的数据集</

浏览 1提问于2014-11-14得票数 3

4回答

在R中重新创建数据

我一直使用" hist“函数来存储R中的数据。现在我要做的是有一个hist函数，它不仅接受要存储的值的列表，还接受每个值的值和计数。我已经用R写了一个来为我做这件事，但是它比内置的hist慢10-50倍(非常粗略的估计)。有没有什么办法可以“原生”做到这一点？更新:我(基本

浏览 5提问于2011-06-05得票数 0

2回答

将直方图从R导出到Excel

、、、、

我在R中有一些数据，我想用直方图表示(实际上，我有6个直方图)，然后将这些图表导出到excel文件中。我只是在使用hist()函数，但我也在尝试使用ggplot2函数。每个直方图都有10,000条数据，所以我不能简单地导出原始数据并在excel中创建直方图(我假设这会导致一个非常大的excel文件，这是我不想要的)。有什么方法

浏览 3提问于2013-07-30得票数 2

3回答

Foreach函数中的内存使用情况

、、

我想知道是否有任何方法可以让R语言中的foreach包使用预先分配的结构来放入结果。基本上，它涉及到非常大的数据集上的许多小的线性操作。我的非foreach原始代码类似于dim(results) <- c(m,l,[big.number]) for (i in 1for (j i

浏览 0提问于2009-12-29得票数 4

回答已采纳

3回答

Excel宏更有效地合并重复单元格和相应的数据

、

例如，如果我有：mike 115bob 225由此产生的产出如下：john 380该代码对于较小的数据集运行良好，但当我试图在较大的数据集(大约500,000行)上使用它时，代码非常慢(运行时间超过一个小时)。我如何编辑我的代码，使它足够有效地合并

浏览 4提问于2016-06-23得票数 1

回答已采纳

2回答

对基本R图形的改进

、

然而，对于非常大的数据集，我想要生成一个快速的绘图，或者对于学生在R方面没有很好的基础的课程，我使用基础图形。#Functional but not that nice plot(x1,y1, type="l"

浏览 3提问于2010-07-05得票数 6

回答已采纳

1回答

直方图x轴显示错误范围

、

我是从csv中的一列做直方图，值从10万到10,000,000不等，但是当我把数据转换成r，并从那一列生成直方图时，x轴就会混乱，当最大值为10,000,000时，显示出非常大的范围。这是数据集的来源：hist(study_sample$Annual.Salary)

浏览 4提问于2021-07-20得票数 2

回答已采纳

1回答

SqlBase和Gupta的天空之窗

、

有谁可以建议或有经验在云环境中拥有SqlBase数据库并运行存储在本地PC上的Gupta应用程序的可能性？谢谢。

浏览 11提问于2018-08-16得票数 0

2回答

如果我使用计数查询而不是循环Symfony 4中的实体，我会得到更好的性能吗？

、、、、

例如，我需要得到复习计数，这样做的一种方法是：{ })->count();另一种方法是像这样使用查询生成器：

浏览 1提问于2019-02-21得票数 1

回答已采纳

1回答

在联合分区上的查询比在一个表上运行要慢得多

在stackoverflow和googlers的建议下，我们努力实现了bq表的每日分区策略，然而，我们面临着一个问题，当有超过30个分区时，它需要更长的时间(可能是2-3倍)。因此，3个月就是90个分区，即使是在总共1000万行的小数据集上，它也比只有10m行的小数据集慢两倍。当我们有6个月的时间时会发生什么？为什么会这样呢？什么是正确

浏览 1提问于2013-07-05得票数 0

1回答

Spark在一个非常小的数据集上运行非常慢

、、、

下面这个简单的spark程序需要4分钟才能运行。我不知道这段代码出了什么问题。首先，我生成一个非常小的rddP1 = spark.sparkContext.parallelize(list(zip(list(range(4)),[1/4]*4))).cache() 然后，我定义了一个函数来执行lambda

浏览 3提问于2019-08-02得票数 1

回答已采纳

1回答

分批进料tf.estimator.Estimator.predict

、、、

我有一个经过训练的估计器模型，我需要得到一个非常大的数据集的预测向量，不适合内存，处理这些预测向量并保存它们。到目前为止，我的代码如下所示： ...: input_fn(data[s*super_batch:(s+1)*super_batch]))) hist

浏览 1提问于2019-09-08得票数 0

回答已采纳

3回答

R的记忆约束是什么？

、

在回顾“应用预测建模”a审查员陈述时：我对统计学习(SL)教学法的一个批评是，在评估不同的建模技术时缺乏计算性能方面的考虑。由于它的重点是引导和交叉验证来优化/测试模型，SL是相当计算密集型的。再加上重新采样技术，比如打包和增强技术，你就有了对大型数据集进行有监督学习的计算地狱的幽灵。事实上，R的内存限制对模型的大小施加了相当严格<e

浏览 0提问于2014-05-14得票数 11

回答已采纳

4回答

如何生成从基数000001到999999或左填充的串行？

、、

如何在Code或Query中实现左填充。1 00000110 000010 1110 001110 我正在使用MS Access 2007。

浏览 0提问于2010-12-30得票数 1

回答已采纳

1回答

从NumPy或SciPy中的N个模糊直方图中求出单个值

、

假设我有这样的数据：prob = foo(hist, g)>> 0.2223124214 我怎么能做这样的事情，我得到的概率，一个单一的数字或向量

浏览 2提问于2022-01-26得票数 0

回答已采纳

1回答

使用日期进行搜索时，idh_hist查询速度非常慢

、、

我正在尝试编写一个查询来搜索特定日期范围的MFG/PRO发票表'idh_hist‘。当添加日期条件时，它的运行速度非常慢。但是当我推迟日期条件时，它是非常快的。您能推荐一些在idh_hist上编写查询的方法，以便在有条件的情况下运行得相当快吗？以下是我的问题： for each idh_hist</e

浏览 1提问于2016-08-11得票数 0

回答已采纳

1回答

在windows上以R语言运行两个相互并行的命令

、

我试着在网上阅读关于在R中使用并行计算的资料。我的问题是，我想利用我个人电脑上的所有核心，在阅读了不同的资源后，我不确定我是否需要像多核这样的软件包来满足我的目的，不幸的是，这在windows上不起作用。我是否可以简单地将非常大的数据集划分为多个子数据集，并在每个子数

浏览 3提问于2013-04-08得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云