在Julia中对大型数组中的列集进行二次采样的最快方法

文章/答案/技术大牛

发布

0回答

arrays、subset、julia

我对对大型数据矩阵的不同随机采样子集执行统计很感兴趣，目前我的代码中的一个瓶颈是实际的子采样。这对我来说似乎很奇怪，因为在次采样数据上有相当多的O(N^2)距离计算。batch_inds] end当我通过50000个样本矩阵在5000个功能上测试它时： X_

浏览 1提问于2016-07-21得票数 4

回答已采纳

1回答

Julia:对复杂数据结构进行并行化操作(例如DataFrames)

julia

我想并行处理多个大型数据集。不幸的是，我从使用Threads.@threads获得的加速是非常次线性的，如下面的简化示例所示。function process(df::DataFrame)::DataFrameend 最后，将对单个数据帧进行处理的速度与对所有我有一种感觉，这与低效的内存管理有关。对于第二次运行，GC时间相

浏览 26提问于2020-09-08得票数 1

1回答

从Julia中的数组中抽取行

julia

我可以从一维阵列中采样。例如。julia> a = [1; 2; 3] 1 35-element Array}: 1 1我想对2D数组执行同样的操作，但是按行进行采样，而不是通过元素进行采样。如果我有数组 juli

浏览 1提问于2017-01-19得票数 0

1回答

类型效率:数组{ Int64，1}与LinearAlgebra.Adjoint{ Int64，Array{Int64，1}}

julia

在Julia中有几种构建/生成数组的方法。对于列向量，我一直使用单引号或撇号方法，因为它比[]中的多个逗号更快：4×1 LinearAlgebra.Adjoint{Int64,Array{Int64,2(即外部建模线性代数) 在较小的范围内，可能有一个小的差别并不重要，但是，我计划最终

浏览 0提问于2019-05-23得票数 0

回答已采纳

2回答

使用函数返回的二元数组{Float64，1}高效构造数组

arrays、julia

我有一个函数，它返回一个二维数组： 0.809919现在我想高效地对其进行采样，并将所有结果存储在一个2行n列的数组中。问题是我得到了一个向量的向量。我怎么才能将它展平或构造它呢？, 0.67645]3-

浏览 7提问于2018-03-02得票数 0

回答已采纳

2回答

标记Julia中数据中关键字的最后一条记录

julia

当在Julia中处理大量数据时，人们认为标记组或ID的最后一条记录的最佳方式是什么？我现在的想法是使用一个矢量化的解决方案，比如： #do something cool我不认为这是非常有效的。有没有更好的方法？

浏览 0提问于2015-08-24得票数 1

3回答

如何在Python中快速加载大型数据集？

python、performance、data-mining、pdb、large-data

我做数据挖掘研究，经常使用Python脚本从SQLite数据库、CSV文件、pickle文件等加载大型数据集。在开发过程中，我的脚本经常需要更改，我发现自己要等待20到30秒才能加载数据。加载数据流(例如，从SQLite数据库加载)有时是可行的，但不是在所有情况下都有效--如果我需要经常返回到数据集，我宁愿支付加载数据的前期时间成本。到目前为止，我最好的解决方案是对数据进行二次采样

浏览 3提问于2013-01-17得票数 3

回答已采纳

2回答

从历史EAV数据库进行查询的最快方法是什么

sql-server、performance、entity-attribute-value、rank

标准EAV模式:一列表示实体ID，一列表示属性ID，一列表示值ID。在运行时，某些行将被排除。对于每个属性，每个实体可能返回0、1或多个行。我们只需要保留每个属性的最新值。然而，性能并不令人满意。在分析过程<e

浏览 2提问于2009-04-09得票数 1

3回答

Tensorflow数据集API中的过采样功能

python、tensorflow、sampling、tensorflow-datasets

我想问一下，目前的数据集API是否允许执行过采样算法？我处理的是高度不平衡的类问题。我在想，在数据集解析(即在线生成)过程中对特定类进行过采样会很好。我已经看到了rejection_resample函数的实现，但是这会删除样本而不是复制它们，并且它会减慢批处理的生成速度(当目标分布与初始分布有很大不同时)。我想要实现的事情是:举个例子，看看它的类概率，决定是否复制

浏览 1提问于2017-11-11得票数 11

3回答

对一维numpy数组进行下采样

python、numpy、scipy、signal-processing、resampling

我有一个一维numpy数组，我想对其进行下采样。如果下采样光栅与数据不完全匹配，则可以使用以下任一方法：基本上，如果我有我向下采样了3倍，下面所有的都是可以的：或者任何插值法能给我的结果。我只是在寻找

浏览 536提问于2013-12-02得票数 23

回答已采纳

1回答

在特征选择之前或之后采样

python、machine-learning、data-science、sampling

我对特征选择、采样和交叉验证的顺序感到困惑，我的数据集有468行和23000列，其中269个属于I类，199个属于II类，当拆分训练和测试时，训练.Due中的数据有215个I类和159个II类，以减少样本数量我不得不对训练数据应用或者我应该在这里应用采样，这会导致数据丢失，从而导致更小的样本。I)先应用过采样，然后应用特征选择技术，然后进行交叉验证:在交叉验证过程

浏览 133提问于2020-08-12得票数 1

1回答

如何对PySpark中的两列进行分层抽样？

python、python-3.x、pyspark、databricks、sampling

我想要根据it和它们所属的comm_type对下面的数据集进行采样；相同的it可以有多个comm_types，数据集很大，所以我想对一个包含100万个唯一it的较小样本做进一步的分析；我看到有一个sampleBy(col，based，seed=None)方法来执行这个操作，但是我需要按comm_type对数据进行分组，然后按it进行抽样，我很难找到最好的<

浏览 2提问于2020-09-10得票数 2

1回答

如何处理多列的类不平衡？

machine-learning、deep-learning

我的数据集是:enter image description here。前七列是输入指标。最后五列用于输出。输出是由0或1组成的5个数字组成的数组。我使用的是Keras functional API。每当我尝试对单个列的数据进行重新采样时，我在合并时遇到了形状问题，即使我试图对行进行切片。

浏览 6提问于2020-10-26得票数 0

1回答

在Julia中更快地读取CSV文件

performance、csv、time、julia、benchmarking

作为参考，我附上了一个时间基准的例子： using CSV, DataFrames9.450861 seconds (22.77 M allocations: 960.541 MiB, 5.48% gc time) 297 rows × 2 columns 这是一个随机数据集，与Julia相比，这种操作的python替代编译时间要

浏览 29提问于2021-01-11得票数 6

回答已采纳

2回答

Julia:从自定义发行版中获取示例并执行就地更新。

julia

从标准正态分布中取样，并执行就地更新。例如,A = zeros(5);用从标准法线取样的五个数字更新A。但是，假设我使用了Distributions.jl并创建了一个名为dist的自定义发行版。我知道如何使用rand进行示例，但它不执行就地更新。如果我需要从dist中反复取样并将值存储在A中，我将得到一个巨大的内存分配。有像randn!这样的函

浏览 3提问于2022-07-09得票数 2

回答已采纳

1回答

Julia中的MPI和消息传递

parallel-processing、mpi、julia、physics、message-passing

我以前从来没有使用过MPI，现在我在Julia的项目中，我需要学习如何用MPI编写我的代码，让几个不同参数的代码并行运行，并不时地从每个计算中发送一些数据到其他计算中。我完全不知道如何在Julia中做到这一点，而且我以前从来没有用过任何语言。我安装了MPI库，但没有找到好的教程或文档，也没有找到可用的示例。

浏览 12提问于2018-02-19得票数 0

回答已采纳

4回答

iOS Cocoa Touch vImage子采样

ios、accelerate-framework、vimage

我在Cocoa Touch中使用vImages，在我的例子中，它基本上是ARGB浮点数组，我需要做一个子采样。使用vImage函数进行低通滤波是没有问题的，但我如何选择2x2像素中的一个(假设我想按因子2进行二次采样)？当然，我可以使用vDSP stride函数，但这只适用于水平子采样，而不适用于垂直子采样。我希望下面的内容能

浏览 7提问于2012-08-17得票数 2

回答已采纳

12回答

来自MySQL Sql数据库的简单随机示例

mysql、sql、random

，并对它们进行排序，使其充其量为O(N N)。有比O(n)更快的方法吗？注意:正如Andrew毛在评论中指出的那样，如果您在Server上使用这种方法，您应该使用T函数NEWID()，因为RAND() 。将RAND()的结果保存到每次insert/update的索引列中。(如果您的数据集不是很重更新，您可能需要找到另一种方法来保持该<

浏览 9提问于2008-10-30得票数 124

回答已采纳

3回答

在Pandas中删除行/获取与大型DataFrame不同的子集的最快方法

python、pandas、dataframe

问题在我的数据集

浏览 1提问于2018-11-20得票数 6

回答已采纳

1回答

在VBA中执行的工作表数据中最快的VLOOKUP

vba、performance、excel、vlookup、worksheet-function

我正在寻找在工作表数据中查找值并在另一列中给出相应值的最快方法。查找必须在VBA中完成。只执行1次查找(在同一数据集上不再进行查找)。例如，我们有以下形式的数据：使用VBA，在B列中找到与A列中的"key990000“值相对应的值的

浏览 0提问于2018-01-18得票数 0

回答已采纳

点击加载更多