腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
0
回答
在
Julia
中
对
大型
数组
中
的
列
集
进行
二次
采样
的
最快
方法
arrays
、
subset
、
julia
我对对
大型
数据矩阵
的
不同随机
采样
子集执行统计很感兴趣,目前我
的
代码
中
的
一个瓶颈是实际
的
子
采样
。这对我来说似乎很奇怪,因为在次
采样
数据上有相当多
的
O(N^2)距离计算。batch_inds] end当我通过50000个样本矩阵
在
5000个功能上测试它时: X_
浏览 1
提问于2016-07-21
得票数 4
回答已采纳
1
回答
Julia
:
对
复杂数据结构
进行
并行化操作(例如DataFrames)
julia
我想并行处理多个
大型
数据
集
。不幸
的
是,我从使用Threads.@threads获得
的
加速是非常次线性
的
,如下面的简化示例所示。function process(df::DataFrame)::DataFrameend 最后,将对单个数据帧
进行
处理
的
速度与
对
所有我有一种感觉,这与低效
的
内存管理有关。对于第
二次
运行,GC时间相
浏览 26
提问于2020-09-08
得票数 1
1
回答
从
Julia
中
的
数组
中
抽取行
julia
我可以从一维阵列
中
采样
。例如。
julia
> a = [1; 2; 3] 1 35-element Array}: 1 1我想
对
2D
数组
执行同样
的
操作,但是按行
进行
采样
,而不是通过元素
进行
采样
。如果我有
数组
juli
浏览 1
提问于2017-01-19
得票数 0
1
回答
类型效率:
数组
{ Int64,1}与LinearAlgebra.Adjoint{ Int64,Array{Int64,1}}
julia
在
Julia
中有几种构建/生成
数组
的
方法
。对于
列
向量,我一直使用单引号或撇号
方法
,因为它比[]
中
的
多个逗号更快:4×1 LinearAlgebra.Adjoint{Int64,Array{Int64,2(即外部建模线性代数)
在
较小
的
范围内,可能有一个小
的
差别并不重要,但是,我计划最终
浏览 0
提问于2019-05-23
得票数 0
回答已采纳
2
回答
使用函数返回
的
二元
数组
{Float64,1}高效构造
数组
arrays
、
julia
我有一个函数,它返回一个二维
数组
: 0.809919现在我想高效地
对
其
进行
采样
,并将所有结果存储
在
一个2行n
列
的
数组
中
。问题是我得到了一个向量
的
向量。我怎么才能将它展平或构造它呢?, 0.67645]3-
浏览 7
提问于2018-03-02
得票数 0
回答已采纳
2
回答
标记
Julia
中
数据
中
关键字
的
最后一条记录
julia
当在
Julia
中
处理大量数据时,人们认为标记组或ID
的
最后一条记录
的
最佳方式是什么?我现在
的
想法是使用一个矢量化
的
解决方案,比如: #do something cool我不认为这是非常有效
的
。有没有更好
的
方法
?
浏览 0
提问于2015-08-24
得票数 1
3
回答
如何在Python
中
快速加载
大型
数据
集
?
python
、
performance
、
data-mining
、
pdb
、
large-data
我做数据挖掘研究,经常使用Python脚本从SQLite数据库、CSV文件、pickle文件等加载
大型
数据
集
。
在
开发过程
中
,我
的
脚本经常需要更改,我发现自己要等待20到30秒才能加载数据。加载数据流(例如,从SQLite数据库加载)有时是可行
的
,但不是在所有情况下都有效--如果我需要经常返回到数据
集
,我宁愿支付加载数据
的
前期时间成本。到目前为止,我最好
的
解决方案是对数据
进行
二次
采样
浏览 3
提问于2013-01-17
得票数 3
回答已采纳
2
回答
从历史EAV数据库
进行
查询
的
最快
方法
是什么
sql-server
、
performance
、
entity-attribute-value
、
rank
标准EAV模式:一
列
表示实体ID,一
列
表示属性ID,一
列
表示值ID。在运行时,某些行将被排除。对于每个属性,每个实体可能返回0、1或多个行。我们只需要保留每个属性
的
最新值。然而,性能并不令人满意。
在
分析过程<e
浏览 2
提问于2009-04-09
得票数 1
3
回答
Tensorflow数据
集
API
中
的
过
采样
功能
python
、
tensorflow
、
sampling
、
tensorflow-datasets
我想问一下,目前
的
数据
集
API是否允许执行过
采样
算法?我处理
的
是高度不平衡
的
类问题。我在想,在数据集解析(即在线生成)过程
中
对
特定类
进行
过
采样
会很好。我已经看到了rejection_resample函数
的
实现,但是这会删除样本而不是复制它们,并且它会减慢批处理
的
生成速度(当目标分布与初始分布有很大不同时)。我想要实现
的
事情是:举个例子,看看它
的
类概率,决定是否复制
浏览 1
提问于2017-11-11
得票数 11
3
回答
对
一维numpy
数组
进行
下
采样
python
、
numpy
、
scipy
、
signal-processing
、
resampling
我有一个一维numpy
数组
,我想
对
其
进行
下
采样
。如果下
采样
光栅与数据不完全匹配,则可以使用以下任一
方法
:基本上,如果我有我向下
采样
了3倍,下面所有的都是可以
的
:或者任何插值法能给我
的
结果。我只是
在
寻找
浏览 536
提问于2013-12-02
得票数 23
回答已采纳
1
回答
在
特征选择之前或之后
采样
python
、
machine-learning
、
data-science
、
sampling
我
对
特征选择、
采样
和交叉验证
的
顺序感到困惑,我
的
数据
集
有468行和23000
列
,其中269个属于I类,199个属于II类,当拆分训练和测试时,训练.Due
中
的
数据有215个I类和159个II类,以减少样本数量我不得不对训练数据应用或者我应该在这里应用
采样
,这会导致数据丢失,从而导致更小
的
样本。I)先应用过
采样
,然后应用特征选择技术,然后
进行
交叉验证:
在
交叉验证过程
浏览 133
提问于2020-08-12
得票数 1
1
回答
如何
对
PySpark
中
的
两
列
进行
分层抽样?
python
、
python-3.x
、
pyspark
、
databricks
、
sampling
我想要根据it和它们所属
的
comm_type
对
下面的数据
集
进行
采样
;相同
的
it可以有多个comm_types,数据
集
很大,所以我想
对
一个包含100万个唯一it
的
较小样本做进一步
的
分析;我看到有一个sampleBy(col,based,seed=None)
方法
来执行这个操作,但是我需要按comm_type对数据
进行
分组,然后按it
进行
抽样,我很难找到最好
的<
浏览 2
提问于2020-09-10
得票数 2
1
回答
如何处理多
列
的
类不平衡?
machine-learning
、
deep-learning
我
的
数据
集
是:enter image description here。前七
列
是输入指标。最后五
列
用于输出。输出是由0或1组成
的
5个数字组成
的
数组
。我使用
的
是Keras functional API。每当我尝试
对
单个
列
的
数据
进行
重新
采样
时,我
在
合并时遇到了形状问题,即使我试图
对
行
进行
切片。
浏览 6
提问于2020-10-26
得票数 0
1
回答
在
Julia
中
更快地读取CSV文件
performance
、
csv
、
time
、
julia
、
benchmarking
作为参考,我附上了一个时间基准
的
例子: using CSV, DataFrames9.450861 seconds (22.77 M allocations: 960.541 MiB, 5.48% gc time) 297 rows × 2 columns 这是一个随机数据
集
,与
Julia
相比,这种操作
的
python替代编译时间要
浏览 29
提问于2021-01-11
得票数 6
回答已采纳
2
回答
Julia
:从自定义发行版
中
获取示例并执行就地更新。
julia
从标准正态分布
中
取样,并执行就地更新。例如,A = zeros(5);用从标准法线取样
的
五个数字更新A。但是,假设我使用了Distributions.jl并创建了一个名为dist
的
自定义发行版。我知道如何使用rand
进行
示例,但它不执行就地更新。如果我需要从dist
中
反复取样并将值存储
在
A
中
,我将得到一个巨大
的
内存分配。有像randn!这样
的
函
浏览 3
提问于2022-07-09
得票数 2
回答已采纳
1
回答
Julia
中
的
MPI和消息传递
parallel-processing
、
mpi
、
julia
、
physics
、
message-passing
我以前从来没有使用过MPI,现在我
在
Julia
的
项目中,我需要学习如何用MPI编写我
的
代码,让几个不同参数
的
代码并行运行,并不时地从每个计算中发送一些数据到其他计算
中
。我完全不知道如何在
Julia
中
做到这一点,而且我以前从来没有用过任何语言。我安装了MPI库,但没有找到好
的
教程或文档,也没有找到可用
的
示例。
浏览 12
提问于2018-02-19
得票数 0
回答已采纳
4
回答
iOS Cocoa Touch vImage子
采样
ios
、
accelerate-framework
、
vimage
我
在
Cocoa Touch中使用vImages,
在
我
的
例子
中
,它基本上是ARGB浮点
数组
,我需要做一个子
采样
。使用vImage函数
进行
低通滤波是没有问题
的
,但我如何选择2x2像素
中
的
一个(假设我想按因子2
进行
二次
采样
)?当然,我可以使用vDSP stride函数,但这只适用于水平子
采样
,而不适用于垂直子
采样
。 我希望下面的内容能
浏览 7
提问于2012-08-17
得票数 2
回答已采纳
12
回答
来自MySQL Sql数据库
的
简单随机示例
mysql
、
sql
、
random
,并
对
它们
进行
排序,使其充其量为O(N N)。有比O(n)更快
的
方法
吗? 注意:正如Andrew毛
在
评论中指出
的
那样,如果您在Server上使用这种
方法
,您应该使用T函数NEWID(),因为RAND() 。将RAND()
的
结果保存到每次insert/update
的
索引
列
中
。(如果您
的
数据
集
不是很重更新,您可能需要找到另一种
方法
来保持该<
浏览 9
提问于2008-10-30
得票数 124
回答已采纳
3
回答
在
Pandas
中
删除行/获取与
大型
DataFrame不同
的
子集
的
最快
方法
python
、
pandas
、
dataframe
问题
在
我
的
数据
集
浏览 1
提问于2018-11-20
得票数 6
回答已采纳
1
回答
在
VBA
中
执行
的
工作表数据中
最快
的
VLOOKUP
vba
、
performance
、
excel
、
vlookup
、
worksheet-function
我正在寻找
在
工作表数据
中
查找值并在另一
列
中
给出相应值
的
最快
方法
。查找必须在VBA
中
完成。只执行1次查找(
在
同一数据
集
上不再
进行
查找)。例如,我们有以下形式
的
数据: 使用VBA,
在
B
列
中找到与A
列
中
的
"key990000“值相对应
的
值
的
浏览 0
提问于2018-01-18
得票数 0
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券