腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
从
数据
中
进行
不规则
抽样
、
、
我有一个如下的
数据
库: DT <- structure(list(Year = c(2005, 2005, 2005, 2005, 2005, 2005, 2005, )), row.names = c(NA, -90L), class = c("tbl_df", "tbl", "data.frame" )) 从这个DT
中
,类似于: DT_new <- setDT(DT)[,.S
浏览 21
提问于2020-10-20
得票数 0
回答已采纳
1
回答
不规则
网格到规则网格的插补
、
、
我有一些非规则采样的一维
数据
(时间序列
数据
),即非恒定采样率。我想把这些
数据
转换成一个定期
抽样
(统一
抽样
率)的时间序列。我看过几篇关于在
不规则
网格上使用匹配追踪
进行
插值的论文;但是,如何使用这种方法在规则网格上获取样本对我来说还不清楚(至少目前还不清楚)。对于从
不规则
网格到规则网格(一维
数据
)的插值算法,我将不胜感激。
浏览 4
提问于2013-03-23
得票数 1
1
回答
数据
收集集在Windows性能监控
中
应该运行多长时间
、
、
、
我目前有一个应用服务器和一个
数据
库服务器都运行在Windows 2008 R2上。我的任务是每周编写一份关于CPU、内存和磁盘使用情况的报告。我计划在中使用默认性能监视
数据
收集集模板,并且想知道调度作业运行的最佳实践是什么?我倾向于将
数据
收集集
从
每周初开始,在结束时停止。这会不会太过分了?此外,性能监视会降低系统性能吗?我们的应用程序的使用很可能是非常
不规则
的。很多批处理工作在夜间
进行
,用户在早上上班时可能会进入系统,因此,我担心较小的
抽样
窗口会影响系统的真正利用率。此
浏览 0
提问于2014-01-13
得票数 2
回答已采纳
1
回答
python
中
不规则
高频时间序列
数据
的预处理
、
、
、
、
最初在...posted中使用的StackOverflow (可能更适合这里)我正在处理
不规则
的、高频的时间序列
数据
.在一秒钟内,我可以有多个
数据
点,如下面的timestamp字段所示27:54.253" "timestamp": "2018-06-03T12:27:54.548" 我正在为这个时间序列
数据
开发一个
抽样
浏览 0
提问于2018-07-06
得票数 1
2
回答
如何
从
文本文档
数据
库中
进行
有效的
抽样
?
、
、
问题:我想知道
从
数据
库
中
执行有效
抽样
的方法。
数据
库的大小是关于250K文本文档的,在这种情况下,每个文本文档都涉及到一些专业(电气工程、医学等)。到目前为止,我已经看到了一些简单的技术,如简单随机样本和分层
抽样
;但是,出于以下原因,我认为应用它们并不是一个好主意: 例如,在简单的随机
抽样
的情况下,
数据
库中有几个关于海军工程或艺术专业的文档。因此,我认为这种方法不太可能对它们
进行
抽样
,但我希望尽可能地对每一个主要方面<
浏览 0
提问于2015-03-11
得票数 2
1
回答
随机森林排样置换与特征
抽样
的目的
、
、
在随机森林中,我们实际上使用了引导聚合,实际上,我们遵循两个步骤,比如用替换的行采样和创建引导示例的特性采样,实际上我的问题是 1)此行
抽样
和特征
抽样
的实际目的是什么?2)在带替换的行
抽样
中
,同一行可以在引导样例
中
重复(如果我错了,请纠正我),如果同一行出现了两次,它将如何影响我们的最终预测:是否需要
进行
替换/是否有必要
进行
替换?3)假设一个
数据
集包含7个特征,那么在特征
抽样
中
,如果我们只
从</em
浏览 5
提问于2022-03-25
得票数 -1
1
回答
从不同的输入集中获取相同分布的
数据
、
、
、
我正在尝试创建一个在多个列表之间平均分布的训练
数据
集,每个列表都有不同类型的
数据
。我该怎么做?我查看了GroupKMeansFold和StratifiedFold,但我并不完全理解它。[a1, a2, a3.... a10000] c = [c1, c2, c3.... c10000] 我希望我的训练,测试,和val
数据
有我还希望70%的培训
数据
在列表a、b、c之间均匀分布,与测试和val
数据
相同。我希望训练
数据
有来自a、b
浏览 0
提问于2022-07-29
得票数 1
1
回答
Pyspark:对dataframe的示例
进行
计数,而不是整个dataframe。
、
我还有另一个实现,它测量运行此
数据
have的
抽样
版本所需的时间。sampled_df = df.sample(withReplacement=False, fraction=0.1)然后,我
从
抽样
计数
中
推断出总体计数。但是,与对整个
数据
集
进行
计数相比,计算此
抽样
计数所需的时间总体上并没有减少。两者似乎都需要40秒左右。发生这种事有什么原因吗?另外,当使用
抽样
计数超过整个
数据
帧的
浏览 6
提问于2022-08-09
得票数 1
1
回答
IPython /熊猫:是否有一种标准的方法来检测时间序列
中
的快速变化?
、
Noob
数据
分析师,分析了数千点(如此之小)的时间序列
中
的一些气体浓度。我用Matplotlib绘制了它,并且有一些很容易看到的变化迅速的点。 在这些问题上,回家的标准/最简单的方法是什么?
浏览 2
提问于2015-02-19
得票数 2
回答已采纳
2
回答
用过采样和交叉验证正确评价模型
、
、
我的想法是应用某种
抽样
(过/下、击等)。来解决这个问题。将
数据
集划分为列车测试对简历
中
的“培训”部分
进行
抽样
在“验证”上验证它在测试
中
评估性能 我的疑问是:既然前者
浏览 0
提问于2019-11-04
得票数 1
1
回答
滑雪板-过载问题
、
、
、
我正在寻找解决当前机器学习问题的最佳途径的建议我有脑电图
数据
的900+试验,每次试验都有1秒长。地面真相是已知的,并划分为状态0和状态1 (40-60%分裂)。我已经尝试过
数据
的规范化和标准化。标准化(SD = 1)不会改变训练或准确性分数。正常化(0-1)使我的训练准确度下降到0.6. 我为SVC尝试过不同的C和gamma设置,但是它们都不会改变分数。
浏览 0
提问于2015-08-11
得票数 9
1
回答
我想使用套袋对
数据
集
进行
随机
抽样
。并在进一步分析中使用该
数据
集。我怎么能这么做?
、
、
首先,我想在
数据
集中使用套袋
进行
采样。在此之后,我将使用反向传播算法
进行
训练和测试。假设我将从dataset
中
随机选择40%的
数据
来创建一个示例集。在此之后,我将再次
从
总
数据
集中提取40%的
数据
,并创建另一个
数据
集。
抽样
代码: sample = list() n_sample = round(len(dataset) * ratio)ind
浏览 6
提问于2019-10-23
得票数 2
回答已采纳
2
回答
R分阶段
抽样
、
我正在运行一些人口普查
数据
的
抽样
模拟,我想分两个阶段
进行
抽样
。 但是,我想从每个村庄的25个<em
浏览 1
提问于2013-03-12
得票数 1
回答已采纳
1
回答
理解numpy
中
的分层
抽样
、
、
目前,我正在研究一个房地产
数据
集:每个实例都是加州的一个区,有几个属性,包括该地区的中等收入,其规模和上限为15。收入中值直方图显示,大多数收入中值集中在2至5之间,但有些数值远远超过6。作者希望根据收入中值
进行
分层
抽样
。他提供了创建收入类别属性的下一段代码。income_cat"] < 5, 5.0, inplace=True) 他解释说,为了限制类别的数量,他将median_income除以1.5,然后他只将这些类别低于5,并将所有其他类别合并到类别5
中
。
浏览 3
提问于2019-04-06
得票数 0
3
回答
从
大型
数据
集中
进行
抽样
、
我有一个有112 k行和2列的
数据
集。如何
从
该
数据
集中等量地
进行
采样,以获得一个类似10k行的小
数据
集?我的意思是等号,因为这个
数据
集有56k行,列名为True=1,56k行具有列´True=0`。谢谢
浏览 0
提问于2021-05-19
得票数 1
回答已采纳
1
回答
使用随机()或表样系统()随机
抽样
黑斑羚
中
的n行
、
我想用Impala
从
表
中
随机抽取n行。我将n设为10000,并从超过2000万行的表中
进行
抽样
。第二个选项创建了许多不同的“桶”,然后随机抽取至少1%的
数据
(在实践
中
,这似乎总是比提供的百分比大得多)。在这两种情况下,我只选择了10000行。 在我的例子
中
,是随机
抽样
10K行的第一个可靠选项?
数据
的结构就是为什么整张表的随机
抽样
或洗牌对我来说非常重要的原因。每天都会向表
中
添加其他行。例如,其中一列是
浏览 5
提问于2021-07-05
得票数 0
1
回答
AWS X-射线采样图不显示
数据
、
为了查看更好的跟踪,我在AWS控制台中创建了一个采样规则,如下文所述,但是我无法在图中获得该采样规则的任何
数据
。我还尝试
从
代码
中
添加
抽样
规则,如下图所示 如果您能引导我在
抽样
规则图中获取跟踪
数据
,我将非常感激。 如果我创建一个新的
抽样
规则,是否也必须对代码
进行
更改?
浏览 5
提问于2022-02-09
得票数 0
1
回答
不规则
时间自相关的glmmTMB
、
我有
数据
收集在一个单一的网站在5月份,每年,4年。一年内的时间分辨率可以
从
几分钟(甚至同一分钟)到间隔几天不等。说ar1()结构需要一个规则的时间序列,但是ou(times + 0 | group)结构可以处理
不规则
的时间序列。这就是说--看起来times参数是一个因素--在
不规则
的时间结构
中
,它是如何工作的?-30L), class = c("tbl_df"
浏览 0
提问于2018-10-21
得票数 2
回答已采纳
2
回答
不均匀间隔时间序列的建模
、
、
我有一个连续的变量,在一年的时间里以
不规则
的间隔
抽样
。有些日子每小时有一次以上的观察,而其他几天没有任何观察。这使得在时间序列
中
检测模式变得特别困难,因为一些月(例如10月)是高度
抽样
的,而其他月份则不是。我的问题是,什么是最好的方法来建模这个时间序列?我可以聚合
数据
,以便有一个固定的样本,或者选择一个非常详细的
数据
子集。使用这两个选项,我将从原始
数据
集中丢失一些信息,这些信息可能会显示出不同的模式。我可以用整个
数据
集来填充模型,并期望它能够获取
浏览 0
提问于2014-11-03
得票数 15
2
回答
如何控制一些病人在我的培训
数据
中提供多个样本?
、
、
我有50个病人的
数据
集。这些病人经过多年的追踪,在某种程度上随机间隔地测量了几千个特征。我正试图预测一个特定的结果(这是一个回归问题),这个结果可以是一次,两次,或者是每名患者在整个跟踪期间的三次。到目前为止,我一直假设每个结果特征都是Y向量
中
的一个
数据
点,并且使用最近的时间点来测量患者的特征。我希望我的最后一个模型能够从一个特性度量
中
预测结果变量,这就是为什么我可以忽略
数据
的时间方面。然而,我不知道如何控制这一事实,因为有些病人为我的培训
数据
贡献了2个甚至3个样本。这会不会影响我的模型
浏览 0
提问于2018-07-09
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
利用深度学习从传感器数据中自动进行损伤识别的新方法
从海量数据中寻找未知
大数据:从错误的角度出发 如何从数据中获得价值?
如何在 Drupal 中从 Python 脚本中显示数据
从炒作到运用,区块链革命正在进行中
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券