关于如何划分和查找数据集的平均值的问题_查找数据集的平均值/平均值_关于筛选大型数据集的问题 - 腾讯云开发者社区

dataframe、apache-spark、spark-streaming

此时感觉有点迷茫。我有一个基于Spark2.4.2& Kafka的流应用程序，它将聚合(时间窗口‘’ed)流写回Kafka： DF1 (在键theKey上)流预分区数据，即保证K到达同一分区everytime.DF2查找表(~1000行)的流，该表是基于键和连续移动的1天窗口的DF1.GroupBy加入的。 DF1.join(DF2, "df1.a" === "df2.b", "left") .withWatermark("timestamp", "24 hours")

浏览 2提问于2020-03-13得票数 0

1回答

将电影数据拆分成训练验证测试数据集

python、bayesian、precision-recall、recommender-systems

我正在做一个用python编写的使用贝叶斯个性化排名优化的推荐系统的项目。我非常有信心我的模型能够很好地学习我提供的数据，但现在是时候找出确切的模型超参数了，并尽量避免过度拟合。由于movielens数据集只为我提供了5倍的训练测试数据集，而没有验证集，因此我想自己拆分原始数据集来验证我的模型。由于movielens数据集包含943个用户数据，每个用户保证至少有20部电影排名，因此我正在考虑拆分数据，以便训练和测试数据集都包含相同数量的用户(例如943)，并将80%的隐式反馈数据分发给训练，另一个分发给测试。在训练之后，将使用所有943个用户的k精度召回率的平均值进行验证。这是拆分数据集的

浏览 5提问于2020-10-04得票数 0

2回答

如何判断两组数据是否相似

algorithm

我有一个关于比较两组数据的问题。现在我有两组数据，比如说集合A和集合B。我要做的是： 1.)根据集合A的数据绘制折线图 2.)根据集合B的数据绘制另一个折线图，并将其覆盖在集合A的图形上。我的问题是，集合B的数据可以比集合A的数据大得多(也可以小得多)。但是绘制这些图的目的是比较这两个图的模式，这意味着我需要将集合B中的每个数据乘以或除以一个因子，比如N，这样结果图将位于相似的范围内(使它们重叠)。我的问题将是如何找到这个N。目前我只是这样得到这个N： 1.)求平均值A，集合A的最大值和最小值的平均值 2.)求平均值B，集合B的最大值和最小值的平均值 3.)B除以A得到N。然而，我发现这

浏览 2提问于2012-07-09得票数 0

1回答

使用Cube.js对各种组合进行加权平均计算

cube.js

我们有一个关于设计模式和处理我们的产品的分析要求的问题，并感谢您的建议。我们才刚刚开始使用Cube.js。以下是我们请求:我们有数据(为简单起见……我将使用一个示例)，其中假设我们有多个列(属性)，1个"value“列和1个"weight”列。我们需要计算列(属性)和值/权重列的所有组合的加权平均值。例如，Group by列1和加权平均值(value/Weight列)或Group by列1，2和加权平均值等...它可以是许多类型的组合，我们至少有8到12列这样的列，想知道如何最好地建模？

浏览 25提问于2020-12-31得票数 1

1回答

数据库匿名化:使用加性噪声

database、privacy、anonymize、anonymity

我想做一个关于使用加性噪声来保护数据库免受推理攻击的实验。我的数据库应该首先生成一个平均值为25的特定值列表，然后通过添加一个随机噪声值来匿名这些值，该值的预期值为0。例如：我可以在-1,1的范围内使用均匀分布的噪声，也可以使用均值的正常(高斯)噪声。我将测试这种匿名方法的数据库100，1,000,10000值与不同的噪音。我对使用哪个平台和如何使用感到困惑，所以我从Excel中的10个值开始，对于均匀分布的噪声值，我使用RAND()并将其添加到实际值中，对于正常的噪声，我使用的是平均值的Norm.Inv，然后将其添加到实际值中。但是我不知道如何从黑客的角度来解释数据，当我在数据集

浏览 5提问于2020-05-03得票数 0

1回答

R-整个数据的平均值计算，而不是单独分配每一列

r、mean

我是R的初学者，我有一个关于简单函数的问题，比如大数据集的均值或标准差。我的数据显示了对冲基金过去30年的月度回报，所有对冲基金都有1550列。我看到，我可以使用mean函数计算特定列的平均值，方法是引用具有我的数据集的名称的列，以及$和no。列的。然而，我想知道如何才能在不指定每一列的情况下获得每个对冲基金(即每列)的平均值。提前感谢您的帮助！

浏览 0提问于2016-06-26得票数 0

1回答

计算图像数据集的平均值

python、statistics、deep-learning

在深入学习实验中，人们一致认为，数据集的均值减去可以改进accuracy.For示例，ImageNet的平均值为104.0 117.0 124.0，因此在输入网络之前，将从图像中减去平均值。我的问题是如何计算平均值？我应该分别计算训练数据和测试数据的平均值吗？

浏览 1提问于2017-07-18得票数 2

回答已采纳

1回答

如何分割推荐系统的极稀疏数据集的训练/测试？

machine-learning、recommendation-engine、svd、collaborative-filtering

我在真实世界的数据集上使用CF算法(SVD)。现在我遇到了一个关于数据稀疏问题的问题。这意味着用户/项目评分矩阵的稀疏性约为0.01%。我将数据分成80/20的火车/测试集，我发现测试集中只有几个用户和项目出现在培训集中，所以我可以在测试集中使用几个评分来计算RMSE。你能给我一些建议吗？

浏览 0提问于2014-12-19得票数 2

回答已采纳

2回答

散列VS索引

hash、indexing、data-partitioning、consistent-hashing

散列和索引都用于对某些预定义公式上的数据进行分区。但我无法理解两者之间的关键区别。与散列一样，我们是根据一些键值对来划分数据，同样，在索引时，我们也是根据一些预定义的值来划分数据。谁能帮我找出散列和索引的区别，以及如何决定是使用散列还是索引。

浏览 2提问于2013-12-16得票数 10

回答已采纳

1回答

光数据集均值和Std的计算

python、pytorch、dataset、std、mean

我有一个关于照片数据集平均值和Std的计算的问题。照片数据集提供相应的补丁，所有形状的(64,64,1)来训练描述符(通常是CNN网络)。这些补丁是从原始图像中提取出来的。这些原始图片是由来自世界各地的游客从特定的地点(诺特达美、自由、约塞米蒂)以不同的图像分辨率拍摄的。每个补丁(32，32)的中心是由SIFT检测器检测到的keyPoint。例如，在这些数据集中，我们有近500 K的补丁，从715张图像中提取Notredame。指向数据集的链接：在Py火炬照片数据集中，他们将这些定义如下： means = {'notredame': 0.4854, 'yosemi

浏览 1提问于2021-01-01得票数 0

1回答

在GridSearchCV中对测试集进行预处理的问题

python、machine-learning、scikit-learn、cross-validation

我使用20%的数据集作为我的测试集，并使用GridSearchCV来实现K折交叉验证来调优超参数。通过使用管道，我们可以将列转换器和机器学习算法一起放入GridSearchCV中。如果我为GridSearchCV设置了5折交叉验证，该函数将使用5个不同的训练和验证集来训练和验证每个超参数组合。据我所知，GridSearchCV使用5折分数的平均值来选择最好的模型。那么我的问题是，它是如何转换测试集的？我对此感到非常困惑，因为为了避免数据泄漏，我们应该只使用训练集来拟合转换器，但在本例中，我们有5个不同的训练集，而我不知道GridSearchCV函数使用哪一个来拟合和转换验证和测试集。我

浏览 10提问于2021-11-17得票数 0

1回答

用python逆标准差进行标度训练

python、neural-network、training-data、standard-deviation

我正在使用python，并且有一组训练数据，我需要“用逆标准差减去平均值和标度”。减去平均值只是从我假设的每一列的每个值中减去平均值，但我不知道当它说‘用逆标准差进行标度’时我要做什么。我在谷歌上搜索过，但是没有任何关于python或神经网络的信息，所以我不知道如何继续下去。谢谢编辑:这是正确的吗？ scaled_train = (train - train_mean) / train_std_deviation

浏览 1提问于2018-09-11得票数 0

回答已采纳

1回答

是否可以在SQL中创建基于另一个列值重置的滚动平均值？

sql、sql-server

我正在处理包含不同地点的气体浓度的数据。我的目标是为每个地点的两周样本周期创建一个滚动平均值。我的问题是，我知道如何使用窗口函数，但我不知道如何使窗口重置时，位置id更改。理想的情况是，每个位置ID都有一个移动平均值，当它到达下一个位置ID时会重新启动。我已经拆散了互联网，寻找一个解决方案，所以我希望一个特定的问题可以帮助我找到答案。如果你需要更多的信息，请告诉我，我会尽我所能。谢谢!

浏览 12提问于2022-05-11得票数 -2

1回答

培训和交叉验证是如何和为什么在时间上磨损的？

cross-validation

在谷歌在毫升上的速成班里，我读到了一个关于火车和验证集的有趣的提示。他们说 “测试集和验证集”随着重复使用而“磨损”。也就是说，你越多地使用相同的数据来对超参数设置或其他模型改进做出决定，你就越不相信这些结果实际上会推广到新的、看不见的数据。如果可能的话，收集更多的数据来“刷新”测试集和验证集是个好主意。重新开始是一种伟大的重置。那件事怎么可能？它应该如何和为什么会磨损呢？而“数据的磨损”意味着什么呢？我能解决这个问题吗?我可以把这些集合随机地重新划分成三个(列车测试-cv)来处理不同的模型，而不是对所有的模型使用相同的分区吗？

浏览 0提问于2023-01-28得票数 1

1回答

在培训、测试和生产过程中如何准备数据？

predictive-modeling、training、feature-engineering、preprocessing、missing-data

大多数真实世界的数据集都有缺少值的特性。将缺失值替换为适当的值(如平均值)是特征工程中的一个很好的步骤。有时，我们还会在输入特性列以训练模型之前对其进行标准化/规范化。在建模之前，我们还将数据集拆分为培训和测试集。我的第一个问题是如何在这个分裂的数据集中进行特性工程？我们是使用未分割特征的全局平均值来替换训练和测试集中这些特征的缺失值，还是应该使用这些集合的本地均值？就像上面的问题，我们如何对火车，测试数据集进行规范化？最后一个但很重要的问题是，在产品中，我们通常一次只得到一个特性值(比如一行特性)，我们如何设计这些数据行呢？

浏览 0提问于2020-12-16得票数 4

1回答

Numpy重塑从数据中获取月度平均值

python、numpy、mean、reshape

我正在尝试从1901-2015年的观测降水量数据集中获得月平均值。我的prec变量的当前形状是(1380(time), 360(lon), 720(lat))，其中1380是115年期间的月数。我被告知，要计算月平均值，最有效的方法是对prec变量执行np.reshape命令，将数组分为月和年。然而，我不确定最好的方法是什么。我还想知道在Python中是否有一种方法可以选择一年中特定的月份，因为我将为一年中的每个月生成绘图。我一直在尝试用下面的代码重塑prec变量。然而，我不确定如何正确地做到这一点： #Set Source Folder sys.path.append('../..

浏览 14提问于2017-07-16得票数 0

3回答

用于填充缺失数据的方法或算法

c#、algorithm

我正在处理缺少数据的数据集，需要能够向前、向后和填补差距。因此，例如，如果我有从2000年1月1日到2010年12月31日的数据，并且某些天丢失了，当用户请求开始于丢失的数据点之前、结束于丢失的数据点之后或包含丢失的数据点的时间跨度时，我需要“填充”这些丢失的值。有没有合适的术语来指代这个填写数据的概念？归罪是一个术语，但不知道它是否是它的“术语”。我假设有多种算法和方法来填充缺失的数据(使用上次测量的数据，使用两个已知数字之间的中值/平均值/移动平均值等，等等。任何人都知道这个问题的合适术语，任何关于这个主题的在线资源，或者理想情况下到一些算法的开源实现的链接(最好是C#，但任何语言都

浏览 9提问于2011-02-25得票数 4

回答已采纳

1回答

SSAS .分类.如何将数据分割成:训练集.验证集.测试集

ssas、classification、spss、ssas-2008、statistics

我有一套300,000记录的历史客户购买数据。我已经启动了SSAS数据挖掘项目，以确定最佳客户。数据分割：-90%的非买家-10%的买家我使用了各种SSAS (决策树和神经网络显示最佳提升)的各种算法来探索我的数据。该项目的目标是根据谁最有可能购买一种产品来识别/评分客户。目前，我已将我的所有记录用于这一目的。它觉得项目中缺少了一些东西。我现在正在读两本关于数据挖掘的书。他们两人都谈到将数据挖掘分割成不同的集合；但是，他们都没有解释如何真正地将它们分开。我相信我需要把可能的记录分割成3组，然后重新运行ssas算法。主要问题：如何将数据分成培训、验证和测试集1.1在培训集中买方

浏览 0提问于2013-09-22得票数 1

回答已采纳

1回答

SSAS测量与范围值相关的平均值

sql-server、ssas、mdx

我每周提供销售数据，每季度提供查找数据。在SSAS数据立方体中，我预先计算了每一段时间的销售数据平均值，我需要做的是从LookupTable获取相关记录，以便下一次计算，其中：LookupTable.Min < sales < LookupTable.Max。示例： Sales = 297 + 33 + 311 = 641 SalesAverage = 213.66 LookupRecordShrinkageIndicator = Min < SalesAverage < Max =0< 213.66 < 9000 = 0.007 CREATE TABLE

浏览 2提问于2013-10-17得票数 4

回答已采纳

1回答

如何使用非常小的训练、测试和验证数据集来度量模型的特异性的可靠性？

machine-learning、statistics、generalization

这里是新手。我有一个小的数据集646个样本，我已经训练了一个合理的性能模型(~99%的测试和瓦尔的准确性)。让事情变得更复杂一点的是，这些类有些不平衡。这是一个二元分类问题。这是我对训练数据的混淆矩阵。 [[387 1] [ 1 73]] 关于测试数据： [[74 1] [ 0 10]] 关于验证数据： [[85 1] [ 0 13]] 训练特异性：.986 检测特异性：.909 验证特异性：.928 我认为测试和验证的特异性很低，而训练的特异性相对较高。然而，考虑到在测试和验证数据集中只遗漏了一个样本，我的真实世界的特异性是什么？是否有更好的泛化措施？给定负样本类的大小，

浏览 0提问于2019-03-04得票数 0

1回答

有没有一种方法可以改变海箱图中表示平均值的颜色和形状？

python-3.x、matplotlib、seaborn、boxplot

一个我似乎找不到答案的简单问题。如何更改Seaborn Boxplot中平均值指示器的颜色和形状？它默认是一个绿色三角形，通常很难看到。我试图在seaborn文档和matplotlib文档中找到答案。还有一个关于stackoverflow的相关问题，其中有人询问如何更改与seaborn箱图相关的颜色，并且能够更改除平均值指示器之外的所有内容。 import numpy as np import matplotlib.pyplot as plt import seaborn as sns data = [[np.random.rand(100)] for i in range(3)]

浏览 10提问于2019-01-11得票数 15

回答已采纳

1回答

计算R中两个数据帧之间的因子数据

r、dataframe

我还没有找到一个解决方案，我认为它应该是非常简单的，但现在我不能正确地思考。我有两个数据帧，一个是月平均交通量，一个是年平均交通量。我需要将年度平均值除以每月平均值。 ano mes dias Au_TPDM Bu_TPDM CU_TPDM CAI_TPDM CAII_TPDM TOTAL 1 2012 Ene 31 4288.323 620.5161 236.7419 4635.097 139.0645 6112.258 7 2012 Feb 29 3268.862 593.0000 246.3103 5191.069 147.9655 6267.286

浏览 0提问于2018-08-17得票数 0

2回答

R dplyr:来自外部查找表的summarise_each？

r、dplyr

如何使用dplyr解决下列玩具问题以一个数据框架为例，其中每一行至少包含两个由空格分隔的虹膜物种： mySpecies <- data.frame( Species=c("lazica uniflora setosa", "virginica setosa uniflora loczyi", "versicolor virginica")) 我想在“mySpecies”中添加2列，其中每一行都包含Sepal.Length和Sepal.Width的平均值，只有在单独的查找表中可用:虹膜数据集：uniqu

浏览 2提问于2016-03-12得票数 1

回答已采纳

1回答

Gridsearchcv:内部逻辑

python、machine-learning、scikit-learn

我想了解Gridsearchcv的逻辑是如何工作的。我查看了、正式的和源代码，但我无法理解以下内容： Gridsearchcv背后的一般逻辑是什么？ Clarifications 如果我使用默认的cv = 5，那么输入数据的%拆分为:培训、验证和测试？ Gridsearchcv多久执行一次这样的分割，以及它如何决定哪些观察属于训练/验证/测试？既然交叉验证正在进行，那么在超参数调整中，平均值在哪里发挥作用呢？也就是说，最优的超参数值是对某种平均值进行优化的值吗？这个问题和我一样担心，但我不知道最新的信息是什么，我也不确定我是否理解那里的所有信息。例如，根据“任择

浏览 1提问于2020-11-26得票数 0

回答已采纳

2回答

如何计算测试集中缺失的值？

data-science、missing-data

我现在正在处理丢失的数据。我在测试和训练中丢失了数据。我对如何处理测试集中丢失的数据感到有点困惑。如果我使用" mean“方法进行计算，那么如果我想在测试集中计算丢失的值，应该使用从火车集合中计算出来的平均值还是测试集中的平均值。谢谢你对我的照顾!

浏览 2提问于2020-02-08得票数 5

回答已采纳

2回答

谁的工作实际上是处理数据库中的数据，使其成为前端的图表？

data、front-end、backend、task

我是新来的，所以请温柔点。在我的工作场所，我遇到了一些关于前端团队的问题，要求我作为后端提供所有必须显示在前端的数据。我刚从大学毕业就找到了这份工作，所以这让我有点困惑，因为我从来不处理后端REST-API中的每一点数据，以用于图表或其他琐事(比如数据的总和或平均值)。我的问题是，谁的工作实际上是处理数据库中的数据，使之类似于前面的图表？它是后端，前端，还是其他人？还是我完全把工作设计当成后台了？诚挚的问候。

浏览 0提问于2022-11-08得票数 1

回答已采纳

1回答

火花移动平均

apache-spark

我正在尝试为包含多个时间序列的数据集实现移动平均值。每一列表示要测量的一个参数，而一行包含在秒内测量的所有参数。所以一排看起来像： timestamp, parameter1, parameter2, ..., parameterN 我找到了一种使用进行类似操作的方法，但下面的问题让我很不爽：分区规范:控制哪些行将与给定行位于同一个分区中。此外，在排序和计算框架之前，用户可能希望确保对类别列具有相同值的所有行都被收集到同一台机器上。如果没有给出分区规范，那么所有数据都必须收集到一台机器中。问题是，我没有什么可以分割的。所以，我可以用这种方法来计算移动平均值，而不需要在一台机器上收集

浏览 2提问于2017-04-05得票数 0

1回答

如何找到网格邻域(x，y作为整数)对它们进行分组，并计算其值的平均值。

scala、apache-spark、neighbours

我很难找到一种方法从如下数据集中计算邻居的平均值： +------+------+---------+ | X| Y| value | +------+------+---------+ | 1| 5| 1 | | 1| 8| 1 | | 1| 6| 6 | | 2| 8| 5 | | 2| 6| 3 | +------+------+---------+ ，例如 (1，5)邻居是(1,6)，(2,6)，所以我需要找到它们所有值的平均值

浏览 2提问于2021-01-10得票数 0

回答已采纳

1回答

与分组聚合中的数据集级聚合进行比较

sql、reporting-services

背景我有一个由事件、客户和从Server 2008 R2获得的区域组成的联合表。查询很简单，我选择了相关的字段并过滤掉了不相关的数据。我得到一个ResolveTime字段作为日期(.)我有一个矩阵表，它将数据按区域分组，然后按区域分组，并按事件所有者分组。字段显示平均、计数和(这是我的问题所在)低于平均水平的百分比。在整个数据集的第二个基本表中计算相同的详细信息。如果你很困惑，这是这张桌子的截图。问题对于低于平均值的百分比，我使用的表达式如下： =Sum(iif(Fields!ResolveTimeMinutes.Value < avg(fields!ResolveTi

浏览 6提问于2012-09-19得票数 3

回答已采纳

2回答

创建一个新列，该列是数据帧中不相邻行的平均值。

我对R非常陌生。我在问卷中有多列关于不同问题回答的变量。我希望在数据框架中生成一个新列，它是一组上述变量的平均值。我已经看到rowMeans可以用于此，但这似乎只适用于相邻的列，但我想要平均的列不相邻。我还想控制一下如何处理丢失的数据。我创建示例数据时使用 Var1<- c(1.5, 2.3, NA, NA, 2.3, 3.3) Var2<- c(1.7, 2.2, 4.7, 13.3, 1.7, 1.5) Var3<- c(5.1, 6.7, 3.4, 5.5, NA, 8.7) Var4<- c(4.5, 5.4, NA, 4.5, 5.4, 8.9) 这给 V

浏览 0提问于2019-02-02得票数 1

回答已采纳

1回答

不变化变量的Logistic回归

linear-regression、logistic-regression、feature-extraction、feature-selection、categorical-data

关于常数变量和logistic回归的几个问题- 假设我有一个连续变量，但在整个数据集中只有一个值。我知道我应该消除这个变量，因为它不会带来任何预测值。不是手动对每个特性这样做，Logistic回归是否自动使这些变量的系数为0？如果我在L1正则化的Logistic回归中使用这样的变量(只有一个值)，那么正则化会强制系数达到0吗？类似地，如果我有一个分类变量，其中我有3个级别--第一级的范围是数据集的60%，第二层的跨度是35%，第三层的范围是5%)，我把它分成训练和测试，很有可能第三级可能不会在测试集中结束，从而导致我们有一个变量在测试集中有一个值，而在训练集中有另一个值。我如何

浏览 0提问于2016-03-14得票数 0

3回答

如何处理线性回归的数据集？

linear-regression、data-science-model

我是数据科学专业的新手，目前正在从事一个数据科学项目，我必须回答一些关于以下18k数据点的数据集的问题：https://www.kaggle.com/karangadiya/fifa19 我必须回答的问题如下:你能在多大程度上使用玩家最重要的特征来确定球员的价值？本例中的特性是从“交叉”到“GKReflexes”的列。我将所有球员分组如下: Att = “CF”、“LF”、“RS”、“LS”、“RS”、“RW”、“LW”、“CF”、“ST” #进攻位置中间= “LM”、“CAM”、“RAM”、“LM”、“LCM”、“CM”、“RCM”、“RM”、“LDM”、“CDM”、“RDM” #中场位置

浏览 0提问于2019-05-21得票数 0

1回答

在SAS中创建一个包含3组平均值的变量

sas

我有一个关于创建一个变量的问题，这个变量包含被3组折叠的另一个变量的平均值。我的数据集有一系列关于员工的观察，包括他们的教育水平(假设它是一个分类变量，值为1、2和3，分别表示高中辍学、高中毕业和大学毕业)、他们的工资、观察的年份以及他们工作的公司(数字ID)。每个工人都可以在多家公司工作多年。我想要一个变量，该变量包含每个工人在给定年份中同一公司相同教育水平的工人的平均工资。因此，我需要将数据集折叠为3个组(year education firmID)，但我不确定如何做到这一点。很抱歉我没有包含任何代码，我不确定它在这里会有什么帮助。数据集也是巨大的，所以代码越高效越好。提前谢谢你！

浏览 2提问于2016-09-16得票数 0

1回答

在多对多关系实现中避免hibernate和数据库

java、database、hibernate、many-to-many

我需要建立一个小程序，将能够处理学生和课程的数据，他们已经注册。功能并不是那么复杂，我希望能够得到课程的平均值和中位数，学生的平均值等等。所以我读了很多关于hibernate和数据库的书，但我没有经验(为了记录，我显然不介意打开在线上的10亿个toturials中的一个，并自己学习，我只需要在周末之前完成这个项目)。因此，我想知道是否有任何有效的方法来构建这样的程序只使用java类？我的意思是，我如何在没有数据库的情况下以智能的方式处理多对多关系？

浏览 0提问于2014-02-18得票数 0

1回答

关于列车测试时间序列分割的问题

python

在Time Series tasks中，我遇到了一个关于将数据拆分成训练和测试集的问题。我知道数据不能被混洗，因为保持数据的时间性很重要，所以我们不能创建能够展望未来的场景。然而，当我打乱数据(用于实验)时，我得到了一个离谱的高R平方分数。是的，R平方是用测试集评估的。有人能简单地解释一下为什么会这样吗？为什么在时间序列中混洗训练和测试数据会产生高R平方分数？我的猜测是，这与时间序列的趋势有关，但我不确定。我只是好奇地问一下，谢谢！

浏览 0提问于2020-05-31得票数 0

3回答

PyTorch:如何在转移学习教程中计算这些手段和性病？

python、pytorch

我正在阅读PyTorch转移学习教程，网址是：在数据增强阶段，有以下步骤对图像进行规范化： transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) 我能理解它为什么要这么做，但是我找不到平均值和std值是如何计算出来的？我试图计算火车数据集的平均值，平均值是： array([ 0.11727478, 0.04542569, -0.28624609], dtype=float32)

浏览 1提问于2018-02-16得票数 5

回答已采纳

1回答

随机森林分类算法的训练类型与测试误差(评估方差)

python、machine-learning、random-forest、supervised-learning

我有两个问题，如果可能的话，我想确定(问题加粗)：我最近已经理解(我希望)随机森林分类算法，并尝试使用Python上的sklearn在从卫星图像派生的相当大的像素数据集(特征是不同的波段，标签是我自己概述的特定特征，即植被、云等)上应用它。然后，我想了解模型是否遇到了方差问题，所以我首先想到的是比较训练和测试数据。这就是让我感到困惑的地方--据我所知，有许多不同的帖子是关于： How CV误差与OOB误差相比，随机森林分类器的训练误差几乎总是0(即根据训练数据拟合我的模型并用它对同一组训练数据进行预测)--不管树深是怎样的。关于第2点，我似乎永远无法比较我的训练和测试错误，因为前者总是很

浏览 8提问于2022-01-24得票数 0

1回答

根据在不同列中测试的条件创建带有组标签的新列

java、apache-spark、apache-spark-sql、conditional、grouping

我希望根据在另一列中测试的条件创建组标签。特别是，如果有directionChange.equalTo(1)的值，我希望启动一个新的段(标签)。应该得到的结果在列segmentNr中给出，我的代码生成的结果在nSegment中。我认为这样做是不可能的。最后，我想计算不同的方面，例如每段值的和、平均值、最大值(不在问题的范围内)。输入示例： +---+-----+---------------+---------+--------+ | id|value|directionChange|segmentNr|nSegment| +---+-----+---------------+-------

浏览 0提问于2018-05-14得票数 1

回答已采纳

1回答

使用ImageDataGenerator时不理解规范化

tensorflow、keras

我试图用Tensorflow作为后端的Keras构建一个简单的图像分类器。然而，我很难理解在Keras中是如何实现名词化的。据我理解，在机器学习中，计算训练+验证集的均值和std，然后在标准化测试集和对新数据进行预测时重用平均值和std。因此，考虑到这一点，我将解释我在Keras的每个部分不理解的地方。 train_datagen = ImageDataGenerator(rescale=1./255, samplewise_center=True, samplewise_std_normalization=True, shear_range=0.2, zoom_range=0.2) tes

浏览 0提问于2018-03-03得票数 2

1回答

归一化数据曲线拟合的去正则化结果

matlab、normalization、curve-fitting、denormalization

我在Matlab中用lsqvurcefit拟合指数衰减函数。要做到这一点，我首先我的数据，因为它们不同的几个数量级。然而，我不知道如何去修饰我的合适参数。我的拟合模型是s = O + A * exp(-t/T)，其中t和s是已知的，t是10^-3的数量级，s是10^5的阶，所以我从它们的平均值中减去它们的平均值，用它们的标准差除以它们。我的目标是找到最佳的A，O和T，在给定的时间t将得到最接近s的结果。然而，我不知道如何去修饰我得到的at和T。有人知道怎么做吗？我只发现了关于正常化的问题，但并没有真正解决同样的问题。

浏览 1提问于2013-11-06得票数 2

回答已采纳

1回答

使用测试集的非目标值来为火车组设计新功能是正确的吗？

machine-learning、dataset、feature-engineering、preprocessing

假设我有一个具有feature_1值和目标值的数据集。现在，我想通过从每个值中减去平均值来创建相对值来设计一个新的特性。问题:我是否可以(1)使用测试集的feature_1值来计算平均值，或者(2)我应该只使用训练集的值？如果(1)是正确的，我可以通过计算所有数据集的feature_1平均值来对测试集和训练集使用相同的平均值。我不确定这是否合法，因为这里我们使用的信息来自火车组的测试集。另一方面，我们不使用目标值，所以它可能是可以的。如果(2)是正确的，那么，我想，我们不能用测试来计算训练集的平均值，但是我们可以用训练集feature_1值来计算测试集的平均值。但训练和测试集的均值可能不

浏览 0提问于2018-10-30得票数 0

回答已采纳

1回答

卡夫卡流“地图侧”连接，如字典查找

apache-kafka、apache-kafka-streams

这个问题是的后续问题。我需要将小字典数据加入到主要的Kafka流中(就像“地图端”连接一样)。 AFAIK，Kafka实例总是在主题的给定分区上工作。如果我想进行查找，我需要为连接键重新划分这两个流，以便将相关记录放在一起。如果需要检查多个查找数据，多次重新分区的成本是多少？不可能将整个查找数据集发送到每个分区，因此当我从查找主题构建KTable时，我将在所有Kafka应用程序实例中看到整个数据集。因此，我可以在KStream#transform()方法中进行查找，这将使用本地RocksDB存储区和我拥有的所有查找数据。我想知道哪一种选择更合适：向主题的每个分区插入相同的数据(整个数

浏览 1提问于2016-09-21得票数 4

回答已采纳

3回答

如何计算4D图像数据的平均值和最大值？

matlab、multidimensional-array、max、mean

我有一些4D图像数据，384x276x20x5，其中data(X,Y,T,V)，X = x location，Y = y location，T = time，V = vessel location。我希望数据有一个随时间变化的平均值和最大值，以获得信号的模式，从而设置阈值。我在循环中这样做，这样我就可以得到，例如data(1,1,:,1)，该点随时间的平均值。我尝试了mean(data(X,Y,:,V))和mean(squeeze(data(X,Y,:,V)))，但它给我的错误是“下标索引必须是实数正整数或逻辑数”。我到处寻找，但平均值的例子只针对2D和1D。我估计，如果我想要得到数据随

浏览 1提问于2011-07-22得票数 1

1回答

多组计算均值

sas、mean

假设数据集如下： id date var1 001 20170101 1 001 20170101 2 001 20170101 3 001 20170102 1 001 20170102 2 002 20170101 1 002 20170101 2 002 20170102 1 002 20170102 2 通过下面的代码计算每个日期中每个id的平均值。 proc summary data=HAVE nway; class id date; var var1 ; output

浏览 4提问于2017-11-22得票数 0

回答已采纳

1回答

交叉验证过程

matlab、neural-network

我正在研究一种声音变形系统。我有源语音信号(分为测试、训练和验证)和目标语音信号(分为测试、训练和验证数据)。现在我正在设计一个具有三重交叉验证的径向基神经网络来寻找变形的语音小波系数。我需要用源和目标训练数据初始化网络，并使用训练和验证样本执行3折交叉验证。我认为根据交叉验证，我需要将我的数据集划分为3个部分，然后使用其中的2个用于训练，另一个用于测试。(对所有折叠重复此过程)。现在的问题是，我想知道我是否需要将我的源训练数据分成3部分或目标训练...？？因此，我需要知道如何应用交叉验证？有没有人能为我详细解释一下这个过程？

浏览 0提问于2012-02-23得票数 2

回答已采纳

1回答

在H2O中对新数据使用标准化时

modeling、h2o、standardized

我很好奇，当在R中使用H2O模型中的标准化功能时，它在计算新数据时是如何工作的。我知道当它对训练集进行标准化时，它会根据训练数据的平均值和标准差将平均值设置为0，标准差设置为1，但是它对新数据做了什么？它是基于训练数据的均值和标准差进行标准化，还是基于新的评分数据进行标准化？

浏览 10提问于2017-08-15得票数 2

1回答

如何在Excel中用T检验确定统计意义？

statistics、excel-2007

我有两组数据集，A和B。我想知道A的平均值与B的平均值有很大的不同。如何在Excel 2007中做到这一点？ (我知道excel中有一个TTEST公式，我也知道我不需要使用它的配对版本，我还需要设置哪些其他参数，以及如何对结果进行干预？) 谢谢, 琼恩

浏览 5提问于2010-07-24得票数 3

1回答

Matlab:每日3d数组到每月-处理一个月中的交替天和闰年-怎么做？

arrays、matlab、matrix

在matlab中，我有一个720x360x365的矩阵(让我们称它为A)，这个矩阵是一年的日降水量。365代表一年中的几天。我需要写一个代码来转换这些每日数据到每月的总和。如果我从1月份开始，我需要做前31天的平均值(A,3)，然后是2月份的平均值(A,3)，然后是接下来的28或29天。因为日期在31和30之间交替(2月是28或29 )，我不知道如何编写代码来做到这一点。请帮帮我，我不知道该怎么做。谢谢

浏览 13提问于2019-10-26得票数 0

回答已采纳

1回答

在R中使用vtreat包进行交叉验证

r、cross-validation

目前，通过一个关于DataCamp的课程学习交叉验证。他们从创建一个n倍交叉验证计划开始这个过程。这是通过vtreat包中的kWayCrossValidation()函数完成的。他们这样称呼它： splitPlan <- kWayCrossValidation(nRows, nSplits, dframe, y) 然后，他们建议按如下方式运行一个for循环： dframe$pred.cv <- 0 # k is the number of folds # splitPlan is the cross validation plan for(i in 1:k) { # Ge

浏览 2提问于2022-02-20得票数 1

2回答

cross_val_score、cross_val_predict和cross_val_validate是如何处理培训、测试和验证的？

python、scikit-learn

根据我的理解，cross_val_score, cross_val_predict, and cross_val_validate可以使用K-fold validation。这意味着训练集部分作为训练集和测试集被迭代地使用。但是，我还没有看到任何关于如何处理验证的信息。数据似乎没有分成三组--培训、验证和测试集。cross_val_score、cross_val_predict和cross_val_validate是如何处理培训、验证和测试的？

浏览 2提问于2019-04-21得票数 0

回答已采纳