如何折叠一个数据集来获得新数据集中的增量实例？_基于另一个数据集中的值创建新数据集pandas_我如何在我的数据集中找到每个折叠的实例数量？ - 腾讯云开发者社区

python、dataset、sampling、distribution、multivariate-distribution

假设我有上一段时间的数据集。现在出现了新的数据，对于数据中的一个给定变量，我们发现分布发生了变化(例如，随着“年龄”的增加，突然就没有那么多老年人了，等等)。我如何从旧的数据集中抽取一个关于移位变量的样本，以便分布能够模仿新的数据分布？

浏览 0提问于2020-05-22得票数 1

1回答

Scikit学习中的分层标记K-折叠交叉验证

python、pandas、machine-learning、scikit-learn、cross-validation

我试图将数据集的实例分类为两个类中的一个，a或b.b是少数类，仅占数据集的8%。所有实例都被分配一个id，该id指示生成数据的主体。因为每个主题生成的多个实例id在数据集中经常重复。下面的表格只是一个例子，真正的表有大约100000个实例。每个subject id在表中大约有100个实例。每一门课程都与一门课紧密相连，正如你在下面的“拉里”中看到的那样。 * field * field * id * class ******************************************* 0 * _ * _ * bob *

浏览 2提问于2016-09-03得票数 5

回答已采纳

1回答

如何从交叉验证的数据创建学习曲线？

validation、machine-learning、artificial-intelligence、neural-network、cross-validation

我有一个算法，使用10倍交叉验证。在训练集中，我使用其中一个折叠来验证训练模型，然后再使用折叠上的学习模型进行测试。我想创建一个学习曲线，这意味着我需要改变训练集的大小。这是否意味着我也会随着培训数据而改变验证集的大小？这是否意味着我也需要改变测试集的大小(除了训练和验证折叠之外)？

浏览 1提问于2015-04-15得票数 1

回答已采纳

1回答

EF核心选择有条件的对象

c#、.net、entity-framework、entity-framework-core

不能谈一件事。我将非常感谢你的帮助。因此，问题是:我有一个具有输入a和b的Foos对象列表，这些对象必须满足两个条件，例如 db.Foos.Where(foo => foo.a == a && foo.b == b).ToList() 我需要计算Foos列表上的Delta(foo)，并从该增量最小的列表中选择对象。 Delta示例： foo => (a*2 + b) - (foo.a + foo.b) 实际上是一个问题，我如何选择这个对象？

浏览 7提问于2022-04-22得票数 2

回答已采纳

2回答

交叉验证中的平衡类

machine-learning、cross-validation、h2o、gbm、imbalanced-data

我想用H2O建立一个基本的模型。我的数据集是不平衡的，所以我使用balance_classes参数。对于网格搜索(参数调整)，我想使用5折交叉验证。我想知道在这种情况下H2O是如何处理类平衡的。只有训练折叠会被重新平衡吗？我希望确保测试折叠不会重新平衡。

浏览 6提问于2018-02-15得票数 2

1回答

增量附加到文件

hive、hdfs、increment、sqoop

我在MySQL中有表，我想使用sqoop导入数据。我导入了数据并以file的形式存储在file中。现在，我想在hdfs中对这个文件运行增量更新。假设MYSQL表中有100行。HDFS中的文件包含前50行的数据。如何增量更新此文件。 I am talking about files not Hive tables。我希望增量数据作为单独的文件，而不是合并的文件。例如，第一个部件文件包含50个记录，然后我需要一个包含接下来50个记录的部件文件。我的意思是，我们可以对文件进行增量更新吗？

浏览 3提问于2017-03-17得票数 0

回答已采纳

1回答

SQOOP增量导入

hive、hdfs、sqoop

我试图理解SQOOP- -使用"LastModified“选项的增量导入。由于HDFS并不意味着文件更新，这是如何在内部处理的？是通过创建一个单独的文件并将原始文件指向这个新文件吗？如果附加-创建一个新的文件与新的记录？？可能是？？但是上次修改标志是如何更新HDFS数据的.这背后的逻辑？

浏览 1提问于2016-09-11得票数 3

1回答

神经网络最小分批梯度下降

machine-learning、neural-network、gradient-descent

我用的是多层神经网络。我打算做小批量梯度下降。假设我有100多万个数据点的小型批次。我不明白为什么我要更新整个网络的权重。当我向前通过这100个样本时，我把这100个样本上的所有误差加在一起。除了这个我还能做什么？我是否也必须并行计算隐藏的层错误？什么时候计算？

浏览 1提问于2014-08-16得票数 4

回答已采纳

1回答

平板细胞的SSRS半加性函数

reporting-services、ssrs-2008、ssrs-tablix

我必须生成一个报告，其中行值应该在折叠时进行汇总(摘要数据)，但是列值不应该在折叠时进行汇总，而应该显示最后一个值。这是一个样本报告全扩展报表 -2012 Jan Feb Mar -India Chennai 10 8 9 Bangalore 15 15 16 行折叠 -2012 Jan

浏览 0提问于2012-06-18得票数 0

1回答

如何将用户-主题网络图折叠为用户-用户图？

javascript、d3.js、graph-theory、force-layout

我有一个d3力有向图，它显示了用户与主题的关系。我想把它折叠成一个用户-用户图。我的节点数据如下所示： [{ "id": "USER", "type": "u", }, { "id": "USER", "type": "u", }, { "id": "USER", "type": "u", }, { "id": "TO

浏览 0提问于2016-01-27得票数 0

6回答

帮助理解交叉验证和决策树

algorithm、machine-learning、decision-tree

我一直在阅读决策树和交叉验证，我理解这两个概念。但是，我很难理解交叉验证，因为它涉及决策树。基本上，交叉验证允许您在数据集相对较小时在培训和测试之间进行交替，以最大限度地提高您的错误估计。一个非常简单的算法是这样的：决定了您想要的折叠数(k) 将数据集细分为k折叠、，使用k-1折叠进行训练集来构建树。使用测试集来估计树中错误的统计信息。将您的结果保存到以后的中，为k次重复步骤3-6，为您的测试集省去了一个不同的折叠。在您的迭代中平均错误，以预测总体错误我不知道的问题是，在最后你会有k个决策树，因为它们可能不会以相同的方式分裂，所以它们都可能略有不同。你选择哪棵树？我的一个想法是选择误差最小

浏览 0提问于2010-02-22得票数 37

回答已采纳

2回答

为什么需要k倍交叉验证？

machine-learning、cross-validation

我使用k-折叠交叉验证，但不明白它的目的。在分割训练和测试数据集中的数据集之前，通常会对数据集的条目进行随机化。给定训练数据集，进行k次交叉验证，目的是预先估计模型的性能。在随机化的情况下，在交叉验证的循环中，不太可能出现从一次运行到下一次的戏剧性变化。最多可以观察到一些正常的波动。考虑到交叉验证内部的性能，交叉验证回答了哪些问题？假设表现不佳，是否意味着我们应该放弃训练模式？如果整个模型的训练时间或其他资源都很昂贵，我就能理解k折叠交叉验证的目的。在这种情况下，将训练集分割到进行验证的k个子集中，可能会为模型的性能提供预测。考虑到即使在大数据上，对整个训练集进行模型拟合是以可接受的时间复

浏览 0提问于2022-03-05得票数 10

1回答

将数据从多个工作表复制到SQL表时重复

sql、excel、talend

我必须将数据从多个excel工作表复制到单个SQL表中。 Excel输入:Sheet2 1的列: fname a，b.lname c，d. (2行)Sheet2 2的列:市波士顿，奥斯汀，马州，德克萨斯州。(2行) 我的输出(tMSSqlOutpout)有4行，而不是2.a、c、d、b、d。期望输出:a、c波士顿ma、b d奥斯汀tx。(仅2行) 我该怎么处理这个？

浏览 1提问于2014-06-13得票数 0

回答已采纳

2回答

交叉验证-为什么更多的折叠增加变化？

scikit-learn、cross-validation

有人能解释为什么增加交叉验证中的折叠数会增加每个折叠中分数的变化(或标准差)吗？我已经记录了下面的数据。我正在研究泰坦尼克号的数据集，大约有800个实例。我使用的是StratifiedKFold和准确性评分标准。我认为增加更多的数据会减少方差-如果我的理解是正确的，增加更多的折叠会增加提供给每一次匹配的数据量？但是，似乎越多的折叠和越少的数据在较低的标准偏差(但平均精度对每个CV保持在相同的)。 {5: {'Mean': 0.8136965664427847, 'Std': 0.015594305964595902}, 15: {'Mean'

浏览 0提问于2020-02-23得票数 4

回答已采纳

2回答

为什么模型在标准化测试数据和训练数据时表现得更好？

machine-learning、neural-network、supervised-learning、normalization

许多线程(和课程)，如这和这一个，建议您应该使用训练集中使用的参数对测试数据应用规范化。但是，我发现了一些讨论，比如这一个和这一个，它们表明对测试集应用规范化并不是真正必要的，它可能取决于许多因素，例如用于培训的模型或测试数据的性质。现在，就我个人而言，我也更倾向于对测试数据应用规范化。但问题是:我正在研究一个神经网络模型，其中：如果我使用推荐的方法进行规范化，我的准确率为79% (老实说，这对我来说并不有趣) 如果以另一种方式将规范化应用于培训和测试，我将获得85% (有时甚至更多)的好结果，以及我努力做好下一步工作的进一步步骤。所以，如果我使用第二种方法，我不知道我的神经网络在测试看

浏览 0提问于2019-09-03得票数 5

回答已采纳

1回答

如何在Azure数据工厂内不同客户数量的不同环境中使用相同的管道？

azure、etl、azure-data-factory、azure-data-factory-2

我有一个复制数据管道在Azure数据工厂。我需要在多个环境中部署相同的Data实例，比如DEV，QA，PROD，使用发布管道。管道将数据从客户存储帐户(Blob容器)传输到集中式数据湖。所以，我们可以说-这是一种多到一的流动。(许多客户>一个数据湖) 现在，假设我在DEV环境中&我在那里有一个演示客户。我已经为复制数据定义了ADF管道。但在prod环境下，客户数量将增加。因此，我不想在生产数据工厂中创建同一管道的多个副本。我正在寻找一个解决方案，这样我就可以在Data中保留一个复制管道，并将同一个Data从一个环境部署到另一个环境。而且，即使客户的数量各不相同，这也是可行的。

浏览 3提问于2020-08-27得票数 1

3回答

处理增量数据- Hadoop

hadoop、architecture、hive、hbase、hadoop2

我们在集群中有5年的数据，我们每天都在加载数据。每天添加的数据可能包含重复数据、部分修改的数据等等。 1.如何处理重复的数据-应该作为高级编程接口的一部分来处理--猪、蜂巢等等。或者任何其他的选择。如果有一个usecase来找出两个记录之间的变化，给出查找行的键。什么是最好的数据建模方法，使用哪种hadoop系统组件。

浏览 2提问于2015-10-30得票数 0

2回答

如何从k-折叠交叉验证中的每一个折叠中学习？

machine-learning、cross-validation、k-fold

当执行k-折叠交叉验证时，对于每一个折叠，我们都有一个不同的验证集和一个略有变化的学习集。说你从第一次到第二次。υοu是如何从第二个折叠迭代中继承的第一个折叠中学到的？目前看来，你只计算精度，所学习的模型被丢弃，永远不会被保留。我遗漏了什么？如果保留这样的模式呢？它是如何保留的，DQN和KNN的方法是否不同？

浏览 1提问于2020-06-05得票数 1

回答已采纳

1回答

向Eclipse页边距添加自定义标记图标？

java、eclipse、eclipse-plugin

如何添加自定义标记图标(类似于Eclipse已用于错误、警告、代码折叠等的图标)添加到Eclipse插件中现有源代码编辑器的边缘？我曾以为会有很多关于这方面的样本，但似乎找不到任何(或任何类似的Stackoverflow问题)。我的目标是创建一个Eclipse插件，在许多源语言中提供上下文标记。

浏览 1提问于2013-08-27得票数 0

1回答

他们所说的课堂增量学习到底是什么意思？

machine-learning、deep-learning

我在战争中读课堂增量学习:图像分类的调查与绩效评价。我不明白我们最后会期望甚麽制度。是1或2。 1. 训练一个模型来预测输入是属于A类还是B类:模型1训练模型1来预测输入是属于C类还是D类:模型2 或 2. 训练一个模型来预测输入是属于A类还是B类:模型1训练模型1来预测输入是否属于A、B、C或D类:模型2 当人们提到课堂增量学习时，会考虑哪一种。请提醒我，如果“数据科学”是更好的地方问这个问题。

浏览 0提问于2022-01-19得票数 0

1回答

初始化神经网络模型kfold

python、model、neural-network、training-data

我在k折叠开始之前初始化了网络模型。这是否意味着模型对第一个折叠进行训练，而这个具有训练权重的模型被用于第二个折叠，依此类推？如果最后一个折叠不好，整个模型都不好怎么办？

浏览 22提问于2019-11-14得票数 0

回答已采纳

1回答

什么是正确的方式使用标准化/标准化结合K-折叠交叉验证？

python、normalization、cross-validation、k-fold、standardization

我一直都知道，标准化或规范化只适用于训练集，然后用于转换测试集。所以我要做的是： scaler = StandardScaler() scaler.fit_transform(X_train) scaler.transform(X_test) 现在，如果我要在新数据上使用这个模型，我只需保存“scaler”并将其加载到任何新脚本中。我有困难，虽然理解这是如何为K折叠简历。这是最好的做法是重新调整和改变每一个折叠的定标器？我可以理解这在构建模型时是如何工作的，但是如果以后我想使用这个模型，该怎么办呢？我应该存哪个定价器？此外，我想将其扩展到时间序列数据。我明白k-折叠是如何为时间序列工作的，

浏览 5提问于2020-10-15得票数 2

回答已采纳

1回答

从多个HashMap对象创建SortedSet的最佳方法

java、sorting、collections、hashmap、sortedset

我有许多包含数百个Comparable对象(比如MyClass类型)的HashMap数据结构，需要将所有的值(而不是键)放入一个数据结构中，然后对其进行排序。由于MyClass对象的数量和到达速率，此过程(每毫秒至少执行一次)需要尽可能高效。一种方法是使用SortedSet，大致如下： HashMap<String, MyClass>[] allMaps = ... // All the HashMaps SortedSet<MyClass> set = new TreeSet<MyClass>(); Collection<MyClass>

浏览 0提问于2012-05-14得票数 3

回答已采纳

1回答

K-折叠和随机次抽样(RSS)数据集生成？

machine-learning、dataset、cross-validation

假设我有一个包含300k个实例的大数据集，并且有200个特性，那么我想缩小它的大小。我是否可以将K折叠技术应用于200个特性，然后用RSS应用修整的数据集来修剪实例？这就像K折叠来减少特征，RSS来减少实例，然后我得到一个小规模的数据集，它的特征数量较少，并且随机化了较小的实例。这能办到吗？

浏览 0提问于2019-05-25得票数 0

回答已采纳

2回答

对一致的火车测试集进行散列是什么意思？

python、machine-learning、hash

我完全是机器学习的新手，目前试图理解book.The中的动作背后的含义，作者将测试和训练集分开，但是每次我们运行程序时，他都想解决新测试集的问题。一个常见的解决方案是使用每个实例的标识符来决定是否应该进入测试集中(假设实例具有唯一和不变的标识符)。例如，您可以计算每个实例的标识符的散列，只保留哈希的最后一个字节，如果该值低于或等于51 (256的20%)，则将实例放在测试集中。这可以确保测试集在多个运行期间保持一致，即使刷新数据集也是如此。新的测试集将包含20%的新实例，但它将不包含以前在培训集中的任何实例。以下是一个可能的实现：整个扩张过程让我感到困惑。我不明白为什么我们甚至在第一个p

浏览 0提问于2019-10-31得票数 3

2回答

Kotlin公司()运算符重载

kotlin

我有一个小问题要过载inc()操作符，精确地做一个后缀和前缀之一。这里我的数据类 data class Person(val firstName: String, val name: String, var age: Int) { operator fun inc(): Person { val tmp = this this.age++; return tmp } } 这样，返回前就会发生年龄变化，所以它只适用于前缀版本。如何完成inc()操作符的后缀版本？

浏览 4提问于2022-05-04得票数 1

回答已采纳

1回答

使用sqoop将数据从RDMS导入hadoop时，如何处理重复记录？

hive、sqoop

假设我们使用sqoop中的增量导入将数据从RDMS导入Hadoop，而我们之前在hadoop中导入的一些数据在RDMS中得到了更新，当我们再次使用sqoop增量导入时，我们也获得了Hadoop中已经存在的最近更新的数据，这会导致数据重复，那么在这种情况下使用sqoop导入数据时，我们如何避免数据重复呢？

浏览 1提问于2019-01-23得票数 0

1回答

EDMX从webservice迁移到本地访问

c#、wcf、client-server、sql-server-ce、edmx

现在，我有以下架构： WPF客户端应用程序显示一些数据包含对数据库的访问的自托管服务(如所述的所述的自托管服务) 服务使用edmx文件来描述数据库(并生成数据库) 客户端通过wcf访问主机。生成一个用于客户端的代理(使用运行主机的SvcUtil ) 由于新的需求，数据库现在在每台机器上都是本地的。自我托管的服务需要运行elevated rights，但并不是我的应用程序的每个可能的用户都具有这些权限。是否可以创建(至多是生成)在客户端上下文中运行的程序集来访问数据库？(例如dll，所以我不需要主机)。还有更好的可能性吗？任何关于为从EDMX创建本地访问程

浏览 1提问于2013-04-16得票数 0

回答已采纳

3回答

在交叉验证中使用早期停止的正确方法是什么？

xgboost、cross-validation、lightgbm、early-stopping

我不知道什么是正确的方式，使用早期停止与交叉验证梯度增强算法。对于简单的训练/有效分割，我们可以使用有效的数据集作为早期停止的评估数据集，在重新修改时使用最佳的迭代次数。但是，如果交叉验证类似k-折叠，我的直觉是使用每个折叠的每个有效集合作为早期停止的评估数据集，但这意味着最佳的迭代次数将因折叠而异。那么，在重新设计时，我们使用什么作为最后的最佳迭代次数？什么刻薄？谢谢！

浏览 0提问于2020-05-17得票数 17

2回答

不平衡数据集的交叉验证模式

classification、cross-validation、class-imbalance、imbalanced-learn

基于以前的帖子，我理解在使用不平衡数据集训练二进制分类模型时，需要确保CV过程中的验证折叠具有与原始数据集相同的不平衡分布。我的问题是关于最好的训练模式。假设我有一个包含500万个样本的不平衡数据集，其中90%是pos类，10%是neg类，我将使用5倍的CV进行模型调优。另外，让我们假设我将提供一个随机的100 K样本进行测试(90K样本w/ pos类与10K样本w/ neg类)。现在我有两个选择：选项1) 步骤1:随机抽取200 K不平衡的训练数据(180 K样本pos类与20K样本neg类) 步骤2:在每个CV迭代期间：训练区将有160 K样本(144 K pos vs 16 K n

浏览 0提问于2020-06-16得票数 1

1回答

交叉验证澄清

machine-learning、cross-validation

我在理解如何实现交叉验证方面遇到了一些困难。在我的例子中，我试图将它应用到LVQ系统中。这就是我目前所理解的..。可以为LVQ调整的参数之一是为每个类建模的原型数量。为了找到最佳的原型数量，必须对训练数据进行模型训练，然后对未见数据进行测试并计算其性能。但是，根据用于培训和验证的数据点，性能结果将有所不同。因此，交叉验证可以用来获得性能的平均值。您可以对不同数量的原型重复此操作，并查看哪个数量获得最佳平均值。一旦完成了，接下来你会做什么？您是在整个训练集上生成一个新的模型，对应于获得最佳效果的原型数量，还是使用与交叉验证中获得最高精度的折叠对应的模型？

浏览 1提问于2015-12-30得票数 1

回答已采纳

1回答

AWS Quicksight自动刷新可视化

amazon-web-services、refresh、visualization、amazon-quicksight、athena

我知道..。我在Google上发现过几次这个问题，但是它们可能已经过时了，因为AWS不断地在Quicksight上发布更新。我已经将雅典娜链接到基于SQL的Quicksight数据集。当我的dynamoDB中有新的数据时，我想在Quicksight中看到它几乎是实时的。发电机可以按需更新，也可以按计划更新。到目前为止，我必须单击相应的视觉的“刷新”的Analysis来刷新它。可以自动刷新它吗？我是说..。如果我使用PowerBI，Tableau或其他任何东西，它会自动更新视觉效果.至少如果我点击页面的刷新按钮。

浏览 1提问于2021-12-20得票数 0

1回答

Weka中使用预定义折叠的交叉验证

machine-learning、weka、cross-validation

我想使用Weka在一个已经被划分为10个折叠的数据集上运行一个10折交叉验证训练/测试实验(即每个实例已经分配到一个折叠)。我知道如果你给Weka一个完整的数据集，它可以为你创建折叠并运行10折CV，但是除了手动将数据集拆分为10个训练/测试集并独立运行10个实验之外，是否有方法告诉它哪些实例应该属于哪个文件夹？谢谢

浏览 2提问于2014-04-01得票数 3

1回答

如何使用Pyml得到的分类器

python、dataset、svm、libsvm、pyml

我是Python中的PyML的新用户。使用，我做了以下事情： from PyML import * data = SparseDataSet("heart") s = SVM() s.train(data) r = s.cv(data,5) 我得到了结果集r，但是我不知道如何使用这个结果集来对一个全新的实例进行分类。有没有更有经验的人能帮我？任何建议都将不胜感激。谢谢。

浏览 2提问于2011-04-28得票数 3

回答已采纳

1回答

在计算散列之后，保持散列的最后一个字节的意义是什么？

python-3.x、hash、machine-learning、hashcode

Problem: To generate Test and train to improve on Generalization error.可能的解决方案: 1.将实例分为训练80%和测试20%，在训练集上训练你的模型，在测试集上进行测试。但是，重复上述操作会让模型像在多个时间中一样填充数据，splits将选择第一次选择的测试集实例到列车集中(随机抽样)。当我们获取更新的数据集时，上述方法可能会失败。另一种方法是选择每个实例的最稳定的特性/s(组合可以是)来创建唯一的、不变的标识符，即使在dataset updates.After选择一个标识符之后，该标识符仍将保持健壮，我们可以计算每个实

浏览 1提问于2017-05-17得票数 2

6回答

Weka中的交叉验证

validation、weka、fold

从我所读到的情况来看，我一直认为交叉验证是这样执行的：在k次交叉验证中，将原始样本随机分成k个子样本.在k个子样本中，保留一个子样本作为模型测试的验证数据，其余的k−1子样本作为训练数据。然后交叉验证过程被重复k次(褶皱)，每个k个子样本精确地使用一次作为验证数据。从褶皱中得到的k值可以被平均(或以其他方式组合)来产生一个单一的估计。因此，建立了k个模型，最后一个模型是这些模型的平均值。在Weka中，指南写道，每个模型总是使用所有的数据集来构建的。那么Weka中的交叉验证是如何工作的呢？模型是根据所有数据建立的，而“交叉验证”是否意味着创建k折叠，然后对每个折叠进行评估，最终的输出结果就

浏览 8提问于2012-05-03得票数 29

回答已采纳

1回答

微策略智能立方体中数据库的修改

report、cube、microstrategy

如何在微策略中改变已经创建的智能立方体的数据库？我有一个立方体，它从生产中的表中获取数据。我们在其他数据库中也有相同的表。是否可以修改多维数据集以使用新的数据库？

浏览 3提问于2015-01-29得票数 0

回答已采纳

1回答

WEKA如何评估星系团？

machine-learning、cluster-analysis、weka、data-mining

嗨，在链接中找到了这个解释：使用培训集(默认)。生成聚类后的Weka 将训练实例分类为按集群表示并计算实例的百分比。在每个星系团中坠落。在所提供的测试集或百分比split中可以评估如果聚类表示是概率的(例如，对于EM)，则对单独的测试数据进行聚类。类到集群评估。在这种模式下，Weka首先会忽略类属性并生成集群。然后在它根据每个集群中类属性的大多数值将类分配给集群的测试阶段。在此基础上计算分类误差，并给出相应的混淆矩阵。一个例子对于k-均值，如下所示。但是，我不清楚WEKA是如何对集群中的一个新实例进行分类的，以及它如何度量是否应该将该实例分类到该集群中。

浏览 0提问于2018-11-29得票数 1

1回答

交叉验证:重复K折叠/组K折叠

cross-validation

重复K-折叠vs组K-折叠根据我从sklearn文档中的理解重复K-折叠： RepeatedKFold重复K倍n次.当您需要运行KFold n次时，可以使用它，在每次重复中产生不同的分裂。重复分层K折叠交叉验证器：重复分层K折叠n次，每次重复具有不同的随机性. 组K-折叠： GroupKFold是k-折叠的一个变体，它确保同一组在测试和训练集中都没有表示。谁能详细解释一下，什么时候才能用重复的K折叠而不是k折叠？与k折叠组相比，重复使用K折叠有哪些优点/缺点？

浏览 0提问于2019-11-28得票数 4

回答已采纳

2回答

PivotTable字段列表错误-由于数据库中的结构更改，当前会话不再有效

ssas、olap、pivot-table、cube、office-web-components

我有一个Analysis Services数据库。多维数据集存储模式为MOLAP，主动缓存设置为关闭。所有维度、度量值和分区都将MOLAP设置为存储模式，并将主动缓存设置为关闭。当我通过Excel或SQL Server Management Studio连接到多维数据集时，一切工作正常。但是用户通过网页连接到多维数据集。我们使用Office Web Components。直到最近，用户在筛选维度、展开、折叠等操作时都会遇到以下错误:由于数据库中的结构变化，当前会话不再有效首先，PivotTable返回空白。当他们尝试刷新数据时，他们会收到以下错误消息。帮助。谢谢, Mona

浏览 4提问于2012-10-02得票数 0

2回答

我什么时候需要处理一个立方体？

sql-server、ssas、olap-cube

我有一个SSAS 2008立方体。我刚刚在事实表中插入了更多的数据(400万次事务)，而且维度也很好。我意外地刷新了我的Excel枢轴表，并注意到我的新数据在那里-我想我必须重新处理这个立方体！这让我不得不问：我什么时候需要处理立方体？这是否只是结构性的改变？我什么时候需要处理尺寸？如果我不需要在将新数据插入源表时处理多维数据集，那么如果我将糟糕的数据插入源--即没有匹配的维度键的东西--会发生什么情况？

浏览 1提问于2014-06-05得票数 2

1回答

合并两个SSRS数据集输出

reporting-services、ssrs-2008、ssrs-2008-r2

我想使用两个数据集创建一个表格形式的SSRS报告，这两个数据集构建在两个不同的数据源之上。挑战在于SSRS表一次只接受一个数据集。请指导我如何合并两个数据集输出两个创建单个tbulr报告

浏览 0提问于2016-03-12得票数 0

1回答

K倍交叉验证.如何计算规则参数/超参数.算法的参数

machine-learning

K次交叉验证将数据分成k个回收箱，每次使用k-1桶进行训练，使用1个桶进行测试。性能是以所有K运行err ← err + (y[i] − y_out)^2的平均值来衡量的，如维基百科和文献所示 err ← 0 for i ← 1, ..., N do // define the cross-validation subsets x_in ← (x[1], ..., x[i − 1], x[i + 1], ..., x[N]) y_in ← (y[1], ..., y[i − 1], y[i + 1], ..., y[N]) x_out ← x[

浏览 0提问于2021-07-26得票数 3

回答已采纳

1回答

使用REST API从Power bi获取数据(非元数据)

rest、office365、powerbi、office365api

我可以成功连接到power bi。当我使用路由时，我只得到名称、configuredBy、isRefreshable等元数据…… { "id": "cfafbeb1-8037-4d0c-896e-a46fb27ff229", "name": "SalesMarketing", "addRowsAPIEnabled": false, "configuredBy": "john@contoso.com", "isRefreshable": true,

浏览 58提问于2018-07-03得票数 1

回答已采纳

1回答

在NLP词汇表中包含验证数据有效吗？

machine-learning、scikit-learn、nlp、information-theory

目前，我正在遵循最佳实践，并从培训数据中创建一个带有词汇表的“单词袋”向量。我的交叉验证(和测试)数据集使用该模型转换，使用训练集创建的相同词汇表。它们不提供任何词汇表，也不影响文档频率(用于“术语频率逆文档频率”计算)。然而，这在一些方面是限制性的。首先，计算单词袋模型是昂贵的，因此这就禁止我进行k-折叠交叉验证(因为它需要不断地重新计算单词包)。我的数据集大约有1,000万字，我正在计算一袋单词和一袋双克，每次大约需要5分钟。这也意味着我目前有交叉验证和测试集的数据，这是我不能用于培训的数据。如果我把训练集和交叉验证集上的单词放在一起，我的结果会有很大的偏差吗？换句话说，如果我在验证

浏览 0提问于2018-06-08得票数 6

回答已采纳

5回答

按名称获取类型

c#、visual-studio-2012、.net-4.5

在我的代码中，我试图按名称得到一个类型。当我使用字符串参数时，我失败了。然后，我试着在“快速观察”窗口中做折叠： Type.GetType(typeof(System.ServiceModel.NetNamedPipeBinding).Name) 返回null。为什么？以及如何按名称获得所需的类型？

浏览 0提问于2013-11-15得票数 10

回答已采纳

1回答

如何在时间序列数据上创建模型并进行更新？

python、machine-learning、scikit-learn、time-series

我有一个23k行的大型数据集。这些数据如下所示： import pandas as pd d = {'Date': ["1-1-2020", '1-1-2020', "1-2-2020", "1-2-2020"], 'Stock': ["FB", "F", "FB", "F"], "last_price": [230,8,241,9], "price":[241,9,240,8.5]} df

浏览 3提问于2021-09-25得票数 0

2回答

雪片功率BI增量制冷

snowflake-cloud-data-platform

是否有人成功地使用了使用雪花作为数据源的PBI增量刷新？完全刷新我的数据集(没有增量刷新)大约需要20分钟，但是在打开增量刷新时，数据刷新超时，因为它需要超过120分钟。当查看雪花中的查询历史记录时，它看起来像是一次又一次地执行“SELECT*”查询，直到它超时为止。我见过一些帖子说“查询折叠”不受雪花的支持，而其他人则说它是部分支持的。任何澄清都将不胜感激！

浏览 3提问于2020-03-31得票数 1

回答已采纳

1回答

system.argumentexception列不属于表

c#、asp.net、crystal-reports、dataset

我有一个定义的数据集，其中包含表Customer。我正在尝试向这个数据集添加一行，但下面是我的代码。 DataSet ds = new DataSet1(); DataTable dt = new DataTable("Customer"); using (StreamReader reader = new StreamReader(fileStream)) { while(reader.Peek() >= 0) { string row = reader.ReadLine(); string[] content = row.Spli

浏览 2提问于2020-09-24得票数 1

回答已采纳

1回答

交叉验证是如何实现的？

validation、machine-learning、cross-validation

我目前正在尝试使用交叉验证来训练一个神经网络，但我不确定我是否知道交叉验证是如何工作的。我理解这个概念，但我还不能完全理解这个概念是如何转化为代码实现的。下面是对我已经实现的内容的描述，这或多或少是一种猜测。我将整个数据集分割成K-折叠，其中1折叠是验证集，1折叠是测试集，其余折叠中的数据被倾倒到训练集中。然后，我循环K次，每次将验证和测试集重新分配到其他折叠。在每个循环中，我只使用训练集不断地训练网络(更新权重)，直到网络产生的错误达到某种阈值为止。但是，用于决定何时停止培训的错误是使用验证集产生的，而不是使用培训集产生的。培训结束后，将再次产生错误，但这次使用测试集。测试集中的此错误将

浏览 10提问于2016-12-19得票数 0