我当时正在阅读深度学习书,并看到了以下段落(第109页,第2段):
训练和测试数据是通过数据集上的概率分布(称为数据生成过程)生成的。我们通常会做出一套统称为i.i.d的假设。假设。这些假设是,每个数据集中的示例是相互独立的,训练集和测试集是相同分布的,它们是从相同的概率分布中提取的。这个假设使我们能够描述在单个example.The上具有概率分布的数据生成过程,然后使用相同的分布来生成每个火车示例和每个测试示例。我们把这个共享的底层分发称为数据生成分发,表示为p_{\text{data}}。这个概率框架和i.i.d。假设条件使我们能够从数学上研究训练误差与测试误差之间的关系。
有谁能给我解释一下这段话的意思吗?
在第122页的最后一段,也给出了一个例子。
一组样本\{x(1), \dots, x(m) \},按平均\theta的伯努利分布独立且同分布。
这是什么意思?
发布于 2019-06-23 21:43:40
有一个共同的假设,即正在建模的数据是独立的和相同分布的(i.i.d.)来自概率分布的样本。对于训练数据集和测试数据集,存在相同的潜在概率分布。而且每个样本都独立于其他样本。
这些假设被违反的例子:
模型拟合过程只能访问数据样本,而不是底层概率分布。参数化建模拟合对概率分布的函数形式(如Bernoulli或guess )进行了猜测,然后估计了相关参数。
https://datascience.stackexchange.com/questions/26009
复制相似问题