首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >由数据集上的概率分布生成训练数据意味着什么?

由数据集上的概率分布生成训练数据意味着什么?
EN

Data Science用户
提问于 2017-12-26 06:29:27
回答 1查看 1.6K关注 0票数 6

我当时正在阅读深度学习书,并看到了以下段落(第109页,第2段):

训练和测试数据是通过数据集上的概率分布(称为数据生成过程)生成的。我们通常会做出一套统称为i.i.d的假设。假设。这些假设是,每个数据集中的示例是相互独立的,训练集和测试集是相同分布的,它们是从相同的概率分布中提取的。这个假设使我们能够描述在单个example.The上具有概率分布的数据生成过程,然后使用相同的分布来生成每个火车示例和每个测试示例。我们把这个共享的底层分发称为数据生成分发,表示为p_{\text{data}}。这个概率框架和i.i.d。假设条件使我们能够从数学上研究训练误差与测试误差之间的关系。

有谁能给我解释一下这段话的意思吗?

在第122页的最后一段,也给出了一个例子。

一组样本\{x(1), \dots, x(m) \},按平均\theta的伯努利分布独立且同分布。

这是什么意思?

EN

回答 1

Data Science用户

发布于 2019-06-23 21:43:40

有一个共同的假设,即正在建模的数据是独立的和相同分布的(i.i.d.)来自概率分布的样本。对于训练数据集和测试数据集,存在相同的潜在概率分布。而且每个样本都独立于其他样本。

这些假设被违反的例子:

  • 数据是由一个完全随机的过程(如随机游走)生成的。
  • 训练和测试数据集来自不同的概率分布,要么完全不同的概率分布,要么相同的概率分布具有不同的参数。
  • 样品不是独立的。相依样本的一个例子是从一张单牌处理卡片,后一张牌的概率取决于先前处理过的牌。

模型拟合过程只能访问数据样本,而不是底层概率分布。参数化建模拟合对概率分布的函数形式(如Bernoulli或guess )进行了猜测,然后估计了相关参数。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/26009

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档