人工智能找到人类起源过程中的关于“X女人”的新证据

文章来源：企鹅号 - tensorflow画世界

丹尼索瓦洞穴 (Denisova Cave)和X女人

丹尼索瓦洞穴位于西伯利亚阿尔泰山脉中，考古学家于2008年在洞内发现一块有4.1万年历史的少女指骨，将她命名为“X女人”。分析发现，X女人的DNA与尼安德特人及现代智人有分别，因此将她的物种命名为丹尼索瓦人。科学家相信，人类在28.2万年前已占据丹尼索瓦洞，而丹尼索瓦人则于17万年前入主。

三年后，德国科学家Matthias Meyer开始着手开发一种从化石中提取DNA样品的新技术，使用从Denisova洞穴（图右）中发掘出的这么一小块指骨化石标本科学家们就能够得到Denisova人的全基因组图谱。

人工智能发现：X女人并不是孤立存在

关于X女人，没有人知道她是谁，只是因为她与众不同：一位来自5万多年前的少女如此奇怪的独特性，她看起来像是科学家从未见过的现代人类的“混合”祖先。

就在今天，研究人员才发现她并不孤单的证据。在一项分析人类史前史的复杂混乱的新研究中，科学家们使用人工智能（AI）来识别现代人类在几千年前的非洲长途跋涉中遇到的未知的人类祖先物种 - 并与之共享。

“约80,000年前，所谓走出非洲的发生，当人口，已经由现代人类的一部分，放弃了非洲大陆，并迁移到其他大陆，从而引发了目前所有的人群”，解释进化来自西班牙Pompeu Fabra大学的生物学家Jaume Bertranpetit。

当现代人类走进欧亚大陆的这条道路时，他们也锻造了其他一些东西 - 与来自其他物种的古老和已灭绝的原始人类一起繁殖。

直到最近，这些偶尔的性伴侣被认为包括尼安德特人和杰尼索瓦人，后者直到2010年才被人知道。

但是，由于深入学习算法筛选了复杂的古代和现代人类遗传密码，现在已经在欧亚DNA中分离出了很久以前的第三个例子。

研究人员利用一种称为贝叶斯推理的统计技术，发现了他们所谓的“第三次渐渗”的证据 - 现代人在非洲外流期间与之杂交的“幽灵”古代种群。

研究人员在他们的论文中写道： “这个人群或者与尼安德特人 - 杰尼索娃的分支有关，或者早期与丹尼索娃血统分离” ，这意味着人类性史中的第三个人可能是尼安德特人和杰尼索瓦人的混合体。

从某种意义上说，从深度学习的角度来看，这是对去年确定的十几岁女孩“混合化石”的假设性证据; 虽然它处于早期阶段，但研究项目本身并没有直接联系。

“我们的理论与最近在Denisova发现的混合标本相吻合，尽管我们还不能排除其他可能性”，来自爱沙尼亚塔尔图大学的基因组学家Mayukh Mondal说。

话虽如此，这一科学领域的发现正在变得越来越快。

去年，另一组研究人员在Denisovans和Neanderthals的同时发现了他们称之为“明确的第三次杂交事件”的证据，并且在两周前发表的一篇论文追溯了这些灭绝物种如何交叉和杂交的时间表比以往任何时候都更清晰之前。

还有很多研究要做。应用这种人工智能分析是人类祖先领域的一项新技术，我们所处理的已知化石证据非常少。

但根据这项研究，该团队所发现的不仅解释了一个长期被遗忘的渐渗过程 - 这是一种以自己的方式告知我们今天的一部分的一种调整。

“我们认为我们试图在基因组中找到这些高度分歧的地方，看看哪些是尼安德特人，哪些是杰尼索万，然后看看这些是否解释了整个情况，”Bertranpetit告诉史密森尼。

“当它发生时，如果你减去尼安德特人和杰尼索万的部分，基因组中仍然存在高度分歧的东西。”

贝叶斯推理的统计技术及其结论

所有现代人类以高达300万年前（KYA）时间深入骨血对方1，2，并拥有共同的非洲根3，4，5。非洲侨民解剖学上现代人（AMH）使用的迁徙路线以及AMH与当前在欧亚大陆居住的灭绝人类（此处称为Eurasian Extinct Hominins，EEH）之间的杂交方面仍然存在争议。最近，一些遗传学研究认为，世界上只有一个主走出非洲（OOA）事件6，7，8所发生不到100 KYA，与早期dispersals，其中最有可能不难有作为到现今的变化9，10，11。对古代尼安德特人和杰尼索万化石的测序支持了非洲AMH的渐渗事件; 12，13然而，最近的研究也支持从AMH基因流的存在下进穴居14，15，从而表明复合物古人类进化。

考虑到非洲的古老渗透，需要一个复杂的人口模型来妥善解决两个要点。首先，从尼安德特人和丹尼索娃到AMH的渐渗事件的数量仍然存在争议，以及它们对AMH基因库的影响。难点在于亚洲尼安德特人渐渗的数量高于欧洲8。此外，丹尼索瓦人基因渗入的地理限制不被很好地建立14，16。有趣的是，澳洲原住民也含有高量的EEH由于几个渗入事件7，9，12。虽然在大洋洲人群体丹尼索瓦人基因渗入的证据是明确的，渐渗的量根据方法3至6％之间变化14，16，17。此外，还有大约需要说明的现代澳大利亚原住民外加剂的模式渗入事件的数量不一致7，8，11。第二个要点是确定所有具有已知基因组的人类（来自旧世界的现代人，尼安德特人和杰尼索瓦人）渗透的所有神秘的幽灵古代种群。有人建议，其他古老的古人类可能与丹尼索瓦人混血14，16。此外，超出尼安德特人和丹尼索瓦人到一些人口AMH，无论是非洲的灭绝古人类的基因渗入2，18，以及南亚6和西藏人口19已经提出。最近还发现在东亚可能存在两种不同的Denisovan混合物脉冲20。

然而，在给定观察数据的情况下比较竞争复杂人口统计模型的可能性21是麻烦的，需要手动专业知识22和/或拟合23。因此，所有这些不同的人口统计模型都没有使用相同的方法进行一起测试。此外，对给定数据定义人口统计模型的参数进行估计将是有趣的。但是，这在常用的算法中是不可用的（即Admixtools 23）。在此上下文中，近似贝叶斯计算（ABC）是一种灵活的统计框架，其允许在没有函数24的可能性的近似形式的情况下通过生成模拟数据集来估计参数/模型的后验分布。ABC广泛用于群体遗传学领域25。但是，识别数据的正确转换以生成信息摘要统计（SS）取决于模型和参数，并且包括非信息冗余SS可能危害ABC方法22的性能。江等人。26最近，通过考虑深度学习（DL）从一组（原始）SS生成信息SS，提出了ABC框架的理论改进。DL是一种基于多个隐藏神经层的人工神经网络（ANN）拓扑结构，它已被用于非ABC框架中的群体遗传学推理27。由于ANN对输出28执行输入特征的非线性变换，因此DL提供了从原始SS 26中提取和最大化非冗余信息的最佳方式。。因此，可以使用大量原始SS作为输入特征来训练DL以预测生成模拟数据的参数，或者对一组模型中的模拟数据进行分类，并将该分类预测或参数估计用作新的SS（SS-DL）。

在本研究中，我们将多维绝对位置频谱（SFS）视为原始SS。SFS解释了采样群体中衍生等位基因的特定组合中存在的单核苷酸多态性（SNP）的数量29。该统计量是许多频率统计应用于群体遗传学的核心，用于区分竞争拓扑树和检测古老渐渗（即D统计，F4，F4比率等23），确定迁移率，分裂时间和/或差异在分裂和迁移的两个群体的模型中的有效群体大小（即Fst 29）。此外，SFS不受重组30的影响。SFS已经显示，以允许鲁棒人口统计估计21，29，31和折叠SFS已在经典ABC框架先前已经用于估计群体大小32。然而，SFS具有高维度，并且在所考虑的样本和种群数量上组合增加29。我们提出的方法利用DL的非线性特性来压缩SFS以提取由SFS的所有维度定义的基础模式，其允许区分所提出的模型或获得感兴趣的人口统计参数的值。然后将该SS-DL用于ABC框架中。

我们将新开发的方法应用于现有和古代遗骸的大量全基因组序列中，以估计竞争复杂人口模型的后验概率，重点关注渐渗事件。我们发现ABC-DL对于区分似是而非的渐渗模型是有效的，并且提出了第三个古老的渐渗事件（除了尼安德特人对所有OOA群体的渐渗和大洋洲人口的Denisova渐渗），这对所有亚洲和大洋洲人口都是常见的。

ABC-DL方法

为了在竞争的人口统计模型中进行统计检验并估计给定模型的参数的后验分布，我们使用SFS作为原始汇总统计量开发了ABC-DL方法（另见补充说明2）。对于每个人口，我们考虑了两个样本，除了尼安德特人和杰尼索万，我们只考虑阿尔泰尼安德特人和杰尼索万人。使用FastSimcoal2 21生成模拟。每个模拟包括使用所提出的树之一的人口统计拓扑模拟9643个基因组区域，包括651Mb和每个群体一个二倍体个体（参见图 2）。我们使用了选项--multiSFSFastSimcoal2生成SFS。我们考虑了每代29年的世代时间38，均匀重组率为1.0e-8，突变率为1.61e-8±0.13e-8 50。在每个模拟和基因组区域，我们采样突变率μ，假设正态分布，平均值为1.61e-8，标准差为0.13e-8。然而，由于在每个区域中的SNP密度取决于所定义的基因和CGP岛屿出考虑片段的级分51（参见附记2数据预处理），我们缩放的突变率μ ř每个区域的ř通过的级分包括片段（L c）在该区域的总长度（L r）：

在我们的ABC算法的实现中，我们考虑了1000 / 100,000的误差阈值（即，保留1000个模拟中的1000个模拟的参数/模型，显示观察到的SS的最小误差）。对于模型比较，我们考虑在可接受的模拟上运行多项逻辑回归; 用于参数估计，对可接受的模拟进行线性局部回归。所有这些分析都是使用R包abc 52进行的，使用脚本postpr，选项mnlogistic进行模型比较，脚本abc使用选项loclinear进行参数估计。

对于DL拓扑，我们使用Encog3.4 53生成了受监督的四层前馈DL网络（参见补充说明2）。我们实现DL的一个创新方面是开发类似SFS的噪声注入。最新的超参数是由以下事实推动的：DL是根据所提出的感兴趣模型模拟的数据进行训练的，而生成观察到的基因组数据的真实模型是 - 更复杂且（最好）部分重叠/推广（一些）所考虑的模型。在这种情况下，可以预期，具有来自与真实模型不同的模型的数据的训练DL将产生关于真实数据的偏置SS-DL。在我们的研究中，我们建议通过应用噪声注入算法的创新修改版本来克服这个问题4。在经典注入算法中，白噪声（即，来自具有平均值0和给定标准偏差的正态分布）在每次迭代时动态地添加到训练数据集的元素，以便强制进行模型推广。但是，正确添加白噪声需要输入变量之间的独立性，这与所考虑的SS不同。为了在SFS统计数据的情况下执行类似噪声注入的方法，我们利用了每个人口有两个人 - 除了尼安德特人和杰尼索万。我们将观察到的数据集分成两部分，一部分包括将用于向模拟SFS添加“观察到类似数据”的噪声的样本，另一部分将用于使用ABC方法估计后验分布。Ĵ模拟SFS的电池我从型号S：

其中α从[0,0.2]范围内的均匀分布中采样，r对应于观察到的“实际”数据。从独立观察数据集引入噪声提供了额外的优势。通过类比图像检测，我们可以想象模拟训练数据对应于来自已知模拟模型/参数的物体的清晰高分辨率图像，而观察到的r数据充其量只是一个图像，显示雾天环境中低分辨率的模型/参数对象之一（即生成我们模型中未考虑的数据的模型部分）。用于训练的数据与我们想要分类的最终观察数据之间的差异可能会在最终模型分类中引入偏差。通过噪声注入生成新的SFS模式，可以预期增加网络分类对模型偏离的鲁棒性。

发表于: 2019-02-122019-02-12 11:22:09
原文链接：https://kuaibao.qq.com/s/20190212A0CK0800?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

人工智能找到人类起源过程中的关于“X女人”的新证据

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐