专栏首页决策智能与机器学习算法集锦(1)|序列模型|利用深度神经网络进行DNA与蛋白质序列转换

算法集锦(1)|序列模型|利用深度神经网络进行DNA与蛋白质序列转换

DNA序列和蛋白质类型,都是很重要的生物数据。今天我们介绍一种可以实现二者高效、准确的转换的深度学习算法。

首先,我们来看看DNA和蛋白质序列如何在机器学习算法中进行表示。

步骤1:获取DNA和蛋白质表

步骤2:生成DNA和蛋白质序列

可以看到,我们先声明了一些超参数,它们代表训练数据的数量或蛋白质序列的长度。我们从步骤1中的表中随机的抽取蛋白质和DNA匹配对。

步骤3:使用1-4规则编码DNA

DNA编码的方法很多,这里我们选择1-4规则。也就是说,用(1*4)向量来代表每个DNA序列。下面就是我们生成的DNA序列编码。

步骤5:确认生成蛋白质序列

我们可以利用上图来确认生成的蛋白质序列是否正确。

步骤6:建立蛋白质的独热编码(One Hot Encoding)

红框中是重复的蛋白质A,绿框中的重复的蛋白质T。因为有两个蛋白质编码是重复的,所以我们可以用一个(1*8)的向量来代表每一个蛋白质。

接下来,我们将介绍如何建立深度神经网络来实现DNA和蛋白质序列的转换。

神经网络框架和前馈操作

其中,黑色向量代表编码的DNA序列;红色向量代表神经网络层(这里有4层,每层50个神经元);蓝色向量代表用于分类的Softmax层。

箭头:代表标准前馈操作

以上结构表示的是一个标准的前馈操作。

反向传播操作

黄色向量:标准的梯度流;

黑色曲线:跨越式(Dilated Connection)的反向传播,可以使不同层之间的连接更加紧密。

实际训练结构

上图:平均准确率的变化;下图:损失函数的变化

可以看到,经过1201次迭代,训练的神经网络模型可以达到100%的准确度。

将DNA序列转换为蛋白质序列的结果如下:

利用步骤5的基因图表,可以确认神经网络准确的将DNA序列转换成了蛋白质序列。

代码如下:

本文分享自微信公众号 - 决策智能与机器学习(AIfreak),作者:Ethon

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-03-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 决策智能的关键问题探讨

    编者按:智能技术必须要面对人性及其社会关系、环境中的生物、物理和化学现象所形成的复杂且动态的信息进行准确建模,而且这种建模必须在信息不完备、时间有限的条件下完成...

    用户7623498
  • 强化学习(1) | 夺旗行动:复杂合作角色的出现

    掌握多人电子游戏中的策略、战术理解和团队合作是人工智能研究的一个关键挑战。在我们最新的文章中,我们发表了强化学习的新进展,我们发明的方法在Quake III 竞...

    用户7623498
  • 强化学习 | 基于强化学习的机器人自动导航技术

    深度强化学习已成功地应用于各种计算机游戏中。但在实际应用中,特别是在机器人自动导航的连续控制中,仍然很少使用。在这段视频中,我们介绍了在未知环境下机器人学习自主...

    用户7623498
  • 5G能让VR/AR站着挣钱吗?

    VR/AR是从什么时候开始火的?面对这一问题,估计大多数人都会说,“是在2014年。”

    镁客网
  • DumpMem and Monster - Virtual Memory Explorers on Windows Mobile/CE

          Windows Mobile 5 和 6的平台是建立在CE5.x的基础上的。当可用的内存很少时,平台会自动关闭应用程序。而且,在这个移动平台上,同时...

    ShiJiong
  • 从头编写 asp.net core 2.0 web api 基础框架 (4) EF配置

    Github源码地址:https://github.com/solenovex/Building-asp.net-core-2-web-api-starter-...

    solenovex
  • web爬虫-Selenium IDE安装使用

    今天将学习使用一个非常有用的浏览器插件Selenium IDE,用于网站的测试和自动化,这里以谷歌浏览器作为测试。

    亚乐记
  • NeurIPS 2018 | 腾讯AI Lab详解3大热点:模型压缩、机器学习及最优化算法

    AI领域顶会NeurIPS正在加拿大蒙特利尔举办。本文针对实验室关注的几个研究热点,模型压缩、自动机器学习、机器学习与最优化算法,选取23篇会议上入选的重点论文...

    marsggbo
  • 帝国的黄昏(2):50年前祖师爷赏了一碗饭

    关系这个词无论是对数据库圈子里的人,还是对我们中国人,都有特殊的意思。我记得本科刚上数据库的时候,老师特地解释说我们讲的是关系数据库,底下很多人一脸懵逼,不知道...

    数据猿
  • 区块链技术公司谈世界银行成第一个吃螃蟹的

    8月25日,WBG授权澳洲的联邦银行发行世界上第一个区块链技术的债券。根据金墉的说法,这种债券是世界上第一种使用块链技术创建、分发、转让和管理的债券。10月12...

    用户3031714

扫码关注云+社区

领取腾讯云代金券