首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

生物信息-python 编程实例(2)

我们拿到从测序公司或从网上下载得到测序原始文件后,用fastqc或其他软件对其进行质量评估,然后根据评估结果进行过滤或截取,一般有从5'端或3'端截取一定长度、过滤掉含 N 多的read、过滤掉测序质量较低的read,还有去掉pcr重复等。

网上可用的此类软件有很多,我们也可以自己写脚本,根据需要定制我们的过滤标准,下面就以python编程语言,过滤掉含双端测序 N 含量多的read, 以练习python编程, 代码示例如下图:

前几天发的推文中,已经对解析pe 测序文件的python脚本进行了解释,这里就不多说了,对以前的程序改动的部分是增加了判断:9-14 行,如果read1或read2 N 含量超过30(标准可以自己定),其实就是我们要扔掉的reads,这里也保存于文件f3和f4,N 含量少于30 就是我们要保留的数据了,保存于f5和f6。

这样,我们就完成了真正完整的双端测序去除含量N过多的质控软件了。。

今天的分享就到这里了,希望对您有所帮助,感谢你的阅读。

如果您觉得本公众号的内容有意义,

请您推荐给有需要的人,或分享于您的朋友圈。 感谢!

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180405G1926Q00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券