首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

转录组分析起步-测序质控

今天是生信星球陪你的第70天

你想找辆共享单车,发现满街都是别家车,没有一辆你能骑。

你想学点生信,搜了“初学者教程”,满眼尽是高大上,没有一句能看懂。

终于你跨越茫茫宇宙,来到生信星球,发现了初学者的新大陆!

终于时隔将近两个月,花花也学到了质控啦!

1.用到的数据格式

这里涉及到一个以前讲过的fastq格式。一共四行,有用的也就两行吧。第二行:碱基序列,第四行:质量值。一三行不是没用,只是非重点。

这是一个fastq文件的解释。

fasta和fastq的示例和区别

至于fastq第一行的用冒号隔开的每一个字符串是什么意思,上图也有说明。佩服豆豆的配图。

2.用到的软件--fastqc

(1)自动挡:conda install fastqc -y

(2)手动挡

首先新建文件夹mkdir fastqc && cd fastqc,放哪里看自己心情咯 - -> 然后去下载 https://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.7.zip 再修改权限chmod 755 fastqc 一般服务器的java是配置好的,如何检查?java -version 如果自己的目录中没有,服务器其他目录中也会有,拷贝到自己的环境变量就好 cp xxx的java ~/.bashrc。如果自己有root权限可以自己安装,这个教程这里先不展开,有需要的自行搜索。 (来自豆豆)

3.质控命令

新手级:

进阶:

解释:

直接fastqc

新建存放结果的目录。-o选项是输出的意思。会将结果文件输出到你指定的目录下。

在此补充听课中get到的一个关于脚本的技巧:默认是执行完第一行命令,再开始第二行。在每行行尾添加&后,第二行命令不需要等待第一行运行结束再开始执行。

在每行行首添加,则可以避免你的笔记本断网对脚本执行的影响。

4.质控结果

质控生成的结果文件有两个:一个是zip,另一个是html。

用filezila将html文件传输到电脑(这里忘记的请参考

给你一根数据线

用浏览器打开,会显示一堆图片

映入眼帘的是这些陌生的图图。

左侧导航显示了11个质控结果图的名称。对错和警告,都仅作参考。简称“就当没看见”。

其中最重要的就是per base sequence quality(A、B)。就每个位置的碱基质量情况给出一个直观的描述。

绿、橘黄、红颜色一次代表了质量从高到低。一般公司返回的数据都是比较靠谱的,质量不错。

此处再次盗用豆豆的图O(∩_∩)OC、D两图则是四种碱基的比例分布。理论上,A=T,C=G,但事实是,在测序添加接头等过程中并不是所有的序列都能被测到,所以相当于一个随机抽样,在测序量足够大的情况下A≈T,C≈G,则说明测序质量好。

E/F是GC含量,测序越随机,结果越美好。

5.数据常见问题

(1)低质量

(2)Adapter序列

(3)细菌污染

(4)reads过短

肿么处理?下一个工具走起!

走喽!这篇推送还是写的很惬意的。ps:明天看牙医,看到这里的朋友后台留言一下啊。

初学生信,很荣幸带你迈出第一步。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180719G20G0800?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券