前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >生信马拉松 Day19 转录组 RNA-Seq-4

生信马拉松 Day19 转录组 RNA-Seq-4

原创
作者头像
阿呆的月历
发布2024-03-01 12:14:48
660
发布2024-03-01 12:14:48
举报
文章被收录于专栏:生信马拉松生信马拉松

今天的内容终于到转录组下游啦,R比起Linux易懂很多,基本上改改分组信息无脑run就好

最大的收获是下面三部分

一、编码原则

KISS( Keep It Simple, Stupid)原则--保持简单、愚蠢(易于理解)

KISS原则使代码简单、清晰、易于理解。

每个方法应该只解决一个小问题,而不是实现很复杂的功能,

每个方法都不应该超过40-50行代码。

DRY(Don’t Repeat Yourself)原则--不要重复你自己 (分解,可重复利用)

DRY原则使代码可重复利用。

将代码和逻辑划分为更小的可重用单元,

并通过在需要的地方调用代码来重复使用这些单元代码。

总之,代码应解决一个小问题,满足易阅读和易维护。

二、count、FPKM/RPM/TPM傻傻分不清

count就是上游分析得到的直接数据,有很多的0

测序深度:对同一条基因分析得到的重复数,类似于流量大看的人就多,所以不能代表单个广告更受喜欢

基因长度:可以想象成接苹果的大篮筐,口径大的筐子接的苹果多,约长的基因对应纳入的片段就越多,不见得是这个基因表达更高

FPKM对测序深度和基因长度都进行考虑之后校正

RPM只校正测序深度,适合于miRNA的分析(18~32个碱基)

TPM用了更加烧脑的方法校正了测序深度和基因长度

三、三个转录组差异分析R包的差别

Deseq2和edgeR是专门针对转录组测序开发的,limma更多见于芯片分析(数据正态)

三个包都要求从count数据分析

其他:突然发现单细胞作为特殊的转录组确实具有很多共性,比如数据都有特别的格式,用assay来读各种数据,把样本信息都用稀疏矩阵的一个内容来放,以及样本都需要去除低表达和空样本,非常像,学了转录组对于后续理解单细胞很有帮助

>生信技能树,生信马拉松,火龙果老师

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、编码原则
  • 二、count、FPKM/RPM/TPM傻傻分不清
  • 三、三个转录组差异分析R包的差别
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档