前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >R-语言学习-20230911

R-语言学习-20230911

原创
作者头像
素素
发布2023-09-12 22:09:58
1750
发布2023-09-12 22:09:58
举报
文章被收录于专栏:生信课程note+实验知识

测序分为芯片数据和二代测序。

series matrix file(s)是表达矩阵。

GSE12417_RAW.tar是指原始数据。

表达矩阵.txt文本用excel打开,前37行是实验信息。

38-72行是每个样本的注释信息,73开始是表达矩阵。

表达矩阵和临床信息很重要。

第六节课中的phe.txt是上图文件中的47行。

点custom出现下面的,选择需要的下载

解压缩到一个文件夹里

解压缩后的这四个文件不用再解压缩。

质量控制 控制测序深度 背景校正 汇总。

对于芯片数据而言,在分析之前,需要先进行背景校正background correct。 所谓背景校正,其本质上都是一个减法,将总体信号看做由探针特异性的结合信号 (真实信号)和非特异性结合 (噪声信号)两部分组成,背景校正的工作就是从总体信号中减去噪声信号,从而得到真实信号。

芯片数据的灰度图特被黑,说明型号强度低,图像特别亮,说明信号强度有可能过饱和。

层次聚类也叫树状聚类。

"mm.data.raw" 是一个变量,它是通过将数据转换为 "mm" 格式而创建的。在这个语境下,"mm" 可能代表一种特定的数据格式或数据处理方法。如果你提供更多的上下文或详细信息,我可以给出更准确的解释。

一个样本的所有基因表达量之和叫做测序深度。即测了多少reads

表达丰度是指某个基因在整个细胞中的表达总量的占比。

quantile算法

MAS RMS方法背景矫正的两种方法

原始表达矩阵没有小数点

归一化方法 quantile

rawdata中行名为基因名 列名为样本名,每个基因颜色相同

汇总是指多个探针对应一个基因的最终表达值

共三个步骤。

整型用来存储整数,字符型用来存储字符或字符串类似,因子型是用来存储类别的数据类型(离散变量)。

Entrez ID实际上是指的Entrez gene ID,是对应于染色体上一个gene location的。 每一个发现的基因都会被编制一个统一的编号,而Entrez ID是指的来自于NCBI旗下的Entrez gene数据库所使用的编号。

通过查看我们发现该表达矩阵的行名为1007sat,1053at,117at,它们是探针ID

以下是GEO中GPL平台信息:

GPL数据第一列探针信息;第二列另一套编号系统

这种情况只能把ENTREZ_GENE_ID转化为gene symbol。

第二种方法是把soft文件下载了并且解压缩到一个文件夹里

然后用代码取

official symbol 是由 HGNC组织 提供的基因通用名称;如果基因暂无official symbol,就在Entrez ID的前面添加LOC前缀作为其symbol。

表达矩阵和注释信息很关键。

表达矩阵在gset中的assayData中。

featureData里有data 即表达矩阵。

fread函数提取.txt文件

R.data只能用load函数

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档