前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Day8 GEO数据挖掘

Day8 GEO数据挖掘

原创
作者头像
用户11008504
发布2024-05-08 16:16:39
930
发布2024-05-08 16:16:39
举报
文章被收录于专栏:生信马拉松生信马拉松

怎么筛选基因

背景知识

Flodchange (FC): 处理组平均值/对照组平均值

log2Flodchange (logFC): Flodchange取log2

芯片差异分析的起点是一个取过log的表达矩阵(取值范围0-20之间),如果拿到的是不是取过log的矩阵,需先取log

log2(FC) = log(处理组取过log的表达矩阵平均值)-log(实验组取过log的表达矩阵平均值)。差异分析中的log默认是log2

log(FC)常见阈值
log(FC)常见阈值
图的背景知识
图的背景知识

GEO数据库介绍

三部分信息:系列号-样本号-平台信息

基因芯片:探针的表达量代表基因的表达量,探针与序列绑定

分析思路
分析思路

芯片数据:数据Type: Expression profiling by array

转录组测序: 数据Type: Expression profiling by high throughput sequencing

找数据

1.直接取GEO官网找

2.文献中找

下载数据

1.传统下载方式

代码语言:r
复制
library(GEOquery)
eSet = getGEO("GSE7305", destdir = '.', getGPL = F)

2.从网页上下载/发链接让别人帮忙下,放在工作目录里

需要下载表达数据、临床信息、GPL编号

表达数据

  1. 看数据范围决定是否需要log,是否有负值,异常值
  2. 看是否有异常样本: 样本间的表达量较一致,在0-20间,如果都小于4则说明取了不止一次log 异常样本处理: 1.删除 2.代码拉平:exp = limma::normalizeBetweenArrays(exp) 负值分情况讨论:2.3两种情况的数据弃用
  3. 取过log,少量负值--正常
  4. 没取log,有负值--错误数据 3.有一半负值,中位数为0--做了标准化

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 背景知识
  • GEO数据库介绍
    • 找数据
      • 下载数据
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档