专栏首页liu_ll的生信学习笔记热图,PCA画图网站推荐--------- ClustVis

热图,PCA画图网站推荐--------- ClustVis

1:前言

  在生信的分析学习过程中,对结果的可视化是非常重要的,在很多生信文章常见的就是热图,PCA等图。    但是在画图之前,我们需要知道,我们这么做的目的是什么?那么画热图和PCA分析图的意义和目的是什么呢?什么是热图,什么是PCA分析图?

2:热图

  在组学分析的生信文章中,常常可以见到热图。非常吸引读者的眼球,好看的热图可以为文章增(ti)色(gao)不(bi)少(ge)。

举个栗子:(A)在用不同的病毒处理了小鼠后,取肺部与上皮组织生长有关的cluster 1 基因的热图,展现的是这个cluster的代表性基因,红色的基因被上调,蓝色的基因被下调。调节的幅度用颜色的强度表示.

基因表达热图,文章来源:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5578021/ 其实从这个栗子就可以看出来热图的三个基本功能: 2.1:展示样本多个基因的表达量的高低变化 根据每组的基因表达值进行归一化后显示。(一般归一化的方法有按行均一化,按列均一化,所有值均一化) 2.2:聚类结果,对不同样本进行分类 ,聚类其实是根据差异程度(选的是欧氏距离,还是相关系数等),目的是为了判断样本的近远关系。比如说肿瘤的进化过程中,细胞的衍化类型是什么样的 2.3:获得表达模式相似的基因集合

3:PCA分析

在转录组的分析当中,主成分分析(PCA)往往是成果体现的一个很重要的手段。

3.1PCA分析的定义:

  主成分分析法是数据挖掘中常用的一种降维算法,是Pearson在1901年提出的,再后来由hotelling在1933年加以发展提出的一种多变量的统计方法,其最主要的用途在于“降维”,通过析取主成分显出的最大的个别差异,也可以用来削减回归分析和聚类分析中变量的数目,与因子分析类似。(说实话没太看懂)

举个小栗子: 比如你要做一项分析人的肥胖的因素有哪些,这时你设计了50个你觉得都很重要的指标,然而这50个指标对于你的分析确实太过繁杂,这时你就可以采用主成分分析的方法进行降维。50个指标之间会有这样那样的联系,相互之间会有影响,通过主成分分析后,得到三五个主成分指标。此时,这几个主成分指标既涵盖了你50个指标中的绝大部分信息,这让你的分析得到了简化(从50维降到3、5维)。 如果运用到生信分析的话,可以这么理解:我们拿到了一个表达谱数据,里面有很多差异表达的基因信息。(一般情况下,这些基因数目非常的多,成千上万)。那么拿这么多基因进行分析肯定不行。所以需要找到最具有代表性的进行区分。 推荐大家看一个比较经典的PCA分析的文章:主成分分析(PCA)基本原理及分析实例 (https://www.jianshu.com/p/162bb4ea1b7f

----------------------------------------分割线----------------------------------------------------------

4:画图

说了那么多,现在来给大家推荐一个非常好用的画图网站---------Clustvis,网址链接是:https://biit.cs.ut.ee/clustvis/

clustvis主页

4.1:点击 Data import

  上传data可以直接用上传文件(不能大于2M),也可以直接复制粘贴(如果数据不是很多的话),此外还可以从公共数据库导入等方法。文本的格式内容可以参照它给的sample,需要给出基本行列信息以及每个样本的数值(表达值或者是甲基化等数值)

选择上传data的方式,以及数据格式

4.2:进行数据的预处理

以它给出的sample样本信息为例

数据的预处理

4.2.1:首先是不是需要转换(如果数值比较大或者是比较小的情况下)
4.2.2:每列的注释是否需要保留,这个信息是在上传的时候样本标记好的

sample每列的信息

4.2.3:缺失值的取值范围(自己可以调整)
4.2.4:Row scaling 主要是运用到PCA画图分析中,可以有不同的选项,可以以单元度,向量度,贡献度进行PCA分析
4.2.5:PCA的分析方法:

有SVD 分析方法(奇异值分析方法:SVD最主要的应用就是对数据进行压缩,只保留最主要的数据。),Nipals 分析方法(偏最小二乘法PS回归),Probabilistic PCA PPCA:(即认为观测到的高维变量其实是由低维的潜变量通过某个广义线性模型生成的(这种低维→高维的映射,可以类比三维空间的曲线方程,一维自变量tt被映射为三维函数值yy),我们的目的是通过观测值(高维)推测背后的潜变量(低维),这样也就实现了数据压缩的效果)

4.3:结果展示

在画图出来的左边的工具栏是可以调整参数的比如说画图的颜色等。

示例样本的热图绘制结果

示例样本的PCA结果

Reference and Recommend:

你真的了解热图吗

算法杂记-SVD,PCA,KPCA以及PPCA和FA - simplex - 博客园

知乎----高通量测序技术专栏

知乎live---R入门和基础绘图系统

热图文章来源:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5578021/ --------------------------------------------分割线-------------------------------------------------

后记:

网站虽然好用,但是掌握了R语言画图代码的话,是不是更好呢?大家学习起来,推荐孟大神的高通量专栏(https://zhuanlan.zhihu.com/ngs-learning)和知乎live呀! 附上学习笔记:https://www.jianshu.com/p/2e8beba8a1e5

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • samtools (非 root 用户安装)小笔记

    为了避免以后的踩坑,我把相关分析的软件版本再检查了一遍 发现samtools的版本需要进行升级。接下来升级一下samtools step1:

    liu_ll
  • 码云真香!(Github下载难?)

    写完上一个文献阅读,我的电脑冒烟了!!!!!!修了好几天,现在内心无比的开心呀,哈哈哈哈!!!! (崩溃的电脑,崩溃的等,崩溃的疫情,和长蘑菇的我。。。。。。...

    liu_ll
  • BBQ(生物信息基础问题31):RNA-Seq建库用哪种策略?

    今天我们讨论的是RNA-Seq建库策略问题,我们来思考一下如何对RNA进行测序呢?

    liu_ll
  • Python 逐行读取socket中的数

    网上找到一个简单的用法: socket.makefile().readline()

    用户2398817
  • Kafka的生产者和消费者代码解析

    1:Kafka名词解释和工作方式 1.1:Producer :消息生产者,就是向kafka broker发消息的客户端。 1.2:Consume...

    别先生
  • 产业互联网:一颗扔向云计算市场的氢弹

    产业互联网是互联网下一个二十年的焦点,所有玩家都在其中寻找自己的位置。作为产业互联网基础设施的云计算玩家,将成为第一波受益者,云计算玩家都在变阵。

    罗超频道
  • Hinton是如何理解PCA?

    “深度学习名校课程大全” 里面给出了很多深度学习的课程, 但是说到书的话, 还是推荐 Ian Goodfellow的 “Deep Learning”, 张志华老...

    史博
  • 政策解读:《智能硬件产业创新发展专项行动(2016-2018年)》(下)

    镁客网
  • 原Java 正则表达式提取两个分隔符之间的数据

    zcqshine
  • 浏览器的回流与重绘 (Reflow & Repaint)

    当Render Tree中部分或全部元素的尺寸、结构、或某些属性发生改变时,浏览器重新渲染部分或全部文档的过程称为回流。 会导致回流的操作:

    Nealyang

扫码关注云+社区

领取腾讯云代金券