专栏首页单细胞天地单细胞转录组探索小鼠肝脏发育

单细胞转录组探索小鼠肝脏发育

不知不觉在单细胞转录组领域做知识分析也快两年了,很幸运聚集了五个小伙伴携手共进,我们承诺不间断更新5个月,把我们这两年的学习成果全部掏出来给大家,包括5个栏目:
  1. 文献速递(简短介绍,扩充知识面)
  2. 文献详解(图文并茂带来大家系统性学习)
  3. ř与Bioconductor的技巧(书籍翻译,妙招共享)
  4. scRNAseq的GitHub的书籍翻译(原汁原味的名校教程)
  5. 全网第一个单细胞转录组视频教程学习笔记分享

希望大家能有所收获!

现在你看到的是文献速递

肝脏背景知识

肝脏是一种多倍体器官,由具有一个或两个细胞核的肝细胞组成,每个细胞核含有2,4,8或更多单倍体染色体组。

肝脏是人体新陈代谢最旺盛的器官,负责着各种生理反应,像一个巨大的“化工厂”。除了代谢功能之外,肝脏还负责分泌胆汁、清除身体的毒素、表达血液中主要的载体蛋白以及免疫防御。

肝细胞在功能上是异质性的,以前的研究根据代谢区带(metabolic zonation)可以将其分成两个不同的群体:肝脏 门静脉周围的肝细胞和肝静脉周围的肝细胞。

文章信息

本期文章于2017年2月发表在nature杂志上,题目是:Single-cell spatial reconstruction reveals global division of labour in the mammalian liver

文章是Itzkovitz教授团队与免疫学Ido Amit教授课题组合作,分析了1500个肝脏细胞的基因组信息。他们针对20000个基因构建了它们的表达图谱。同时,他们还试图可视化整个肝脏组织,在荧光显微镜下标定所有信使RNA。

这篇nature文章数据在:ncbi.nlm.nih.gov/geo/qu 共测量了肝脏的26个不同部位的 1736 个单细胞的表达数据。表明肝脏细胞至少可分为9种不同的类型,每一种都行使着自己的职责。”

去除了非薄壁组织细胞(non-parenchymal)之后,把肝脏细胞分成3大类:

  • the Kupffer cell genes: Clec4f, Csf1r, C1qc, C1qa and C1qb
  • the endothelial cell genes: Kdr, Egfl7, Igfbp7 and Aqp1
  • the hepatocyte genes: Apoa1, Apob, Pck1, G6pc and Ttr.

使用的是MARS-seq单细胞转录组建库技术:

  • Jaitin, D. A. et al.Massively parallel single-cell RNA-seq for marker-free decomposition of tissues into cell types. Science343, 776–779 (2014)

数据处理文章描述如下:

  • Mapping of single-cell reads to mouse reference genome (mm9) was done using HISAT version 0.1.6 and reads with multiple mapping positions were excluded.
  • Reads were associated with genes if they were mapped to an exon defined by a reference set obtained from the UCSC genome browser.
  • Exons of different genes that share genomic position on the same strand were considered as a single gene with concatenated gene symbol.
  • Corrected read counts were evaluated based on unique molecular identifiers (UMI)

肝小叶背景知识

肝小叶是组成肝脏结构的基本单位,呈六角轮柱状,由肝细胞、毛细胆管、肝血窦和相当于毛细淋巴管的窦周隙(狄氏间隙)组成。研究人员发现,肝小叶不同层分别执行不同的功能。具体而言可分成:肝小叶的外层负责合成葡萄糖、凝血因子以及其他各种化合物,该区域富含合成反应所需的氧元素;内层负责降解毒素及其他物质;中间层合成并分泌铁调素(hepcidin)。

荧光显微镜下小鼠肝小叶结构的横截面:中间层富含信使RNA分子(白点),这些基因最终表达生成铁调素(Hepcidin)。

重点分析得到了3496个zonated genes

统计检验表明,在全部的7227个肝脏表达基因里面,有3496可以被定义为 zonated genes ,远超预期。它们对应着 肝小叶的外层到内层。

  • 在Apc-KO小鼠表达显著下降的基因有 中心周围的 pericentral 倾向 (810 of our 3,496 zonated genes)大多数集中在肝小叶的第一层
  • 在Apc-KO小鼠表达显著下降的基因有 门静脉周的 periportal 倾向 (193 of our 3,496) 大多数集中在肝小叶的第六层
  • 近三分之二的(2,314 out of 3,496 genes) were not predicted targets of either Wnt, hypoxia, Ras signalling or pituitary hormones

还利用了几个公共数据:

  • GSE3129
  • GSE49707
  • GSE68806
  • GSE84498

下载原始数据

在 trace.ncbi.nlm.nih.gov/ 可以找到所有原始测序数据。

脚本如下:

# nohup bash prefetch.sh srr.list &
while read id
do
echo $id
~/biosoft/sratoolkit/sratoolkit.2.8.2-1-centos_linux64/bin/prefetch $id
done <$1

转换格式

下载得到的sra文件需要转换为fastq文件

2.6G Feb 27 11:16 SRR3928573.sra
2.2G Feb 27 11:18 SRR3928574.sra
2.5G Feb 27 11:20 SRR3928575.sra
2.4G Feb 27 11:22 SRR3928576.sra
2.8G Feb 27 11:24 SRR3928577.sra
2.9G Feb 27 11:26 SRR3928578.sra
2.3G Feb 27 11:28 SRR3928579.sra
2.2G Feb 27 11:31 SRR3928580.sra
1.2G Feb 27 11:32 SRR3928581.sra
1.2G Feb 27 11:34 SRR3928582.sra
1.1G Feb 27 11:35 SRR3928583.sra
1.2G Feb 27 11:36 SRR3928584.sra
1.9G Feb 27 11:37 SRR3928585.sra
1.9G Feb 27 11:39 SRR3928586.sra
2.0G Feb 27 11:40 SRR3928587.sra
2.0G Feb 27 11:42 SRR3928588.sra
2.8G Feb 27 11:44 SRR3928589.sra
2.6G Feb 27 11:46 SRR3928590.sra
2.9G Feb 27 11:48 SRR3928591.sra
1.8G Feb 27 11:50 SRR3928592.sra
1.9G Feb 27 11:52 SRR3928593.sra
2.7G Feb 27 11:54 SRR3928594.sra
2.6G Feb 27 11:55 SRR3928595.sra
2.7G Feb 27 11:57 SRR3928596.sra
1.7G Feb 27 11:59 SRR3928597.sra
1.8G Feb 27 12:01 SRR3928598.sra

转换代码如下:

dump='/home/jianmingzeng/biosoft/sratoolkit/sratoolkit.2.8.2-1-centos_linux64/bin/fastq-dump'
$dump -A  $sample -O $analysis_dir  --gzip --split-3 /home/jianmingzeng/data/public/oscc/sra/$srr.sra

测序数据是有格式的:

@AB911.1 NB501277:61:HTNKHBGXX:1:11101:11520:1071_0_barcode=NA-EE/A-//A//6#-/##/####-AAAC-AACACCN-CNNANNNN length=68
CATCCCCGCCGCGCGTCGCGGCGTGGGAAATGTGGCGTACGGAAGACCCACTCCCCGGCGCCGCTCGT
+AB911.1 NB501277:61:HTNKHBGXX:1:11101:11520:1071_0_barcode=NA-EE/A-//A//6#-/##/####-AAAC-AACACCN-CNNANNNN length=68
A6/AEEAAAEEEAEE/EEEEEEE/EEEE/EEE/EEAEE<AEAAEEEEEEAAEEEE/EAAEEEA6EAAA
@AB911.2 NB501277:61:HTNKHBGXX:1:11101:19199:1073_0_barcode=NA-EEEE-AA/<66#-<##6####-AAAC-CATCACN-GNNANNNN length=68
TTGGGGCATTCACAGAATCTATGGTGGTTTATGGTTGTCCCAACTGACTACAGCCCAGCCCTCTAATA
+AB911.2 NB501277:61:HTNKHBGXX:1:11101:19199:1073_0_barcode=NA-EEEE-AA/<66#-<##6####-AAAC-CATCACN-GNNANNNN length=68
EEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEAEEEEAEAEE/EEEEAEEAEA/
@AB911.3 NB501277:61:HTNKHBGXX:1:11101:21777:1073_0_barcode=NA-EEEA-AAA////-/##/####-AAAC-CATACCT-CNNCNNNN length=68
ATCCTTTAACGAGGATCCATTGGAGGGCAAGTCTGGTGCCAGCAGCCGCGGTAATTCCAGCTCCAATA
+AB911.3 NB501277:61:HTNKHBGXX:1:11101:21777:1073_0_barcode=NA-EEEA-AAA////-/##/####-AAAC-CATACCT-CNNCNNNN length=68
//EEEEEEEEEEEEEEEEEEEE/E</EAEEAE/EEEEEEE/EA<EEE/EEE/AE/AEE/EEEEEE///

所以每条reads都包含有4bp的pool_barcode, 7bp的cell_barcode 以及 8bp的random molecular tag (RMT)

但是有两个数据,作者忘记把这些信息包含进去了,就是 AB1032.fastq.gz 和 AB1033.fastq.gz 理论上这两个数据是无法处理的。

AB1032.fastq.gz
@AB1032.1 NB501277:76:HWNK2BGXX:1:11101:24314:1080 length=68
CAGATTCTTATTCTAGAGAATAAGAATCTGGATGTGAACTTTATTGTTCATATCCTTGATCTGAGGGT
+AB1032.1 NB501277:76:HWNK2BGXX:1:11101:24314:1080 length=68
/EEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEE/AEEEE/EEEEEEEE6EEAEE<AEAEEEEEE
@AB1032.2 NB501277:76:HWNK2BGXX:1:11101:25906:1080 length=68
GTGCCAGCAGCCGCGGGACTGCCAGCTCCAAGAGCGGAGATTCACGGTGCTGCCGGTACCACGCTCGG
+AB1032.2 NB501277:76:HWNK2BGXX:1:11101:25906:1080 length=68
6EEEE/EEEEEEEE<<//6</EE/EEAA/<E/AEEE/E//A//</E//EE6EE/E//A//6/EEAEE/
AB1033.fastq.gz
@AB1033.1 NB501277:76:HWNK2BGXX:1:11101:21812:1081 length=68
GTAAGCAAAAAAAAAAAAAAAAAAAAAAAAAAAGCCCAGGCCCCGCGGGTCGCCGCGGCGCGCGGGGG
+AB1033.1 NB501277:76:HWNK2BGXX:1:11101:21812:1081 length=68
EEE6EA/AEEEEEEEEEE6EEEE/EE/EE/E///////////EE////<////////////////A//
@AB1033.2 NB501277:76:HWNK2BGXX:1:11101:22107:1082 length=68
TTGGGATCTACGGCCTGGACTTCTATGTGGTGCTGGGTAGGCCAGGGTTCAGCATCGCAGACAAGAAG
+AB1033.2 NB501277:76:HWNK2BGXX:1:11101:22107:1082 length=68
EEAAEEEEEEEEEAEEEEEEEEEAEEEEEE/EEEE/EEAEEEEEAEEEEEEEEEEEE<AEEAAE/EA/

大多数真核生物的体细胞是二倍体,即仅含有两组染色体,分别遗传自父本和母本。而一些特定组织如心脏、肝脏等就含有多倍体细胞,特别是肝脏组织含有较高比例的四、八倍体等多倍体细胞。

肝脏是人体的重要解毒器官,同时酒精、肝炎病毒等毒性物质或毒性代谢物容易诱发肝细胞的基因突变,多倍体被认为有利于提供代偿性的正常基因来维持肝脏稳态。多倍体细胞通常会停滞在细胞周期的间期——G1期,这些细胞很少进行细胞分裂增殖,并最终走向细胞衰老死亡。

然而肝脏受损后,多倍体细胞将会受胁迫进行增殖,再生修复受损的肝组织。这些多倍体细胞分裂将导致三、五、七倍体等非整倍体的产生,也就是丢失匹配的染色体或染色片段,从而造成原癌基因的扩增或抑癌基因的丢失,引起基因组不稳定性和肿瘤的发生发展。因此研究机体调控多倍体细胞产生及多倍体细胞进行细胞分裂的调控机理对于理解肝癌的发病机理和肝癌的治疗至关重要。

本文分享自微信公众号 - 单细胞天地(sc-ngs),作者:生信技能树

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-04-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 空间基因表达解决方案

    细胞和它们在组织之间的关系对于理解正常发育和疾病病理学是至关重要的。Visium 空间基因表达解决方案允许研究空间分辨的全转录组 mRNA 表达,同时在同一组织...

    生信技能树jimmy
  • 去除细胞效应和基因效应

    其实质量控制三部曲,还有一个很关键的点没有讲解,就是多个样本整合,并且区分批次效应和生物学差异。但是这个点很大程度是依赖于经验,就是说,要想搞清楚,需要写很多自...

    生信技能树jimmy
  • Garnett—细胞类型注释工具

    Garnett是一个从单细胞表达数据中实现自动细胞类型分类的软件包。Garnett的工作方式是获取单细胞数据和细胞类型定义(marker)文件,并训练一个基于回...

    生信技能树jimmy
  • 不联网不插U盘也不一定安全 黑客能用声波攻击你的硬盘

    ­  近日,科学家公布了最新的研究成果,他们利用声波对机械硬盘进行攻击,导致使用机械硬盘的设备发生故障。那么,它造成的危害有多大?极客公园发现了讲述科学家研究成...

    企鹅号小编
  • 掌握NumPy,玩转数据操作

    NumPy是Python中用于数据分析、机器学习、科学计算的重要软件包。它极大地简化了向量和矩阵的操作及处理。python的不少数据处理软件包依赖于NumPy作...

    商业新知
  • 安利!这是我见过最好的NumPy图解教程

    NumPy是Python中用于数据分析、机器学习、科学计算的重要软件包。它极大地简化了向量和矩阵的操作及处理。python的不少数据处理软件包依赖于NumPy作...

    统计学家
  • 一键获取新技能,玩转NumPy数据操作

    NumPy是Python中用于数据分析、机器学习、科学计算的重要软件包。它极大地简化了向量和矩阵的操作及处理。python的不少数据处理软件包依赖于NumPy作...

    用户2769421
  • 「最全」实至名归,NumPy 官方早有中文教程,结合深度学习,还有防脱发指南

    在 Github 上一度蝉联最流行的机器学习和数据科学包 NumPy,已经有了非常之系统的中文文档,回想起当初细啃 NumPy 之时,不少人不得不徘徊于各大搜索...

    Datawhale
  • 安利!这是我见过最好的NumPy图解教程

    NumPy是Python中用于数据分析、机器学习、科学计算的重要软件包。它极大地简化了向量和矩阵的操作及处理。python的不少数据处理软件包依赖于NumPy作...

    量化投资与机器学习微信公众号
  • SAP MM如何手工修改Idoc的状态?

    1),如果想要批量修改多个IDoc状态,在SAP ERP 6 EHP 4以及后续版本里,可以在事务代码里SE38里执行程序: RC1_IDOC_SET_STAT...

    Terminator2058

扫码关注云+社区

领取腾讯云代金券