下面是100个lncRNA组装案例文献分享
标题:中国荷斯坦奶牛新的lncRNA全基因组鉴定及其与乳蛋白的关系
杂志:Frontiers in Genetics(2018)
通讯作者:Shengli Zhang
机构:中国农业大学动物科学技术学院,农业部动物遗传繁育重点实验室,动物繁育国家工程实验室
文章链接:https://doi.org/10.3389/fgene.2018.00281
摘要:
本研究采用全转录组RNA测序技术,对3头乳蛋白率极高和3头乳蛋白含量低的中国荷斯坦奶牛的乳腺组织样本进行了LncRNA转录组分析。
在这项研究中,通过5个严格的步骤和编码潜力的筛选,共鉴定出6450个lncRNA转录本。总共鉴定出31个lncRNAs和18个新基因在高乳蛋白样品(HP)和低乳蛋白样品(LP)中存在差异表达。**通过生物信息学分析选择差异表达的LncRNA预测目标基因,然后整合差异表达的mRNA数据、基因功能、基因本体(GO)和途径、全基因组关联研究(GWAS)和数量性状位点(QTL)信息,以及网络分析以进一步描述潜在的相互作用。**有几个LncRNA(如XLOC_059976)可作为预测乳蛋白含量的候选标记。
这是第一个对与奶牛乳蛋白特性相关的lncRNAs和mRNAs进行全球表达谱分析的研究。这些结果为牛奶蛋白质的合成提供了重要的信息和见解,也为未来牛奶品质的改善提供了潜在的目标。
关键词:长非编码RNA,乳腺,转录组,牛奶蛋白,综合研究
背景知识:乳蛋白是人体最重要的营养物质之一。牛奶中蛋白质的数量和组成在很大程度上由奶牛的遗传因素决定,虽然已通过QTL定位、候选基因分析、GWAS或NGS技术在奶牛中鉴定出一些影响产奶量和成分的致病基因和突变,但乳蛋白的合成和分泌涉及复杂的过程,需要进行彻底的检测。已证明产奶性状受到强大的表观遗传调控。表观遗传基因调控机制是通过对染色质结构的调节来实现的,既可以抑制基因表达,也可以增强基因表达。lncRNAs与家畜的发育、代谢和免疫调节以及复杂性状的适应和表型变异有关。
选择产后60天(泌乳高峰期) 一胎 6只的牛奶蛋白含量极其高和低的各三头(高≥3.5%和低≤3.0%)健康,无乳腺炎的荷斯坦奶。测序数据公开可以获取,编号是:PRJNA416150
HMMER
Pfam30.0
这个流程在文章有一个示意图,见文末!
使用PhyloFIT
计算物种间保守区和非保守区的系统发育模型。模型和HMM转换参数被输入到phastCons中,以计算一组lncRNAs和编码基因的保守分数
P value <0.05
DAVID
GO 显著富集:p-value <0.05
IPA检验lncRNA相关基因富集 。-log2(p-value)>1.3为显著富集
利用BLASTN找到已知miRNA前体,使用RNAfold (R包)对lncRNA转录本的二级结构进行预测。预测miRNA与lncRNA相关性使用MiRanda
score>160,energy <-15。
使用perl脚本检查lncRNA上下游10kb和100kb的编码基因。用Pearson法计算lncRNA与编码基因的表达相关性,p值<0.05。从AnimalQTLdb中提取了乳蛋白性状的QTL信息。3从12个GWAS研究中收集到972个与乳蛋白性状相关的显著SNPs
总共6,450 lncRNA 转录本 5,256 lncRNA 位点,可以分成:
然后就是标准流程,看组装到的新lncRNA的一些特性,外显子数量和长度,表达量情况等等:
A. lncRNA表达水平低。
B. LncRNAs的大小明显小于蛋白质编码转录本、新基因和假基因。
C. lncRNA外显子主要集中在两个
D. lncRNA明显短于其他
F. lncRNAs的保守性比蛋白质编码区低
在高蛋白和低蛋白之间,q-value<0.05,共有31个差异表达的lncRNA,其中15个上调,16个下调。
其中18个是 新lncRNA,6个上调,12个下调。
这个差异分析比较容易复现,基本上看我六年前的表达芯片的公共数据库挖掘系列推文即可;
为了研究鉴定的lncRNA是否被miRNAs靶向,作者用Miranda软件分析了6450个lncRNA转录本。共有4972个LncRNA转录本被预测为788个牛miRNAs的靶标。
5,251个lncRNA与18,227个mRNAs显著相关(p值<0.05),其中前面的差异分析得到的统计学显著的31个差异表达的lncRNA与11,161个mRNAs显著相关(p值<0.05)。详见:TABLE S11 | Pearson correlations between protein-coding genes and differentially expressed lncRNAs.
候选LncRNAs、mRNAs和通路的网络图。黄色三角形、绿色圆圈和粉红色菱形分别代表lncRNA、mRNA和通路。
大量lncRNA的功能是未知的,但是它们主要是cis-regulators,所以可以根据它们临近的蛋白编码基因功能来近似推断,然后表达量的相关性也可以类推到。
预测了30个LncRNAs,调控34个影响乳蛋白合成的基因。
三个DEG(FOS、IRF2和SOCS2)被发现参与PRL信号通路(Li C.et al.,2016)。据报道,PRL对蛋白激酶C的刺激可能与PRL刺激FOS mRNA的积累有关,而蛋白激酶C的激活对PRL在乳制品合成和有丝分裂中的所有作用都是必不可少的。
XLOC_2427074、XLOC_2500996、XLOC_2938516和XLOC_593004的表达与fos基因显著相关,表明它们在乳蛋白合成中起重要作用。
IGFBP2与XLOC_1186672、XLOC_1243232、XLOC_1284424和XLOC_2273208相关,IgFBP5与XLOC_051681、XLOC_059976和XLOC_2280878相关。据此推测,lncRNA-igfbp2/igfbp5对可能参与胰岛素样生长因子途径,影响乳蛋白合成。
XLOC_051681与16个基因的表达相关。
本研究使用四个软件进行组装转录本。选取至少在两个样本,两个软件中都鉴定到的转录本,进行转录本的筛选。
对差异lncRNA和mRNA表达的综合解释表明,30个lncRNA可能调控34个影响乳蛋白合成的基因。
推测的LncRNA XLOC_059976可能是预测乳蛋白组成表型的关键候选生物标志物。