前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >生信爱好者周刊(第 19 期):2022年值得关注的7大前沿技术

生信爱好者周刊(第 19 期):2022年值得关注的7大前沿技术

作者头像
王诗翔呀
发布2022-03-30 10:48:18
5220
发布2022-03-30 10:48:18
举报
文章被收录于专栏:优雅R

这里记录每周值得分享的生信相关内容,周日发布。

生信科技动态

1、Briefings in Bioinformatics | SGANRDA - 预测circRNA与疾病关联的半监督生成对抗网络

环状RNA(circRNA)在复杂人类疾病的诊断、发生和预后中起着至关重要的作用。与传统的生物实验相比,融合多源生物数据以识别circRNA与疾病之间的关联的计算方法可以有效地降低成本和节省时间。考虑到现有计算模型的局限性,作者提出了一种半监督生成对抗网络模型SGANRDA,用于预测循环RNA-疾病关联。

2、NAR | RiboDetector - 高通量测序数据鉴别和去除rRNA序列利器

RiboDetector是一款用于从宏基因组、宏转录组、ncRNA和核糖体测序数据中准确而快速地检测和去除rRNA序列的软件(https://github.com/hzi-bifo/RiboDetector)。它是基于深度学习的BiLSTM(一款双向的循环神经网络架构)开发的软件。跟基于比对和隐马尔科夫模型的方法相比RiboDetector能抓取更长距离的序列特征,从而具有更好的准确性。文章中对比了目前常用的其他5款工具。在测试数据上,RiboDetector比其他软件的错误预测率低6到2000倍。另外它的CPU模式运行比目前最常用的软件有10倍左右的速度提升,而在GPU模式上实现了50倍左右的运行速度提升(见下图B-C)。文章中分析表明RiboDetector有很好的泛化能力,能预测发现新的rRNA(和数据库中已知rRNA相似性低于90%)序列。最后,在测试数据上它的假阳性预测序列没有显著的对某些功能的偏向性(没有GO term显著富集在假阳性预测的序列中)

3、Neuron | 大脑的学习方式如何,机器学习与生物学习的联系将提供「答案」

大脑的变化如何导致学习?要回答这个问题,请考虑人工神经网络 (ANN),通过优化给定的目标或成本函数来进行学习。这种优化框架可能会提供有关大脑如何学习的新见解,因为神经活动的许多特殊特征可以通过经过训练,以执行相同任务的 ANN 来概括。

然而,在整个学习过程中神经群体活动如何变化的关键特征无法用优化来解释,也不是 ANN 的典型特征。在这里,详细介绍了其中的三个特征:

(1)整个学习过程中神经可变性的不灵活性;

(2)即使在简单任务中也使用多个学习过程;

(3)存在与任务无关的大型活动变化。

科学家认为,理解这些特征在大脑中的作用将是使用优化框架描述生物学习的关键。

文章

1、eXtreme Gradient Boosting (XGBoost): Better than random forest or gradient boosting[4]

本文通过实例介绍和对比了XGBoost, Gradient Boosting (GBM), Random Forest, Lasso, Best Subset几种算法。

2、Sankey Diagram in R[5]

本文介绍使用plotly绘制桑基图。

3、Tabby:这个开源的终端工具更酷炫

本文介绍Tabby的安装和使用。

4、一文读懂基因组浏览器绘制文件 bigwig

bigwig是一种常见的基因组文件格式,本文介绍它的特点、应用场景和相关工具。

工具

1、pybedtools: Python wrapper -- and more -- for Aaron Quinlan's BEDTools (bioinformatics tools)[6]

瑞士军刀bedtools[7]是基因组区间数据处理的标杆,pybedtools提供了一个python接口。

代码语言:javascript
复制
from pybedtools import BedTool

snps = BedTool('snps.bed.gz')  # [1]
genes = BedTool('hg19.gff')    # [1]

intergenic_snps = snps.subtract(genes)                       # [2]
nearby = genes.closest(intergenic_snps, d=True, stream=True) # [2, 3]

for gene in nearby:             # [4]
    if int(gene[-1]) < 5000:    # [4]
        print gene.name         # [4]

2、rawgraphs - 表格数据分析和可视化平台

2013 年,来自米兰理工大学的一个研究室 DensityDesign,正式发布了 RAWGraphs。

项目诞生的初衷,主要是在于帮助设计师与开发者,打通电子表格应用与矢量图形编辑器之间的桥梁,让数据与图形的对接,变得更加流畅丝滑。

3、multicolor - 丰富你的信息输出的R包[8]

4、edgebundle - edge bundling算法实现R包[9]

包含的算法实现:

  • Force directed edge bundling
  • Stub bundling
  • Hammer bundling
  • Edge-path bundling
  • TNSS flow map
  • Multicriteria Metro map layout

资源

1、Machine-Learning-From-Scratch[10]

每天30分钟,系统梳理机器学习的各个知识点,概念+原理+代码。

2、Bioinformatics-training-collection[11]

这是一个学习生物信息学相关工具和语言的资源集合。

2、Gene set enrichment analysis for genome-wide DNA methylation data[12]

包含一系列甲基化分析的文档。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-02-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 优雅R 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 生信科技动态
  • 文章
  • 工具
  • 资源
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档