一
论文题目:
Deep fusion learning facilitates anatomical therapeutic chemical recognition in drug repurposing and discovery
论文摘要:
找到一个合适的数据表示和建模方法来促进药物再利用是非常有意义的。目前,计算方法被应用于预测药物的ATC分类,作者首先对ATC计算预测研究进行了系统回顾,并揭示了数据集、数据表示、算法方法和评价指标的差异,然后作者提出了一个深度融合学习(DFL)框架来优化ATC预测模型。在DeepATC中应用了基于图卷积网络、推断生物网络和多模型周到融合网络的方法,从分子图和异质生物网络中提取分子拓扑信息和低维表示。DFL框架还被用于基于转录组数据的ATC预测,以及另一项与药物发现明显相关的独立任务,即药物-靶点相互作用。基于DFL的模型在上述扩展的验证任务中取得了优异的表现,表明聚合异质生物网络和节点(分子或蛋白质)自拓扑特征的想法将为更广泛的药物再利用和发现研究带来启发。
论文链接:
https://academic.oup.com/bib/advance-article/doi/10.1093/bib/bbab289/6342939?searchresult=1
二
论文题目:
DeepMotifSyn: a deep learning approach to synthesize heterodimeric DNA motifs
论文摘要:
转录因子(TF)协同作用是基因调控系统中普遍存在的现象。然而,TF绑定基元之间的交互模式仍然是未知的。最近的高通量分析CAP-SELEX已经鉴定了600多个由合作TF对结合的复合DNA位点(即异二聚体基元)。然而,在人类细胞中有超过25000个推断有效的异二聚体转录因子。由于成本和人工的原因,对所有异质二聚体基序进行验证实际上是不可行的。文章构建了DeepMotifSyn,一个基于深度学习的工具,用于从单体基序对合成异二聚基序。DeepMotifSyn由异质二聚体基序生成器和赋值器组成。该发生器是一个基于u-net的神经网络,可以从对齐的基序对合成异质二聚基序。评估器是一种基于机器学习的模型,可以根据基序序列特征对生成的异二聚基序候选基序进行评分。对CAP-SELEX数据的系统评估表明,DeepMotifSyn显著优于当前最先进的预测器。
论文链接:
https://academic.oup.com/bib/advance-article/doi/10.1093/bib/bbab334/6370301
Github链接:
https://github.com/JasonLinjc/deepMotifSyn
三
论文题目:
Ensemble modeling with machine learning and deep learning to provide interpretable generalized rules for classifying CNS drugs with high prediction power
论文摘要:
在中枢神经系统相关的定量结构-活性关系(CNS-QSAR)分析中,机器学习(ML)和深度学习(DL)模型的可预测性和可解释性之间的权衡一直是一个日益受到关注的问题。许多最先进的预测模型由于其类似黑匣子的特性而未能提供结构上的见解。CNS-QSAR模型缺乏可解释性以及进一步提供简单的规则将是一个挑战。文章开发了一个协议,结合ML和DL的能力,生成一组简单的规则,易于解释和高预测能力。使用支持向量机和图卷积网络算法对940种上市药物(315种cns活性药物,625种cns非活性药物)的数据集进行了分析。为了比较,还构建了各自的ML/DL建模方法。使用117种市场药物(42种cns活性药物,75种cns非活性药物)的额外外部数据集评估了这些模型的性能。为了保证模型的严格性和泛化性,采用了指纹分离验证。所建立的新型混合集成模型的精度为0.96,F1值为0.95,优于其他组成传统的QSAR模型。
论文链接:
https://academic.oup.com/bib/advance-article/doi/10.1093/bib/bbab377/6371351
Github:
https://github.com/tzuhuiyuatntu/cnsstudy2019
四
论文题目:
A general optimization protocol for molecular property prediction using a deep learning network
论文摘要:
设计预测分子性质的深度学习模型的关键是应用各种优化方法。虽然单个优化方法都成功地提高了模型性能,但当进行这些方法的特定组合时,可能会取得更好的改善。在这项工作中,作者使用并讨论了三种高性能优化方法(这些方法已被证明能够极大地改善模型性能),由此形成一个关于优化分子不同属性的CNN模型的通用框架。这三种技术针对化合物SMILES表示法的动态批次大小策略,选择模型的超参数进行贝叶斯优化,以及使用前馈神经网络获得的化学特征进行特征学习,这些特征与学习的分子特征向量相连接。在文中,作者展示了三种技术中的每一种如何影响模型,以及最佳模型如何受益于贝叶斯优化的使用与动态批次大小的调整。
论文链接:
https://academic.oup.com/bib/advance-article/doi/10.1093/bib/bbab367/6366324?searchresult=1
Github链接:
https://github.com/titanda/Learn-it-all/tree/ready_classification_feature.