首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

J. Chem. Inf. Model. | 提高化合物-蛋白质相互作用预测的方法:通过使用增加的负样本进行自我训练

今天为大家介绍的是来自Yasushi Okuno团队的一篇论文。识别化合物-蛋白质相互作用(CPI)对于药物发现至关重要。由于实验验证CPI通常耗时且昂贵,因此期望计算方法能够促进这一过程。可用的CPI数据库迅速增长加速了许多机器学习方法用于CPI预测的发展。然而,它们的性能,特别是它们在外部数据上的泛化能力,往往受到数据不平衡的影响,这归因于缺乏经验证的非活性(负面)样本。在这项研究中,作者开发了一种自我训练方法,用于增加可信和信息丰富的负样本,以改善由数据不平衡导致的模型性能下降问题。构建的模型表现出比使用其他传统方法解决数据不平衡时更高的性能,且在外部数据集上改进明显。

04

Bioinformatics|具有图和序列的神经网络的端到端学习的化合物与蛋白质相互作用预测

这次给大家介绍Masashi Tsubaki教授的论文“Compound-protein Interaction Prediction with End-to-end Learning of Neural Networks for Graphs and Sequences”。关于化合物与蛋白质的相互作用 (Compound-Protein Interactions ,CPIs)预测的相关问题是当今药物研发的重要课题,能更高效准确的预测 CPI,对生物科研、化学实验和日常制药都会大有益处。Masashi Tsubaki教授现有模型处理不平衡数据集(即包含少量的正样本(即相互作用)和大量的负样本(即不相互作用)的数据集)的不良性能问题。基于此问题,Masashi Tsubaki教授将GNN(Graph Neural Network,图神经网络)和CNN(Convolutional Neural Network,卷积神经网络)引入 基础分类器模型并加入注意力机制调控,提出一种具有图和序列的端到端神经网络模型,通过端到端表示学习在平衡和不平衡数据集上实现更强大的性能,在某些方面了优化CPI的预测。

02

最新综述| 真实世界中图神经网络

图结构数据在多个领域展现了其普遍性和广泛的适用性,例如社交网络分析、生物化学、金融欺诈检测以及网络安全等。在利用图神经网络(Graph Neural Networks, GNNs)在这些领域取得显著成功方面,已经取得了重要进展。然而,在现实世界场景中,模型的训练环境往往远非理想,由于包括数据分布的不平衡、错误数据中噪声的存在、敏感信息的隐私保护以及对于分布外(Out-of-Distribution, OOD)场景的泛化能力等多种不利因素,导致GNN模型的性能大幅下降。为了解决这些问题,已经投入了大量努力来改进GNN模型在实际现实世界场景中的性能,以及提高它们的可靠性和鲁棒性。在本文中,我们提出了一份全面的综述,系统性地回顾了现有的GNN模型,着重于解决四个提及的现实世界挑战,包括在许多现有综述未考虑的实际场景中的不平衡、噪声、隐私和OOD问题。具体来说,我们首先强调现有GNN面临的四大关键挑战,为我们探索现实世界的GNN模型铺平道路。随后,我们提供了这四个方面的详细讨论,分析这些解决方案如何有助于提高GNN模型的可靠性和鲁棒性。最后但同样重要的是,我们概述了有前景的方向,并在该领域提供了未来的视角。

01

最新综述| 真实世界中图神经网络

图结构数据在多个领域展现了其普遍性和广泛的适用性,例如社交网络分析、生物化学、金融欺诈检测以及网络安全等。在利用图神经网络(Graph Neural Networks, GNNs)在这些领域取得显著成功方面,已经取得了重要进展。然而,在现实世界场景中,模型的训练环境往往远非理想,由于包括数据分布的不平衡、错误数据中噪声的存在、敏感信息的隐私保护以及对于分布外(Out-of-Distribution, OOD)场景的泛化能力等多种不利因素,导致GNN模型的性能大幅下降。为了解决这些问题,已经投入了大量努力来改进GNN模型在实际现实世界场景中的性能,以及提高它们的可靠性和鲁棒性。在本文中,我们提出了一份全面的综述,系统性地回顾了现有的GNN模型,着重于解决四个提及的现实世界挑战,包括在许多现有综述未考虑的实际场景中的不平衡、噪声、隐私和OOD问题。具体来说,我们首先强调现有GNN面临的四大关键挑战,为我们探索现实世界的GNN模型铺平道路。随后,我们提供了这四个方面的详细讨论,分析这些解决方案如何有助于提高GNN模型的可靠性和鲁棒性。最后但同样重要的是,我们概述了有前景的方向,并在该领域提供了未来的视角。

01

深层卷积神经网络在路面分类中的应用

编者按:路面峰值附着系数是实现车辆精确运动控制的关键参数。现有的路面识别方法多是基于车辆动力学构建状态观测器实现。此类方法通常适用于车辆加速和减速期间,在轮胎力饱和的情况下,例如在强制动条件下,确定摩擦系数是可行的。困难在于在更正常的驾驶环境下获得摩擦估计,也就是当轮胎滑移率较小时的估计(路面附着利用较低)。实际的道路环境往往复杂多变,而此类方法的收敛速度往往不足以实现实时估计的要求。因此,如何实现高精度实时的路面识别方法将会是此类方法研究的难点与重点。与此同时,基于机器视觉的路面识别方法的优势在于探测范围广、预测性强,但是易受环境中的光线等因素干扰,未来此类方法的研究重点会放在抗干扰能力和对图像识别准确率上。而基于车辆动力学的识别方法与基于图像的识别方法的有效结合,可以充分解决实时性与准确性冲突的问题,基于图像的识别方法为基于车辆动力学的识别方法提供预测的参考输入,可以提前获悉前方路面的特征,使得智能驾驶系统的性能得到提升。

02

Wolfram 技术帮您通过咳嗽音来预测诊断新冠病毒

声音分类可能是一项艰巨的任务,尤其是当声音样本的变化很小而人耳无法察觉时。机器的使用以及最近的机器学习模型已被证明是解决声音分类问题的有效方法。这些应用程序可以帮助改善诊断,并已成为心脏病学和肺病学等领域的研究主题。卷积神经网络识别COVID-19咳嗽的最新创新以及使用咳嗽记录来检测无症状COVID-19感染的MIT AI模型(https://news.mit.edu/2020/covid-19-cough-cellphone-detection-1029)显示出仅凭咳嗽声就可识别COVID-19患者的一些令人鼓舞的结果。综观这些参考资料,这项任务可能看起来颇具挑战性,就像只有顶尖研究人员才能完成的任务一样。在本文中,我们将讨论如何使用Wolfram语言中的机器学习和音频功能获得这非常有希望的结果。

03

JCIM|激增的机器学习方法推动QSAR研究的再发展

1962年,在Hansch及其同事所做的关于定量结构-活性关系(quantitative structure−activity relationship, QSAR)的开创性工作中,预测Hammett函数和分配系数将在建立构效关系中变得非常重要。在过去的60年中,QSAR已经从小数据集的类似化合物的粗糙回归/分类分析发展到基于精巧的机器学习技术,机器学习可以提取嵌入在复杂结构的分子组成的大数据集中的化学、物理和生物功能信息特征。通过结构-活性映射关系的转换,QSAR成为药物发现的重要组成部分。这使得研究者可以高效、低成本地预测分子活性和性质,以及基于结构的虚拟筛选数百万候选药物组成的化学库得到有潜力的hits。机器学习也应用于各种其他领域,包括化合物的逆向合成路线预测,蛋白质和化合物设计,构象生成,力场优化和蛋白质结构预测。经典的QSAR方法依赖于数学模型来建立各种描述符与生物活性之间的关系。这些描述符包括分子指纹、图或其他数学表示等。生物活性包括吸收、分布、代谢、排泄、毒性(ADMET),结合自由能,蛋白质-配体复合物的动力学速率等。建立这样的关系也常常需要基于具有相似拓扑结构和功能的分子组成的数据集。由于可以使用广泛的数学模型,QSAR很早就结合了机器学习算法,通过多任务模型建模非线性结构-功能关系来处理大且高维数据集。

02

目标检测 | 丰富特征导向Refinement Network用于目标检测(附github源码)

研究者提出了一个单阶段检测框架,该框架解决了多尺度目标检测和类不平衡的问题。没有设计更深层的网络,而是引入了一种简单而有效的特征丰富化方案来生成多尺度的上下文特征。进一步引入了一种级联的优化(精炼)方案,该方案首先将多尺度的上下文特征注入到一阶段检测器的预测层中,以增强其进行多尺度检测的判别能力。其次,级联精炼方案通过细化anchors和丰富的特征以改善分类和回归来解决类不平衡问题。对于MS COCO测试上的320×320输入,新的检测器在单尺度推理的情况下以33.2的COCO AP达到了最先进的一阶段检测精度,操作是在一个Titan XP GPU上以21毫秒运行的 。对于MS COCO测试上的512×512输入,与最佳的单阶段结果相比,就COCO AP而言,新方法获得了一个明显的增加(增加了1.6%)。

03

计算机视觉最新进展概览(2021年7月11日到2021年7月17日)

自动驾驶汽车的目标检测通常基于摄像头图像和激光雷达输入,通常用于训练深度人工神经网络等预测模型,用于目标识别决策、速度调节等。 这种决策中的一个错误可能是破坏性的; 因此,通过不确定性测度来衡量预测模型决策的可靠性至关重要。 在深度学习模型中,不确定性通常用于衡量分类问题。 然而,自动驾驶中的深度学习模型往往是多输出回归模型。 因此,我们提出了一种新的方法,即预测表面不确定度(PURE)来测量这类回归模型的预测不确定度。 我们将目标识别问题表述为一个具有多个输出的回归模型,用于在二维摄像机视图中寻找目标位置。 为了进行评估,我们修改了三个广泛应用的目标识别模型(即YoLo、SSD300和SSD512),并使用了KITTI、Stanford Cars、Berkeley DeepDrive和NEXET数据集。 结果显示,预测面不确定性与预测精度之间存在显著的负相关关系,表明不确定性对自动驾驶决策有显著影响。

04

基于神经网络集成学习的研究论文推荐

深度神经网络 (DNN) 容易过度拟合,过拟合的网络会导致对于新的数据实例表现不佳。该论文提出了不使用单个 DNN 作为分类器,而是使用一个由七个独立 DNN 学习器组成的集合,这些DNN都会保持它们的架构和内在属性相同,但是使用不同的数据输入。为了在训练输入中引入多样性, 每一个DNN将会删除七分之一的输入数据,并从剩余的样本中通过bootstrap抽样进行补充。论文提出了一种新的技术来结合DNN学习者的预测。这种方法被称 pre-filtering by majority voting coupled with stacked meta-learner,它在分配最终类标签之前对预测执行两步置信度检查。论文将所有算法在人类活动识别(Human Activity Recognition, HAR)、气体传感器阵列漂移(Gas sensor array drift)、Isolet、垃圾邮件(Spam-base)和互联网广告五个基准数据集上进行了测试,发现所提出的集成方法比单个DNN和多DNN的平均集成,以及多元化投票和元学习的基线方法获得了更高的准确率

03
领券