首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    使用Vabs-Net进行多层次蛋白质预训练

    今天为大家介绍的是来自Shuqi Lu团队的一篇论文。近年来,在各种下游任务中基于3D结构的预训练蛋白质模型的发展激增,这代表了预训练蛋白质语言模型的重大进步。然而,大多数现有的基于结构的预训练模型主要关注残留物水平,即α碳原子,而忽略了如侧链原子等其他原子。作者认为,在残基和原子水平上对蛋白质进行建模是很重要的,因为侧链原子对许多诸如分子对接等下游任务也至关重要。然而,作者发现在预训练中天真地结合残基和原子信息通常会失败。一个关键原因是输入中包含原子结构导致的信息泄漏,这使得残差级预训练任务变得微不足道,导致残差表示的表达不足。为了解决这个问题,作者在3D蛋白质链上引入了一个跨度掩模预训练策略,以学习残基和原子的有意义表示。这导致了一种简单而有效的方法来学习适合于各种下游任务的蛋白质表示。结合位点预测和功能预测任务的大量实验结果表明,该预训练方法明显优于其他方法。

    01

    【竞赛】一种提升多分类准确性的Trick

    随机森林是一种高效并且可扩展性较好的算法, K最近邻算法则是一种简单并且可解释较强的非参数化算法。在本篇文章中,我们针对多分类问题提出了一种将随机森林和KNN算法相结合框架,我们先用训练数据对随机森林模型进行训练然后用训练好的随机森林模型对我们的训练集和测试集进行预测分别得到训练集和测试集的概率矩阵,然后将测试集中的可疑样本取出并在概率空间中进行KNN训练测试,我们的框架很大地提升了测试集中可疑样本的预测准确率;此外我们从预测的概率空间对训练数据进行噪音的过滤与删除,从而进一步提升了我们模型的预测准确率。在大量实验数据的测试中,我们的方法都取得了非常显著的效果。

    03

    机器学习-13:MachineLN之kNN

    其实训练模型是个力气活,有人说训练模型很简单,把数据塞进去,然后跑完就好了,哦,这样的话谁都会,关键的也就在这里,同样的数据同样的模型,有些人训练的模型在测试集上99%,有些人的则只有95%,甚至90%,其实学习最关键的也在这里,大家同时学一个知识,也都学了,但是理解的程度会大相径庭,注意trick不可不学,并且坑不得不踩。唉,前几天训练好的一个模型,再让自己复现感觉也很难搞定了,天时地利人和!!!今天开始搞传统机器学习的理论和实践,突然发现这是自己的短板,其实也不是啦:李航老师统计学看了4遍,周志华老师机器学习看了一遍,模式分类那本大厚书粗略看了一遍,经典的数据挖掘看了一遍,还看了一本机器学习的忘记名字了,吴恩达的课看了一遍,还看了一些英文资料,机器学习实践照着敲了一遍,在就是一些零零碎碎的.....,虽然做过一些实践,但是缺乏工程上的磨练。

    02
    领券