首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

教你如何用python解决非平衡数据建模(附代码与数据)

本次分享的主题是关于数据挖掘中常见的非平衡数据的处理,内容涉及到非平衡数据的解决方案和原理,以及如何使用Python这个强大的工具实现平衡的转换。 SMOTE算法的介绍 在实际应用中,读者可能会碰到一种比较头疼的问题,那就是分类问题中类别型的因变量可能存在严重的偏倚,即类别之间的比例严重失调。如欺诈问题中,欺诈类观测在样本集中毕竟占少数;客户流失问题中,非忠实的客户往往也是占很少一部分;在某营销活动的响应问题中,真正参与活动的客户也同样只是少部分。 如果数据存在严重的不平衡,预测得出的结论往往也是有偏的,

08

Nat. Commun. | 用于蛋白质设计的深度无监督语言模型ProtGPT2

本文介绍一篇拜罗伊特大学2022年7月发表在nature communications的《ProtGPT2 is a deep unsupervised language model for protein design》。蛋白质设计在自然环境和生物医学中发挥着重要作用,旨在为特定用途设计全新的蛋白质。受到近期Transformer架构在文本生成领域成功的启发,作者提出ProtGPT2,一种在蛋白质空间上训练的语言模型,用于生成遵循自然序列原则的全新蛋白质序列。ProtGPT2生成的蛋白质显示出天然氨基酸倾向,而无序预测表明,88%的ProtGPT2生成的蛋白质是球状的,与自然序列一致。蛋白质数据库中的敏感序列搜索表明,ProtGPT2序列与自然序列有着远亲关系,相似网络进一步证明,ProtGPT2是对蛋白质空间中未探索区域的采样。ProtGPT2生成的序列在探索蛋白质空间的未知区域时,保留了天然蛋白质的关键特征。

01

机器学习的跨学科应用——训练测试篇

在机器学习问题中,要求模型执行两个相互矛盾的任务:1. 最小化训练数据集上的预测误差 2. 最大化其对看不见的数据进行泛化的能力。根据模型,损失函数和评估方法的测试方式不同,模型可能最终会记住训练数据集(不良结果),而不是学数据的充分表示(预期结果)。这称为过拟合,通常会导致模型的泛化性能下降。过拟合可能会在各种模型上发生,尽管通常会在较复杂的模型上,例如随机森林,支持向量机和神经网络。 在模型训练期间,请在训练和验证集上观察训练指标,例如您的损失输出和r得分。比如,在训练神经网络时,您可以使用学习曲线在训练过程中跟踪每个周期的验证错误。理想情况下,随着模型的训练,验证和训练误差将会减少,您的训练误差将接近零,但这并不是我们关心的指标!您应该更密切注意验证集的错误。当您的验证错误再次增加而训练错误继续减少时,您可能会记住训练数据,从而过度拟合了数据。 过拟合可能会对模型的泛化能力产生不利的影响。也就是说,为新的和看不见的数据返回不合理的输出预测,从而使测试数据集的效果较差。如果您发现模型非常容易拟合训练数据,请考虑降低模型的复杂度或者使用正则化。

01

女神也用的约会决策:决策树算法实践

今天要介绍的是一个应用非常广泛的机器学习模型——决策树。首先从一个例子出发,看看女神是怎样决策要不要约会的;然后分析它的算法原理、思路形成的过程;由于决策树非常有价值,还衍生出了很多高级版本。决策树是机器学习中强大的有监督学习模型,本质上是一个二叉树的流程图,其中每个节点根据某个特征变量将一组观测值拆分。决策树的目标是将数据分成多个组,这样一个组中的每个元素都属于同一个类别。决策树也可以用来近似连续的目标变量。在这种情况下,树将进行拆分,使每个组的均方误差最小。决策树的一个重要特性可解释性好,即使你不熟悉机器学习技术,也可以理解决策树在做什么。

02

Large scale GAN training for high fidelity natural image synthesis解读

尽管最近几年在生成式图像建模上取得了进步,但从ImageNet这样的复杂数据集生成高分辨率、多样化的图像仍然是一个具有挑战性的工作。为了达到这一目标,本文作者训练了到目前为止最大规模的生成对抗网络(BigGAN),并对这种规模下的网络在训练时的不稳定性进行了研究。作者发现,将正交正则化用于生成器网络能够起到很好的效果,通过对隐变量的空间进行截断处理,能够在样本的真实性与多样性之间进行精细的平衡控制。本文提出的方法在类别控制的图像生成问题上取得了新高。如果用ImageNet的128x128分辨率图像进行训练,BigGAN模型生成图像的Inception得分达到了166.3,FID为9.6。

03
领券