【SPA大赛】LR模型的简单使用教程

1、 什么是 LR 模型

LR ( Logistic Regression ) 是在线性回归的基础上,套用了一个逻辑函数。 而回归是一种及其简单的模型,我们一个普通的二元函数 y=f(x),就属于回归的一种。它虽然简单,但是它有一个极其致命的缺点:线性回归的鲁棒性很差。这使回归模型在机器学习领域上表现很一般。但是套用了逻辑函数之后,逻辑回归模型在克服了线性回归鲁棒性差这个缺点,使得它在机器学习上面有了一席之地。像腾讯算法大赛这类二分类问题,就可以用逻辑回归来实现。

2、 LR 模型的代码实现

首先导入必要的工具包:

接着用pandas工具包里面的read_csv()函数把训练集和测试集导入:

分离出特征值和label,在下面的代码中,column_name是特征值名字的列表,如‘age’,’ positionID’,…..:

从sklearn.linear_model里导入LogisticRegression。

在Python中提供了LR模型,我们直接引入相应的包就可以使用LR模型:

引入相应的模型后,我们就可以调用LogisticRegression中的fit函数用来训练模型参数:

模型训练好了之后,接下来就是进行结果的预测了。

其中result是predict_proba产生的一个预测概率,由此我们得到了腾讯算法大赛要求的概率将其输出既可得到所要的zip文件,具体实现在官方的baseline中有相应的代码实现,在此不再赘述,附上官方baseline的链接,有需要的同学可以参考:腾讯社交广告算法大赛 Baseline

3、 LR模型对维度过大的特征值的处理

为了使得预测结果不会被某些维度过大的特征值而主导。Python中提供了标准化数据相应的函数,保证每个维度的特征数据方差为1,均值为0。由此让我们的LR模型对此次算法大赛中一些离散度较高的特征有了应对之策,例如下图的positionID,数据大小相差较大,会导致结果受到影响,使用标准化处理可以避免这个问题,使得我们可以得到一个更好的成绩。

以上即为LR模型结合本次腾讯算法大赛的简单使用教程,如有错误,欢迎大家指出!

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

李润凯的专栏

1 篇文章1 人订阅

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

写给大家看的机器学习书【Part2】训练数据长什么样?机器学到的模型是什么?

1663
来自专栏张鑫龙的专栏

运维场景下的机器学习尝试

机器学习最近大红大紫,既有这个契机为何不乘机好好学习一番。本文不是科普文,本人作为初学者也没有能力教别人,仅仅用此篇文章记录自己学习及尝试结合业务场景进行的一些...

2K1
来自专栏ATYUN订阅号

Scikit-learn中文文档发布,Python爱好者们准备好了吗?

近日,Scikit-Learn中文文档已由开源组织ApacheCN完成校对,这对于国内机器学习用户有非常大的帮助。该中文文档依然包含了Scikit-Learn基...

2856
来自专栏星回的实验室

推荐系统从0到1[三]:排序模型

前文中,我们根据不同召回策略召回了一批文章,并统一根据文章质量排序输出。但实际上,用户的阅读兴趣还会受到很多其他因素的影响。比如用户所处的网络环境,文章点击率、...

2864
来自专栏数据派THU

用Python进行机器学习(附代码、学习资源)

本文从非线性数据进行建模,带你用简便并且稳健的方法来快速实现使用Python进行机器学习。

2136
来自专栏智能算法

25个机器学习面试题,你都会吗?

许多数据科学家主要是从一个数据从业者的角度来研究机器学习(ML)。因此,关于机器学习,我们应该尽可能多地把注意力放在新的程序包、框架、技术等方面,而不是关于核心...

852
来自专栏CDA数据分析师

资源 | 25个机器学习面试题,期待你来解答

许多数据科学家主要是从一个数据从业者的角度来研究机器学习(ML)。因此,关于机器学习,我们应该尽可能多地把注意力放在新的程序包、框架、技术等方面,而不是关于核心...

1111
来自专栏大数据挖掘DT机器学习

腾讯算法大赛-社交广告APP转化率预测总结与源码分享(决赛第26名)

本文个别公式为正常显示,详细请查看原文: https://jiayi797.github.io/2017/06/07/%E6%9C%BA%E5%99%A8%E5...

1K8
来自专栏null的专栏

社团划分——Fast Unfolding算法

社团划分——Fast Unfolding算法 一、社区划分问题 1、社区以及社区划分 在社交网络中,用户相当于每一个点,用户之间通过互相的关注关系构成了整个网络...

7673
来自专栏数据分析

文本分类中的特征选择方法

在文本分类中,特征选择是选择训练集的特定子集的过程并且只在分类算法中使用它们。特征选择过程发生在分类器的训练之前。

2066

扫码关注云+社区