【SPA大赛】LR模型的简单使用教程

1、 什么是 LR 模型

LR ( Logistic Regression ) 是在线性回归的基础上,套用了一个逻辑函数。 而回归是一种及其简单的模型,我们一个普通的二元函数 y=f(x),就属于回归的一种。它虽然简单,但是它有一个极其致命的缺点:线性回归的鲁棒性很差。这使回归模型在机器学习领域上表现很一般。但是套用了逻辑函数之后,逻辑回归模型在克服了线性回归鲁棒性差这个缺点,使得它在机器学习上面有了一席之地。像腾讯算法大赛这类二分类问题,就可以用逻辑回归来实现。

2、 LR 模型的代码实现

首先导入必要的工具包:

接着用pandas工具包里面的read_csv()函数把训练集和测试集导入:

分离出特征值和label,在下面的代码中,column_name是特征值名字的列表,如‘age’,’ positionID’,…..:

从sklearn.linear_model里导入LogisticRegression。

在Python中提供了LR模型,我们直接引入相应的包就可以使用LR模型:

引入相应的模型后,我们就可以调用LogisticRegression中的fit函数用来训练模型参数:

模型训练好了之后,接下来就是进行结果的预测了。

其中result是predict_proba产生的一个预测概率,由此我们得到了腾讯算法大赛要求的概率将其输出既可得到所要的zip文件,具体实现在官方的baseline中有相应的代码实现,在此不再赘述,附上官方baseline的链接,有需要的同学可以参考:腾讯社交广告算法大赛 Baseline

3、 LR模型对维度过大的特征值的处理

为了使得预测结果不会被某些维度过大的特征值而主导。Python中提供了标准化数据相应的函数,保证每个维度的特征数据方差为1,均值为0。由此让我们的LR模型对此次算法大赛中一些离散度较高的特征有了应对之策,例如下图的positionID,数据大小相差较大,会导致结果受到影响,使用标准化处理可以避免这个问题,使得我们可以得到一个更好的成绩。

以上即为LR模型结合本次腾讯算法大赛的简单使用教程,如有错误,欢迎大家指出!

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

李润凯的专栏

1 篇文章1 人订阅

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏小小挖掘机

用Deep Recurrent Q Network解决部分观测问题!

好了,回到正题!我们都知道,深度Q网络(Deep-Q-Network)最初是应用在让机器人打游戏,状态的输入常常是前几个画面的截图,但是有时候仅仅靠前面画面的图...

1104
来自专栏机器学习算法与Python学习

回归预测之入门

最近一段时间再看斯坦福大学几期学习的教学视频,有百度首席工程师、百度大脑以及百度研究院的负责人吴恩达教授讲述,内容深入浅出,推荐想踏入机器学习领域的童鞋观看。这...

2645
来自专栏AI研习社

数据增强:数据有限时如何使用深度学习 ? (续)

这篇文章是对深度学习数据增强技术的全面回顾,具体到图像领域。这是《在有限的数据下如何使用深度学习》的第2部分。

1343
来自专栏专知

【深度干货】专知主题链路知识推荐#5-机器学习中似懂非懂的马尔科夫链蒙特卡洛采样(MCMC)入门教程01

【导读】主题链路知识是我们专知的核心功能之一,为用户提供AI领域系统性的知识学习服务,一站式学习人工智能的知识,包含人工智能( 机器学习、自然语言处理、计算机视...

3777
来自专栏数据派THU

教你用Python解决非平衡数据问题(附代码)

本文为你分享数据挖掘中常见的非平衡数据的处理,内容涉及到非平衡数据的解决方案和原理,以及如何使用Python这个强大的工具实现平衡的转换。

732
来自专栏灯塔大数据

塔秘 | 详解用深度学习方法处理结构化数据

导读 鉴于使用深度学习方法按照本文所介绍的步骤处理结构化数据有以下的好处:快;无需领域知识;表现优良,本文主要详细讲述如何用深度学习方法处理结构化数据。 在机器...

3578
来自专栏IT派

用 TensorFlow 让机器人唱首歌给你听

然后会用一些打过标签的音乐的数据,这些标签就是人类的各种情感。接着通过在这些数据上面训练一个模型,模型训练好后就可以生成符合要求关键词的音乐。

912
来自专栏专知

伯克利新论文 | 合成GAN(Compositional GAN)

【导读】伯克利大学今日发表一篇最新论文,改进生成对抗网络GAN,提出了一个名为“Compositional GAN”的模型,将GAN框架中的对象组合建模为一个s...

1020
来自专栏机器学习算法与Python学习

干货 | 一文读懂什么是贝叶斯机器学习

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第二 【Python】:排名第三 【算法】:排名第四 你知道贝叶斯法则。机器学习与它有何相...

3547
来自专栏AI深度学习求索

目标检测(CVPR2017):Feature Pyramid Networks

(a)使用图像金字塔构建特征金字塔网络:每个图像尺度上的特征都是独立计算的,速度缓慢。

933

扫码关注云+社区