这篇文章从以下4个方面聊聊机器学习中的逻辑回归:
引子:QQ音乐推荐系统
决策面
逻辑回归
案例分析
「引子:QQ音乐推荐系统」
打开我的手机APP音乐,查看今日推荐歌单。歌手是最近常听的几位,QQ音乐还是有点懂我。
当我听到一首歌曲,我会从节奏、强度等特征判断是否喜欢。
在机器学习中,节奏、强度就是特征,喜欢or不喜欢是标签。
QQ音乐模拟人的决策过程,先从你的历史歌单中学习歌曲的特征(节奏、强度等),并将这些特征值输入到模型,模型就会建立特征和标签的关系。当下一首歌曲出现时,特征值会输入到模型中,从而返回喜欢or不喜欢,进而进行推荐。以上,这是QQ音乐的推荐系统的思路,当然实践会复杂很多。
「决策面」
我们再深入探讨上述的案例,模型判断歌曲喜欢or不喜欢是一个二分类问题。问题来了,喜欢or不喜欢有没有一个明确是界限。此时,我们引入决策面(decision surface, D.S.)的概念。上述案例中,只有两个特征:节奏和强度。给每一首歌的节奏和强度赋值,然后在二维坐标中画出散点图。黄色点代表喜欢,绿色点代表不喜欢。然而,红色点接近中间,如何判断呢?这时,如果有一个决策面,左边的为喜欢,右边的为不喜欢,那问题就显而易见了。
在机器学习中,处理分类问题的关键就是,将测试数据的标签和特征转化成一个决策面。机器学习中,有很多算法可以求得决策面。
如何预测模型的准确率,就要用正确率这个指标,正确率=正确分类个数/数据总数。注意,这里的数据集都是来自测试数据。
「逻辑回归」
逻辑回归(logistics regession)是一个典型的二分类问题,由于名字有误导性,它并非是一个回归问题。逻辑回归的标签只有两种类型,一般用0和1表示。它的核心是逻辑函数:
可以看出,通过逻辑函数,可以把y值的范围控制在0到1之间。当y≥0.5时,代表特征1,y
「案例分析」
案例:研究考试数据和考试是否能通过的关系
以下是用Python的jupter notebook实现的案例代码,截屏会更清晰一点
可以看出,测试数据的正确率为1,说明全部预测准确。
输入3小时,可以看到未通过的概率为44%,通过的概率为56%。
以上就是此次的内容,请走过路过的亲多多支持!
往期文章:《机器学习入门(1):线性回归》
《首篇数据分析报告出炉》
领取专属 10元无门槛券
私享最新 技术干货