机器学习入门(2):从QQ音乐推荐系统到逻辑回归

这篇文章从以下4个方面聊聊机器学习中的逻辑回归:

引子:QQ音乐推荐系统

决策面

逻辑回归

案例分析

「引子:QQ音乐推荐系统」

打开我的手机APP音乐,查看今日推荐歌单。歌手是最近常听的几位,QQ音乐还是有点懂我。

当我听到一首歌曲,我会从节奏、强度等特征判断是否喜欢。

在机器学习中,节奏、强度就是特征,喜欢or不喜欢是标签。

QQ音乐模拟人的决策过程,先从你的历史歌单中学习歌曲的特征(节奏、强度等),并将这些特征值输入到模型,模型就会建立特征和标签的关系。当下一首歌曲出现时,特征值会输入到模型中,从而返回喜欢or不喜欢,进而进行推荐。以上,这是QQ音乐的推荐系统的思路,当然实践会复杂很多。

「决策面」

我们再深入探讨上述的案例,模型判断歌曲喜欢or不喜欢是一个二分类问题。问题来了,喜欢or不喜欢有没有一个明确是界限。此时,我们引入决策面(decision surface, D.S.)的概念。上述案例中,只有两个特征:节奏和强度。给每一首歌的节奏和强度赋值,然后在二维坐标中画出散点图。黄色点代表喜欢,绿色点代表不喜欢。然而,红色点接近中间,如何判断呢?这时,如果有一个决策面,左边的为喜欢,右边的为不喜欢,那问题就显而易见了。

在机器学习中,处理分类问题的关键就是,将测试数据的标签和特征转化成一个决策面。机器学习中,有很多算法可以求得决策面。

如何预测模型的准确率,就要用正确率这个指标,正确率=正确分类个数/数据总数。注意,这里的数据集都是来自测试数据。

「逻辑回归」

逻辑回归(logistics regession)是一个典型的二分类问题,由于名字有误导性,它并非是一个回归问题。逻辑回归的标签只有两种类型,一般用0和1表示。它的核心是逻辑函数:

可以看出,通过逻辑函数,可以把y值的范围控制在0到1之间。当y≥0.5时,代表特征1,y

「案例分析」

案例:研究考试数据和考试是否能通过的关系

以下是用Python的jupter notebook实现的案例代码,截屏会更清晰一点

可以看出,测试数据的正确率为1,说明全部预测准确。

输入3小时,可以看到未通过的概率为44%,通过的概率为56%。

以上就是此次的内容,请走过路过的亲多多支持!

往期文章:《机器学习入门(1):线性回归》

《首篇数据分析报告出炉》

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180424G1GIDS00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券