首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

逻辑回归:建立在回归基础上的一种分类模型

欢迎关注”生信修炼手册”!

机器学习有3大类算法,回归,分类和聚类,其中回归和分类属于监督学习,而聚类则属于非监督学习。线性回归和逻辑回归是机器学习中最为基础,最广为人知的模型。

从名字上看,二者都带有回归二字,好像都是用于解决回归问题的,但是实际情况却不是这样。线性回归,预测的是连续性的因变量值,而逻辑回归预测的是离散型,或者更通俗的说,是二分类变量,比如是否患病,预测的结果就是两个,患病,正常人,所以说逻辑回归本质是一个分类模型。

那为何又有回归二字呢,是因为逻辑回归还是以线性回归为基础,通过引入概率和sigmod函数,将原本二元的离散变量巧妙的转换为了连续性变量,首先来看下sigmod 函数, 公式如下

该函数的分布如下

其作用是将任意的实数映射到0到1这个区间里面,将该函数的参数t替换成线性回归的方程,就实现了线性回归到概率的转换, 公式如下

可以看到,经过sigmod的映射,得到的概率取值范围为0到1,然后定义一个阈值,计算出的概率值大于阈值定义为1, 小于阈值定义为0,从而完美实现连续型到二元离散的变换。

更进一步对上述公式进行转换,可以得到如下结果

回归方程有了,接下来需要定义损失函数,来对拟合结果进行量化评价。在最小二乘法中,采用了误差平方和这一损失函数,在逻辑回归中,采用的则是最大似然法。

似然的含义可以看做是概率,在最大似然法中,每个样本的拟合结果都是一个概率值,所谓最大似然,就是这些样本点的概率值最大,因为每个样本是相互独立的,所以计算总体概率是要相乘,公式如下

进行对数操作后,转换如下

求该函数的最大值就涉及到了函数极值的问题,函数的极值处都是导数为0的点,所以对该函数求导,导数为0,就可以得到一个方程,求解该方程,即可得到对应的参数值。在求解过程中,一般会使用梯度下降法来进行求解。

在scikit-learn中,运用逻辑回归的代码如下

对于逻辑回归而言,求解回归方程的参数是一大重点,另外还需要确定合适的阈值,因为最终要根据阈值来判定样本的具体分类,所以不同阈值对分类效果也有很大的影响。在实际分析中,经常会看到使用ROC曲线来评价不同阈值的分类效果,然后选择一个合适的阈值。

·end·

—如果喜欢,快分享给你的朋友们吧—

原创不易,欢迎收藏,点赞,转发!生信知识浩瀚如海,在生信学习的道路上,让我们一起并肩作战!

本公众号深耕耘生信领域多年,具有丰富的数据分析经验,致力于提供真正有价值的数据分析服务,擅长个性化分析,欢迎有需要的老师和同学前来咨询。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20210201A0DX9L00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券