首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

sklearn实战-基于逻辑回归的乳腺癌分析

上一篇文章我们初步介绍了sklearn机器学习库的数据预处理,今天我们来说说调用sklearn机器学习库的实战项目-基于逻辑回归的乳腺癌分析。

逻辑回归算法思想:逻辑回归(LogisticRegression)是当前机器学习算法比较常用的方法,可以用来回归分析,也可以用来分类,主要是二分类问题。逻辑回归分类算法就是将线性回归应用在分类场景中,通过曲线拟合与sigmoid函数得到对样本数据的分类标签,在二分类问题中得到的分类结果为0/1。

下面我们使用sklearn自带的乳腺癌数据集来进行我们的实战学习。整个训练测试过程仅需5步。仔细看哦!

一、导入库

导入sklearn中我们需要的库,其中datasets为sklearn中自带的数据集,train_test_split为数据划分训练集和测试集,LogisticRegression为sklearn中的逻辑回归模型。

二、加载数据集

通过datasets.load_breast_cancer()加载sklearn中的乳腺癌数据集,其中cancer_X为衡量是否为乳腺癌的各项指标数据,cancer_y为标签数据。使用shape来查看数据的规模,cancer_X为(569, 30)的数据,且已经进行预处理可以直接使用,cancer_y为(569, 1)的数据。

三、划分训练集和测试集

通过train_test_split()函数将数据集划分为训练集和测试集,其中test_size为划分比例,本次我们设为0.3,即数据集中训练集为70%,测试集为30%

四、模型构建与训练

sklearn中为我们提供了很多机器学习算法模型,而且调用起来非常方便,形如上面的形式即可构建逻辑回归模型并使用训练集数据进行训练。如果要使用其它算法,只需更换算法模型即可。

五、模型测试

经过第四步模型训练后,我们使用训练好的模型来进行数据测试,第一行代码为数据预测结果,第二行输出预测结果,第三行为评估模型预测的分数,第四输出分数。测试结果如下

通过上面测试结果可得模型预测的准确度为98.2%,可见使用逻辑回归算法取得较好的效果。

项目完整代码

可以使用其他模型进行分析来比较那个模型更适合,能取得更好的效果。具体参考官方文档:

http://sklearn.apachecn.org/cn/0.19.0/index.html

欢迎关注我们

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180807A08POZ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券