前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >sklearn数据集转换为csv以及数据集描述

sklearn数据集转换为csv以及数据集描述

作者头像
lovelife110
发布于 2021-01-14 08:18:27
发布于 2021-01-14 08:18:27
1.2K00
代码可运行
举报
文章被收录于专栏:爱生活爱编程爱生活爱编程
运行总次数:0
代码可运行

波士顿房价load_boston导出csv例子(回归)

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import pandas as pd
from sklearn.datasets import load_boston


if __name__ == '__main__':
    boston = load_boston()
    df = pd.DataFrame(boston.data, columns=boston.feature_names)
    df['MEDV'] = boston['target']
    df.to_csv('./boston.csv', index=None)

CRIM:城镇人均犯罪率。

ZN:住宅用地超过 25000 sq.ft. 的比例。

INDUS:城镇非零售商用土地的比例。

CHAS:查理斯河空变量(如果边界是河流,则为1;否则为0)。

NOX:一氧化氮浓度。

RM:住宅平均房间数。

AGE:1940 年之前建成的自用房屋比例。

DIS:到波士顿五个中心区域的加权距离。

RAD:辐射性公路的接近指数。

TAX:每 10000 美元的全值财产税率。

PTRATIO:城镇师生比例。

B:1000(Bk-0.63)^ 2,其中 Bk 指代城镇中黑人的比例。

LSTAT:人口中地位低下者的比例。

MEDV:自住房的平均房价,以千美元计。

威斯康辛州乳腺癌(二分类)

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import pandas as pd
from sklearn.datasets import load_breast_cancer


if __name__ == '__main__':
    breast_cancer = load_breast_cancer()
    df = pd.DataFrame(breast_cancer.data, columns=breast_cancer.feature_names)
    df['target'] = breast_cancer['target']
    df.to_csv('./breast_cancer.csv', index=None)

radius 半径(从中心到边缘上点的距离的平均值) texture 纹理(灰度值的标准偏差) perimeter 周长 area 面积 smoothness 平滑度(半径长度的局部变化) compactness 紧凑度(周长 ^ 2 /面积 - 1.0) concavity 凹面(轮廓的凹部的严重性) concave points 凹点(轮廓的凹部的数量) symmetry 对称性 fractal dimension 分形维数(海岸线近似 - 1)

radius (mean): 半径(平均值) texture (mean): 纹理(平均值) perimeter (mean): 周长(平均值) area (mean): 面积(平均值) smoothness (mean): 平滑度(平均值) compactness (mean): 紧凑度(平均值) concavity (mean): 凹面(平均值) concave points (mean): 凹点(平均值) symmetry (mean): 对称性(均值) fractal dimension (mean): 分形维数(均值) radius (standard error): 半径(标准误差) texture (standard error): 纹理(标准误差) perimeter (standard error): 周长(标准误差) area (standard error): 面积(标准误差) smoothness (standard error): 平滑度(标准误差) compactness (standard error): 紧凑度(标准误差) concavity (standard error): 凹面(标准误差) concave points (standard error): 凹点(标准误差) symmetry (standard error): 对称性(标准误差) fractal dimension (standard error): 分形维数(标准误差) radius (worst): 半径(最差) texture (worst): 纹理(最差) perimeter (worst): 周长(最差) area (worst): 面积(最差) smoothness (worst): 平滑度(最差) compactness (worst): 紧凑度(最差) concavity (worst): 凹面(最差) concave points (worst): 凹点(最差) symmetry (worst): 对称性(最差) fractal dimension (worst): 分形维数(最差)

target : 0(恶性)和1(良性)

鸢尾花(多分类、聚类)

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import pandas as pd
from sklearn.datasets import load_iris


if __name__ == '__main__':
    iris = load_iris()
    df = pd.DataFrame(iris.data, columns=iris.feature_names)
    df['target'] = iris['target']
    df.to_csv('./iris.csv', index=None)

sepal length 萼片长度(厘米) sepal width 萼片宽度(厘米) petal length 花瓣长度(厘米) petal width 花瓣宽度(厘米)

target 0-山鸢尾,1-变色鸢尾,2-维吉尼亚鸢尾

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020/05/11 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
kaggle实战-肿瘤数据统计分析
数据地址为:https://www.kaggle.com/code/kanncaa1/statistical-learning-tutorial-for-beginners/notebook
皮大大
2023/08/23
3000
数据科学和人工智能技术笔记 十三、树和森林
最重要的参数是base_estimator,n_estimators和learning_rate。
ApacheCN_飞龙
2022/12/02
1.3K0
数据科学和人工智能技术笔记 十三、树和森林
训练机器学习模型,可使用 Sklearn 提供的 16 个数据集 【上篇】
数据是机器学习算法的动力,scikit-learn或sklearn提供了高质量的数据集,被研究人员、从业人员和爱好者广泛使用。Scikit-learn(sklearn)是一个建立在SciPy之上的机器学习的Python模块。它的独特之处在于其拥有大量的算法、十分易用以及能够与其他Python库进行整合。
Regan Yue
2023/04/27
1.6K0
训练机器学习模型,可使用 Sklearn 提供的 16 个数据集 【上篇】
用 PCA 探索数据分类的效果(使用 Python 代码)
我们先从理论开始。我不会深入讲解太多细节,因为如果你想了解 PCA 的工作原理,有很多很好的资源^2^3。重要的是要知道 PCA 是一种降维算法。这意味着它用于减少用于训练模型的特征数量。它通过从许多特征中构建主成分 (PC) 来实现这一点。
统计学家
2024/07/16
2080
用 PCA 探索数据分类的效果(使用 Python 代码)
数据分析入门系列教程-SVM实战
SVM 是有监督的学习模型,就是说我们需要先对数据打上标签,之后通过求解最大分类间隔来求解二分类问题,而对于多分类问题,可以组合多个 SVM 分类器来处理。
周萝卜
2020/11/10
1.6K0
数据分析入门系列教程-SVM实战
kNN算法根据不同病理特征来预测乳腺癌转移与否
本文介绍机器学习中的分类算法kNN(k-NearestNeighbor),即k邻近算法。核心思想类似“近朱者赤近墨者黑”,每个样本都可以用它最接近的k个邻居来代表。
生信技能树
2019/12/05
2.1K0
一份半监督学习的指南-伪标签学习
在ML中,有3种机器学习方法-监督学习、无监督学习和强化学习技术。 我们所知道的监督学习是指数据带有标签的情况, 无监督学习是仅存在数据而没有标签的情况,强化学习算法的思路非常简单,以游戏为例,如果在游戏中采取某种策略可以取得较高的得分,那么就进一步“强化”这种策略,以期继续取得较好的结果。
致Great
2020/12/16
1.5K0
一份半监督学习的指南-伪标签学习
一些著名的数据科学公开数据集与数据源
一些可视化库和机器学习库有着内置数据集的传统。因为库的文档和案例通常会使用一些数据集来举例、内置数据集后方便用户学习该库的可视化语法,方便复现效果。
蛰虫始航
2021/03/11
1.6K0
一些著名的数据科学公开数据集与数据源
Python数据分析实验四:数据分析综合应用开发
文章相关资源可参考我的GitCode仓库:https://gitcode.com/Morse_Chen/Python_data_analysis
Francek Chen
2025/01/23
1270
Python数据分析实验四:数据分析综合应用开发
一篇文章完全弄懂Logistic回归(含极大似然估计详细推导和实现代码)
在学习线性回归的时候,我们已经理解了什么是回归,回归就是确定变量之间相互依赖的定量关系的统计学方法。那么同样,在开始学习Logistic回归模型前,我们先来看看什么是分类问题。
可爱见见
2020/06/10
14.6K0
用Spark-Scala训练LightGBM模型
Spark-scala 可以使用LightGBM模型,既可以进行分布式训练,也可以进行分布式预测,支持各种参数设置。
lyhue1991
2021/08/06
1.9K0
用Spark-Scala训练LightGBM模型
跟着开源项目学因果推断——causalnex(十三)
是基于因果图的延申, Pearl and Mackenzie 提出了SCM结构因果模型,将因果推理过程流程化,他们把SCM分为三部分,
悟乙己
2021/12/07
1.7K0
跟着开源项目学因果推断——causalnex(十三)
如何使用sklearn加载和下载机器学习数据集
sklearn 中提供了很多常用(或高级)的模型和算法,但是真正决定一个模型效果的最后还是取决于训练(喂养)模型时所用的数据。sklearn 中的 sklearn.datasets 模块包含了数据生成相关的功能。主要包含以下几种类型的数据集:
abs_zero
2018/04/11
4.4K0
如何使用sklearn加载和下载机器学习数据集
手把手教你R语言随机森林使用
随机森林是常用的非线性用于构建分类器的算法,它是由数目众多的弱决策树构建成森林进而对结果进行投票判断标签的方法。
生信学习者
2024/06/11
6400
手把手教你R语言随机森林使用
综合实例
本文主要记录在学习机器学习过程中做的一些简单的小项目,项目代码均来自于杨志晓老师的《Python机器学习一本通》一书,机缘巧合之下这本书也算是我接触Python机器学习的启蒙书籍,书本很厚,但是其实内容不多,至今犹记得去年年末封在宿舍独自一人啃这本书的心酸经历,一本书看来收获颇丰。 加载boston数据集、另存并重新访问 from sklearn import datasets import pandas as pd import numpy as np import seaborn as sns b
爱编程的小明
2022/09/05
2.9K0
Python机器学习-02:模型构建
随着人工智能时代的到来,机器学习已成为解决问题的关键工具,如识别预测疾病风险等。Python是实现机器学习的热门语言之一。接下来会详细介绍机器学习如何应用到实际问题,并概括通过Python进行实际操作。
Jamesjin63
2022/11/03
6130
Python机器学习-02:模型构建
盘一盘 Python 系列 9 - Scikit-Plot
当机器学习工具 Scikit-Learn 遇上了可视化工具 Matplotlib,就衍生出 Scikit-Plot。
用户5753894
2019/07/05
1.5K0
盘一盘 Python 系列 9 - Scikit-Plot
【资源】17个最受欢迎的机器学习应用标准数据集
【新智元导读】学好机器学习的关键是用许多不同的数据集来实践。本文介绍了10个最受欢迎的标准机器学习数据集和7个时间序列数据集,既有回归问题也有分类问题,并提供了各数据集输入输出的变量名称和基准性能,以及下载地址,可以用作练习的资源。 学好机器学习的关键是用许多不同的数据集来练习。因为对不同的问题,需要有不同的数据准备和建模方法。本文介绍了10个最受欢迎的标准机器学习数据集,可以用作练习的资源。 每个数据集均按照一定的格式介绍,以使读者相对容易比较,为他们的特定练习任务选择数据集或建模方法。 格式: 名称:如
新智元
2018/03/26
3.7K0
【资源】17个最受欢迎的机器学习应用标准数据集
机器学习第一步,这是一篇手把手的随机森林入门实战
作为数据科学家,我们可以通过很多方法来创建分类模型。最受欢迎的方法之一是随机森林。我们可以在随机森林上调整超参数来优化模型的性能。
机器之心
2020/02/24
1K0
机器学习第一步,这是一篇手把手的随机森林入门实战
dataset数据集有哪些_数据集类型
​ sklearn的数据集库datasets提供很多不同的数据集,主要包含以下几大类:
全栈程序员站长
2022/08/03
1.9K0
dataset数据集有哪些_数据集类型
推荐阅读
相关推荐
kaggle实战-肿瘤数据统计分析
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验