专栏首页数据科学与人工智能你会描述你的数据吗?

你会描述你的数据吗?

1 如何描述数据

"机器都能够从数据中学习和趋优了,我们也要如此,坚持学习和进步。"

面对一个数据集,你会描述它吗?

描述数据集,目的是为了理解数据。你对数据理解的越充分和全面,你就越能够更好地处理数据和应用数据。

描述你自己的数据集,可以从这些方面入手。

一 概况分析

1 数据集大小,包括观察大小和维度大小

2 变量的类型观察,因为不同的变量类型会使用不同观察手段和工具

3 元数据分析,也就是对于数据解释的数据,比方说,每个变量表示什么意思,有什么业务含义,与什么业务有关系。(一切数据业务化,一切业务数据化)。

二 数据观察

1 从大量数据中可以先选择一部分数据来观察,以对数据有个直观认识

三 数据摘要分析

1 采用描述性统计分析的方法,变量类型的统计特征进行计算和了解

四 变量重要性分析

1 选择一种算法,评价数据集中变量的重要性

五 可视化分析

1 采用可视化分析,理解变量的分布和变量之间的关系

我们以描述Iris数据集为例

一 参考代码:

# -*- coding: utf-8 -*-
"""
描述你的数据
@author: Luqing Wang
"""
import matplotlib.pyplot as plt
import seaborn as sns

import pandas as pd

from sklearn import datasets
from sklearn.ensemble import RandomForestClassifier


if __name__ == "__main__":
    br = '\n'
    iris = datasets.load_iris()

    # 1 数据集概况分析
    X = iris.data
    y = iris.target
    print('特征集 shape:', X.shape)
    print('目标 shape:', y.shape, br)
    print('特征集 dtypes:', X.dtype)
    print('目标 dtypes:', y.dtype)
    features = iris.feature_names
    targets = iris.target_names
    print('特征集元数据:')
    print(features, br)
    print('目标元数据:')
    print(targets, br)

    # 2 数据观察
    print('iris数据集前10条数据:')
    print(X[0:10, :])

    # 3 数据摘要分析
    # 描述性统计分析
    print('特征集描述统计分析:')
    print(pd.DataFrame(X, columns=['sepal_length', 'sepal_width', 'petal_length', 'petal_width']).describe().T)
    print('目标的分布:')
    print(pd.Series(y).value_counts())

    # 4 变量重要性分析
    # 利用随机森林算法来评估变量的重要性
    rnd_clf = RandomForestClassifier(random_state=0, n_estimators=100)
    rnd_clf.fit(X, y)
    rnd_name = rnd_clf.__class__.__name__
    feature_importances = rnd_clf.feature_importances_
    importance = sorted(zip(feature_importances, features), reverse=True)
    print('most important features' + ' (' + rnd_name + '):')
    [print (row) for i, row in enumerate(importance)]

    # 5 数据可视化分析
    iris_data = pd.DataFrame(X, columns=['sepal_length', 'sepal_width', 'petal_length', 'petal_width'])
    iris_data['species'] = y
    sns.pairplot(iris_data, vars=['sepal_length', 'sepal_width', 'petal_length', 'petal_width'], hue='species')
    plt.show()

二 代码结果:

2.1 概要分析

2.2 数据检视

2.3 描述性统计分析

2.4 变量重要性分析

2.5 数据可视化分析

本文分享自微信公众号 - 数据科学与人工智能(DS_AI_shujuren)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-03-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【数据】数据预处理

    小编邀请您,先思考: 1 数据预处理包括哪些内容? 2 如何有效完成数据预处理? 数据的质量和包含的有用信息量是决定一个机器学习算法能够学多好的关键因素。因此,...

    陆勤_数据人网
  • 【数据科学家】养成方案 9步从菜鸟成为数据科学家

    由于数据科学和数据分析是个快速发展的领域,当前的合格申请者严重缺乏。这使得数据科学家对于那些有兴趣,并寻找新的职业生涯的人成为有前途的和有利可图的领域。 ? 漫...

    陆勤_数据人网
  • 【应用】大数据世界

    随着互联网云时代的来临,大数据与云计算就像一个硬币的正反两面,势必会影响到社会生活的方方面面,改变我们现有的规则和秩序。伴随着大数据与云计算产业的不断发展,未来...

    陆勤_数据人网
  • Python教程(三):基础数据类型

    Python中的变量不需要声明。每个变量在使用前都必须赋值,变量赋值以后该变量才会被创建。

    山禾说
  • Linux 服务器上有挖矿病毒 kdevtmpfsi 如何处理?

    服务器CPU资源使用一直处于100%的状态,通过 top 命令查看,发现可疑进程 kdevtmpfsi。通过 google搜索,发现这是挖矿病毒。

    YP小站
  • Electron中利用fluent-ffmpeg进行视频推流

    剑行者
  • 【干货】数据化运营日记:我是这样做数据分析与辅导的!

    大数据时代,利用数据进行精细化运营才是商业的长久生存之道。作为一线运营人员,学会商铺数据分析与租户辅导方法,不仅可以最大化挖掘数据背后潜在的商业价值,而且可以...

    小莹莹
  • 想入门数据科学领域?明确方向更重要

    我在一家数据科学培训公司工作。对于学员,我常常给出的建议并不是推荐库或者工具,而是让他们首先明确自己想成为什么样的数据科学家,确定自己的方向。

    CDA数据分析师
  • jQuery实现本地input选择图片实时显示

    在写图片上传功能时,如果可以实时预览就好了,我们可以通过 jQuery 实现这一效果。

    德顺
  • JavScript中的循环

    循环知识 第一部分: 重复运行的代码就可以使用循环来解决。JavaScript的重复机制为循环(loop) for:适合重复动作已知次数的循环。 while:w...

    八哥

扫码关注云+社区

领取腾讯云代金券