前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据挖掘整理

数据挖掘整理

作者头像
DuncanZhou
发布2018-09-04 16:16:01
5600
发布2018-09-04 16:16:01
举报
文章被收录于专栏:Duncan's BlogDuncan's Blog

数据挖掘整理

1.数据的基本描述

1.1 中心趋势度量
  • 均值
  • 截尾均值:丢弃高低端极端值后的均值
  • 中位数:有序数据值得中间值
  • 众数:集合中出现最频繁的值
  • 中列数:最大值和最小值的平均值
1.2 数据散布
  • 极差:最大值与最小值之差
  • 分位数:取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合
  • 四分位数:3个数据点,把数据分布划分成4个相等的部分,使得每部分表示数据分布的四分之一。(中位数、四分位数、百分位数是使用广泛的分位数)
  • 方差
  • 标准差
  • 四分位数极差(IQR):第1个和第3个四分位数之间的距离,IQR = Q3 - Q1 识别可疑的离群点的通畅规则是,挑选落在第3个四分位数之上第一个四分位数之下至少1.5*IQR处的值。

图形的表示


  • a)盒图:盒的端点一般在四分位数上,使得盒的长度是四分位数极差IQR。中位数用盒内的线标记。盒外的两条线延伸到最小和最大观测值。
  • b)分位数图:一种观察单变量数据分布的简单有效方法
  • c)直方图:
  • d)散点图:确定两个数值变量之间看上去是否存在联系、模式或趋势的最有效的图形方法之一
1.3 相似性的度量
  • Jaccard相似性
  • 余弦相似性
  • 欧式距离、曼哈顿距离、闵可夫斯基距离

2.数据预处理

2.1数据清洗:填写缺失值、光滑噪声数据,识别或删除离群点,并解决不一致性来“清理”数据

  • 缺失值的处理:忽略该行、人工填写缺失值、使用一个全局常量填充、使用属性的中心度量(均值或中位数)、使用与给定元组属同一类的所有样本的均值或中位数、使用最可能的值填充缺失值(使用回归、使用贝叶斯形式方法的基于推理的工具或决策树归纳确定)

2.2数据集成:分析中的数据来自多个数据源

  • 冗余和相关性分析:标称数据的卡方相关检验、Pearson相关系数、协方差

2.3数据归约:维归约和数值归约

2.4数据变换

  • 光滑:去掉噪声
  • 属性构造:可以由给定的属性构造新的属性并添加到属性集中
  • 聚集:对数据进行汇总或聚集
  • 规范化:把属性数据按比例缩放
  • 离散化:label encoder 、onehot
  • 由标称数据产生概念分层:属性层级划分
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018-08-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据挖掘整理
    • 1.数据的基本描述
      • 1.1 中心趋势度量
      • 1.2 数据散布
      • 1.3 相似性的度量
    • 2.数据预处理
    相关产品与服务
    数据集成
    数据集成(DataInLong)源于腾讯开源并孵化成功的 ASF 顶级项目 Apache InLong(应龙),依托 InLong 百万亿级别的数据接入和处理能力支持数据采集、汇聚、存储、分拣数据处理全流程,在跨云跨网环境下提供可靠、安全、敏捷的全场景异构数据源集成能力。
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档