专栏首页Duncan's Blog数据挖掘整理

数据挖掘整理

数据挖掘整理

1.数据的基本描述

1.1 中心趋势度量

  • 均值
  • 截尾均值:丢弃高低端极端值后的均值
  • 中位数:有序数据值得中间值
  • 众数:集合中出现最频繁的值
  • 中列数:最大值和最小值的平均值

1.2 数据散布

  • 极差:最大值与最小值之差
  • 分位数:取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合
  • 四分位数:3个数据点,把数据分布划分成4个相等的部分,使得每部分表示数据分布的四分之一。(中位数、四分位数、百分位数是使用广泛的分位数)
  • 方差
  • 标准差
  • 四分位数极差(IQR):第1个和第3个四分位数之间的距离,IQR = Q3 - Q1 识别可疑的离群点的通畅规则是,挑选落在第3个四分位数之上第一个四分位数之下至少1.5*IQR处的值。

图形的表示


  • a)盒图:盒的端点一般在四分位数上,使得盒的长度是四分位数极差IQR。中位数用盒内的线标记。盒外的两条线延伸到最小和最大观测值。
  • b)分位数图:一种观察单变量数据分布的简单有效方法
  • c)直方图:
  • d)散点图:确定两个数值变量之间看上去是否存在联系、模式或趋势的最有效的图形方法之一

1.3 相似性的度量

  • Jaccard相似性
  • 余弦相似性
  • 欧式距离、曼哈顿距离、闵可夫斯基距离

2.数据预处理

2.1数据清洗:填写缺失值、光滑噪声数据,识别或删除离群点,并解决不一致性来“清理”数据

  • 缺失值的处理:忽略该行、人工填写缺失值、使用一个全局常量填充、使用属性的中心度量(均值或中位数)、使用与给定元组属同一类的所有样本的均值或中位数、使用最可能的值填充缺失值(使用回归、使用贝叶斯形式方法的基于推理的工具或决策树归纳确定)

2.2数据集成:分析中的数据来自多个数据源

  • 冗余和相关性分析:标称数据的卡方相关检验、Pearson相关系数、协方差

2.3数据归约:维归约和数值归约

2.4数据变换

  • 光滑:去掉噪声
  • 属性构造:可以由给定的属性构造新的属性并添加到属性集中
  • 聚集:对数据进行汇总或聚集
  • 规范化:把属性数据按比例缩放
  • 离散化:label encoder 、onehot
  • 由标称数据产生概念分层:属性层级划分

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 支持向量机(Support Vector Machine)学习(补充)

    DuncanZhou
  • 后缀树

    Manacher算法: 用一个辅助数组Len,Len[i表示以字符T[i]为中心的最长回文串最友字符到T[i]的长度.

    DuncanZhou
  • 社交网络中抽取有代表性的用户

    将用户以各个属性构建向量,以向量之间的距离来定义人物之间的代表性. 以Twitter社交拓扑为例,当A用户关注了B用户,将会有A指向B的一条有向边,

    DuncanZhou
  • R语言为Hadoop集群数据统计分析带来革命性变化

    R作为开源的数据统计分析语言正潜移默化的在企业中扩大自己的影响力。特有的扩展插件可提供免费扩展,并且允许R语言引擎运行在Hadoop集群之上。 R语言是主要...

    机器学习AI算法工程
  • leetcode473. Matchsticks to Square

    Remember the story of Little Match Girl? By now, you know exactly what matchstic...

    眯眯眼的猫头鹰
  • 【每日一题】亲密数

    题目描述 两个不同的自然数A和B,如果整数A的全部因子(包括1,不包括A本身)之和等于B;且整数B的全部因子(包括1,不包括B本身)之和等于A,则将整数A和B称...

    编程范 源代码公司
  • 如何用简单的位操作实现高级算法

    我们知道,在十进制的世界里面,如果我想把3个数字:7,34,562拼接成一个长整数:734562,一般我们会这样做:

    青南
  • aehyok.com的成长之路三——框架结构

    aehyok.com的成长之路一——开篇 中主要阐述了自己为什么建立自己的网站,以及个人网站的大致方向。

    aehyok
  • 《公差配合与技术测量》试题答案卷

    (A) 上偏差, 正值(B) 上偏差,负值(C)下偏差, 正值(D) 下偏差, 负值

    用户7505898
  • 『深度概念』理解多标签图像分类任务的MAP评价方法

    多标签图像分类(Multi-label Image Classification)任务中图片的标签不止一个,因此评价不能用普通单标签图像分类的标准,即me...

    小宋是呢

扫码关注云+社区

领取腾讯云代金券