数据清洗12招
把源数据汇总后,为了满足质量要求的数据,需要做数据清洗。PQ就好像变形金刚(英文版PowerBI的转换选项卡恰好也叫“Transform”),在转换选项卡中,集成了各类变形功能。使用频率最高的一般有12个小招: 首行作标题、修改数据类型、删除(重复、错误、空项目)、拆分、提取、合并、替换、填充、移动、排序、格式、逆透视。
1
首行作标题
我们把数据获取到查询器中往往首行的标题是未识别的状态,只需单击将第一行作为标题。
2
修改数据类型
我们使用PowerBI时数据类型的不匹配是常常犯的错误,如果你发现数据输出的结果有问题,第一时间先想想是不是因为数据的类型定义有问题。PQ中丰富的数据类型,只需要单击列名称左边的符号即可快速修改。
3
删除重复、错误、空项目
这个功能与Excel非常相似,当我们想剔除表中的重复行、错误项目时,右键单击列,删除重复项或删除错误。如果我们想要删除空白的项目,点击筛选箭头,删除空选项。
4
拆分
拆分和提取都是非常强大的文本处理功能,在2.3章节多文件夹下的多个文件汇总中有举例说明,请参照上一章内容,在这里不做过多赘述。值得一提的是PQ中的拆分比Excel中的设计更强大,可按分隔符和字符数。
5
提取
在2.3中的案例我埋了个小伏笔,利用了Excel的LEN函数来计算长度,其实在提取功能中也有个长度的选项,选择它即可计算出字符长度,只不过在转换选项卡中直接选的话会破坏现有的列,你需要利用取消步骤退回再去提取范围。可能你会发现在转换和添加列选项卡中都有提取功能而且长得一模一样,区别在于添加列是在后面添加一列提取出选中列的长度、字符、范围等,而转换中的是在当前列中操作。
6
合并列
与拆分和提取相反的就是合并列的内容,非常简单选中你要合并的几列,右键选择。
7
替换
替换与Excel中的Ctrl+F的查找替换功能基本一样,有替换值和替换错误两个选项。
8
填充
填充有向上和向下两个方向,顾名思义,即把上面或下面的单元格内容填充到无效单元格或空白单元格中。该功能在Excel的实现方式是查找错误或空白,在当前单元格输入=上面或下面单元格后按Ctrl+Enter,现在利用PQ就不需要繁琐的小技巧操作了。需要注意的是,当我们想替换空白格而不是无效格(null)时,需要先用替换值把空白格替换成null。
9
移动
这个最简单,尝试一下鼠标按住某一列拖动来移动列的位置,这个良心设计比起Excel真是好用得多。此外,你也会看见移动功能下有特定选项供使用。
10
排序
这个排序与Excel是一样的,在筛选下拉箭头下可以对数据排序。(不要小看排序功能,在复杂数据分析时,排序配合索引列在行数据处理时会有奇效,在这里做个预先提示。)
11
格式
在拆分列选项旁边还有个ABC格式选项,里面包含了几种常见而非常好用的文本处理功能,更改大小写;修整的功能是除去文本首尾空格和文本间不必要的空格(Excel里对应使用Trim函数,比如" Power BI "修整后为“Power BI”);清除的功能是除去所有无法打印字符比如空格(Excel里对应使用Clean函数)。所以有了PQ,这几个常见功能我们不用再纠结背公式了~
12
逆透视
最后这个是一个大招!我们从他人那里获得数据往往格式多样,有时还是二维表,然而我们只有它转变成一维表才能进一步利用和分析。
Power Query的逆透视功能可以让我们一键搞定。
本节的内容有点散,具体的招数也需要大家在实践中熟悉。掌握了这12招,我相信你又上升了一个新高度。曾经要花很久时间才能解决的数据清洗问题,现在学习几个小招就来轻松秒杀,要相信科学技术是第一生产力,感谢科技带来的变革。
感谢您关注公众号PowerBI大师