数据质量在数据分析中的重要性毋庸置疑,其直接影响数据的产出和数据价值的高低,通常我们对数据质量的判断主要依据准确性、完整性和一致性三方面。但是,这几点原始数据往往并不具备。所以数据清洗成为了数据分析的重要前提,并且占据了整个数据分析工作中80%的时间。
在Excel里,表间数据对比的解法其实有很多,在Power Query里也是一样,在前面的文章《Excel频繁重复的表间数据对比,用Power Query一键刷新》给出了完全外部合并加公式的方法后,就有朋友给出了多个解法或思路:
Excel与Python都是数据分析中常用的工具,本文将使用动态图(Excel)+代码(Python)的方式来演示这两种工具是如何实现数据的读取、生成、计算、修改、统计、抽样、查找、可视化、存储等数据处理中的常用操作!
在Excel里,表间数据对比的解法其实有很多,在Power Query里也是一样,除了前面文章《PQ-综合实战:频繁重复的表间数据对比工作,今后只需一键刷新》给出的完全外部合并加公式的方法外,还可以用追加合并加透视的方式,这种方法十分接近Excel里的数据透视解法,其实相对来说更加简单一点。
自从学了Python后就逼迫自己不用Excel,所有操作用Python实现。目的是巩固Python,与增强数据处理能力。
这是一篇关于如何用excel做数据分析的案例。目的是帮助大家,在遇到小型数据样本时,快速利用excel做分析。所以本篇文章的重点是分析思路+数据处理+可视化的实现,因为数据来源于网络,所以不做深入解析。
今天还是数据分析的学习,如果你觉得文章太长太没意思,欢迎拉到底部直接看大纲总结,一秒学会(学不会我也不负责,让你不看全文)。
大名鼎鼎EXCEL江湖上谁人不知,谁人不晓呀,纵使你没见过EXCEL,也见过数据在跑吧?可惜的是,经常用EXCEL表哥表妹,甚至操作六七年 的江湖老手,或多或少还是犯了些操作上的小错误,不应该呀不应该。下面,列举一些在EXCEL操作上常见的一些普遍现象,你认为哪种操作最搞笑?大家来排个名吧? 1.移动选择 打开一个表,想要查看最后一行是第几行,很多童鞋都是一直按方向箭,或者不厌其烦拖动滚动条,这是一个非常不好的习惯,得改。童鞋,还记得键盘上的 CTRL+DOWN吗?可以快速跳转到该列数据末尾处,还有CT
很多从未接触 pandas 的小伙伴看到相关资料后,会觉得这玩意无法处理像 Excel 那样格式复杂多变的数据。其实 pandas 比起手动操作、透视表操作甚至 Vba 操作,他可以更灵活快速处理复杂形状的数据。
本文涉及pandas最常用的36个函数,通过这些函数介绍如何完成数据生成和导入、数据清洗、预处理,以及最常见的数据分类,数据筛选,分类汇总,透视等最常见的操作。
说明:有点忙,这本书最近更新慢了一些,抱歉!这部分仍免费呈现给有兴趣的朋友。附已发表内容链接:
这篇文章是『读者分享系列』第二篇,这一篇来自袁佳林同学,这是他在读完我的书以后做的第一个Python报表自动化项目,现在他把整体的思路以及实现代码分享出来,希望对你有帮助。
•此时,B2单元格为被引用单元格,E2单元格为引用单元格,被引用单元格修改,引用单元格同样变化。
介绍 我一直很欣赏EXCEL蕴藏的巨大能量。这款软件不仅具备基本的数据运算,还能使用它对数据进行分析。EXCEL被广泛运用到很多领域,例如:金融建模和商业预测。对于刚进入数据分析行业新手来说,EXCEL可以被当做一款入门的软件。 甚至在学习R或Python前,对于新入门的小白来说,事先掌握一定的EXCEL知识是百利而无一害。EXCEL凭借其功能强大的函数、可视化图表、以及整齐排列的电子表格功能,使你能够快速而深入的洞察到数据不轻易为人所知的一面。 但与此同时,EXCEL也有它的一些不足之处,即它无法非常有
原文在简书上发表,再同步到Excel催化剂微信公众号或其他平台上,文章后续有修改和更新将在简书上操作, 其他平台不作同步修改更新,因此建议阅读其他出处的文章时,尽可能跳转回简书平台上查看。
作者 CDA 数据分析师 我一直很欣赏 EXCEL 蕴藏的巨大能量。这款软件不仅具备基本的数据运算,还能使用它对数据进行分析。EXCEL 被广泛运用到很多领域,例如:金融建模和商业预测。对于刚进入数据分析行业新手来说,EXCEL 可以被当做一款入门的软件。 甚至在学习R或Python前,对于新入门的小白来说,事先掌握一定的EXCEL知识是百利而无一害。EXCEL凭借其功能强大的函数、可视化图表、以及整齐排列的电子表格功能,使你能够快速而深入的洞察到数据不轻易为人所知的一面。 但与此同时,EXCEL也有它
首先,我们来解释什么是不同值和唯一值。不同值意味着值是不同的,例如列表{A, B, B, C}中的不同值是{A, B, C},不同值个数是3。而唯一值意味着值仅出现一次,例如列表{A, B, B, C}中的唯一值是{A, C},唯一值个数是2。
> 经常听别人说 Python 在数据领域有多厉害,结果学了很长时间,连数据处理都麻烦得要死。后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器—— pandas
Power BI虽然源于Excel,但毕竟是不同的产品。我们要试图抛弃Excel中单元格思维的方式,在BI中的表是以列式存储,没有Excel中以A1单元格定位的形式,对于习惯于Excel的你可能要适应一段时间,不过这是件好事情,因为这样的方式使公式易于阅读理解。
最近,有朋友在用Power Pivot构建表间关系的时候,出现了一个问题:明明我已经删除了重复项,但构建表间关系的时候,还是说我两个表都有重复的数据!结果表间关系建立不起来!
前些天,大神高飞对本人小黄书做了一次送书活动,得到大家的热烈支持,小黄书自上市以来,保持Excel Power系列新书榜第1,非常感谢大家的认可:
在群里看到个例子,将一些堆在一列,而且顺序也不太对的数据给整理好,给出的步骤是好大一串代码:
大海:嗯。的确是,PowerQuery最大的优势就是只需要干一次,以后有新数据就刷新一下就搞定,尤其适合这些需要频繁重复操作的工作。
我们以前有讲解过如何统计快速重复数值:EXCEL小技巧,筛选重复值!,但如果老板要你统计不重复的数据怎么办?所以今天我们讲解如何快速统计不重复的数据。
在我们插入数据透视表之前,我们按下快捷键ctrl t,将表格转换为智能表格,如下:
Pandas是Python数据分析处理的核心第三方库,它使用二维数组形式,类似Excel表格,并封装了很多实用的函数方法,让你可以轻松地对数据集进行各种操作。
在pandas库中实现Excel的数据透视表效果通常用的是df['a'].value_counts()这个函数,表示统计数据框(DataFrame) df的列a各个元素的出现次数;例如对于一个数据表如pd.DataFrame({'a':['A','A','B','C','C','C'],'b':[1,2,3,4,5,6],'c':[11,11,12,13,13,14]}),其透视表效果如下:
在使用pandas包进行Excel文件处理时,有时候会遇到TypeError: read_excel() got an unexpected keyword argument ‘parse_cols'或TypeError: read_excel() got an unexpected keyword argument ‘sheetname'的错误消息。这些错误消息通常是由于pandas版本更新导致的,某些参数已被弃用或更改。 为了解决这个问题,我们需要采取以下步骤:
世界上最深入人心的数据分析工具,是Excel,在日本的程序员考试中,程序语言部分,是可以选择Excel表格工具作为考试选项的。可见其重要性。
最近发现好多软件号写起了Excel文章,哈哈哈,这是咋啦?作为一个数据号,咱也分享一些Excel技巧吧。
上篇推文《从【中国式复杂报表】谈设计逻辑》中我们提到,中国式复杂报表作为高度复杂化的产物,不适合进一步用作数据源。但实际工作中,难免遇到以类似复杂表格作为数据源的情况。比如从国家统计局下载数据的表单,就是一个初级版的复杂报表。我们可以看到,表头分了两个层级,且子层级含有合计数。列方向上也有合计(全国)。本文将来一步一步介绍,如何清洗复杂报表数据源。
第一,注意不要和Power Query的数据操作混淆,在Power Query里做了数据筛选,最后得到的数据是筛选后的结果,因为Power Query就是针对数据本身进行处理的(PQ其实也不删除数据,只是你习惯性的只使用筛选后的数据结果而已)。
小勤:大海,上次你的文章《Excel统计无法承受之轻——非重复计数问题PQ解》教我用Power Query直接实现了非重复计数的操作,但现在除了非重复计数,还有很多其他的数据要统计,能不能直接在数据透视表里实现?
大海:传统的数据透视表功能很强大,但非常奇怪的是——不支持非重复计数!你要用数据透视同时实现其他统计和非重复计数,又不想在原始数据表里增加辅助列的话,得考虑用Power Pivot了。
处理数量较大的数据时,一般分为数据获取、数据筛选,以及结果展示几个步骤。在 Excel 中,我们可以利用数据透视表(Pivot Table)方便快捷的实现这些工作。
数据专业人员经常做的工作之一是将多个数据集追加到一起。无论这些数据集是包含在一个 Excel 工作簿中,还是分布在多个文件中,问题是它们需要被纵向【追加】到一个表中。
近日一篇名为 Excel界地震 微软宣布 跨4代人34岁的 VLOOKUP 退休 刷爆朋友圈,几小时就像病毒一样传播起来并很快得到了10W+的阅读,太香了。几乎所有和 Excel 有关的公众号都在发与 VLOOKUP 及 XLOOKUP 有关的文章,这还不够说明地震的嘛。一个小小的 VLOOKUP 其实可以洞悉到人们对 Excel 的依赖度之广之深。
Pandas 是基于 NumPy 的一个开源 Python 库,它被广泛用于快速分析数据,以及数据清洗和准备等工作。它的名字来源是由“ Panel data”(面板数据,一个计量经济学名词)两个单词拼成的。简单地说,你可以把 Pandas 看作是 Python 版的 Excel。
原文在简书上发表,再同步到Excel催化剂微信公众号或其他平台上,文章后续有修改和更新将在简书上操作, 其他平台不作同步修改更新,因此建议阅读其他出处的文章时,尽可能跳转回简书平台上查看。 简书原文地址:https://www.jianshu.com/p/21b2ca8fd2b8
微软用几年的弯路摸索出自助商务智能的最终产品路线,PowerBI 自然而然地来了。另外,如果您正从零(或者具备一定Excel基础)开始希望学习自助BI,也可以对照看目前所处的位置以更清晰学习上升的路线。
永远不要低估Excel的作用,虽然名种BI工具很火爆,但记住他们只在分析师的群体中火爆,当涉及到报表分享时,分享到一般用户手里时,或者职场老一辈人群时,Excel是最佳的选择。同样对灵活性要求高、自动化程度强烈的,Excel仍然是不二的选择。
SQL难吗?说实话,要写好,很难很难。但要通过SQL笔试这关,并不难。相信大伙都使用过Excel,用SQL实现excel 常用操作去学,感觉会比较具体。我自身也刚入数据岗不久,本文也是为自己巩固一下SQL。
文章背景: 透视列(Pivot)和逆透视列(Unpivot)是在Excel当中经常使用的一对数据聚合和拆分方法,在Power BI中也提供了同样的功能。
如果把Excel比作武侠小说中的“剑”,那么按照武侠小说中御“剑”能力的高低程度可以大致将剑客分为以下几个等级: Level 1(剑客):小说中常见的劫匪甲乙丙,此类剑客多是初入江湖,会照着剑谱比划几种简单的招式但缺乏对招式的理解及融会贯通,对剑的理解只停留在表面的“形”上。在此级别的Excel使用者对Excel的基本功能已经有所了解,但还不熟,还没有达到灵活高效地应用Excel解决业务问题的程度。 Level 2(剑侠):例如金庸小说《笑傲江湖》中五岳剑派盟主左冷禅,左冷禅其实算得上是狠角色了,不仅熟练
一般来说,在各系统里导出的数据,在导出数据的时候,已经对导出行为进行了权限管控,如甲员工只能导广州区数据,乙员工只对导深圳数据,他们的主管可以导华南区的数据等等。理想的场景是各人使用各自的权限导出所需的数据作分析。
把源数据汇总后,为了满足质量要求的数据,需要做数据清洗。PQ就好像变形金刚(英文版PowerBI的转换选项卡恰好也叫“Transform”),在转换选项卡中,集成了各类变形功能。使用频率最高的一般有12个小招: 首行作标题、修改数据类型、删除(重复、错误、空项目)、拆分、提取、合并、替换、填充、移动、排序、格式、逆透视。
本文总结数据分析常用的软件,以及推荐相应的学习参考资料。主要包括Excel、SQL、Python/R等。同时,介绍了数据分析“直接”使用的数据类型,以及SQL、Python/R等软件在数据分析中的应用。最后,给出了Python学习框架的学习建议。
领取专属 10元无门槛券
手把手带您无忧上云