Pandas实现分列功能(Pandas读书笔记1)

最近发现自己特愿意扯和分享内容本身无关的事情,下述内容纯闲扯:

pandas应该怎么分享困扰了我好久,但是看我公众号的朋友更困惑的是这个人为啥要分享pandas,分享这个东西有什么用呢?所以我决定先分享pandas能做什么,然后再从基础概念开始分享全面的知识点。我希望我的文章能成为某些朋友的中文API,将来应用遇到困难直接查询我的文章即可!

首先介绍什么是pandas

panda我们很熟悉!蠢萌蠢萌,让人想抱起来捏两下的国宝!

pandas是什么啦!遥记英文老师曾讲S是复数的意思!

那pandas就是!!!!

好吧!pandas的主人貌似是熊猫爱好者,或者最初是用来分析熊猫行为的!

不管怎样,Pandas是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。

这段话来自百度百科!

反正就是用于数据分析、数据处理很牛啦!具体有多牛呢!以后我们慢慢来体会!

今天先和大家分享一个Python的小应用!按照某列拆分数据并分别存储至不同文件!

大家可以先下载一下这个文件实验一下!

链接:https://pan.baidu.com/s/1kW0nJoF 密码:56xd

友情提醒!文件有43MB,手机党慎点!

我的文件行数有多少呢?

我们打开看一下!

也许我的个人电脑差一点吧!打开文件用了1分钟,我不太舍得让大家盯着圆圈看一分钟,所以还是略过打开的截图了!

我自己一行一行的数,数了四个小时,一共有57万多行!

如何按照K列镇区的非重复值拆分为独立文件呢!

方法一:勤劳小蜜蜂!

刚刚演示了普通劳动人民是如何按照某列拆分一列的!考虑K列有三十多种可能,勤劳如我也没有操作完!你们感兴趣可以弄一下!

方法二、Excel达人!

Excel强如我的!肯定不会手动筛选然后粘贴了!VBA一串代码搞定!

还是直接用强大如我的阿凯的Excel插件解决问题吧!

然后我就经历了漫长的等待-----未响应-----重新启动从零开始!!

我恨你拿五十多万行的数据欺负我!!

有本事你拿五百万行的数据哇!!!

反正我的插件都解决不了!

方法三、pandas出马!

逼得我非要用pandas!看看Python处理能用多久搞定!

基本上运行完代码后,打开目标文件夹就会发现会有源源不断的新文件生成!其实小编的电脑还是比较差的,台式机基本上打开文件夹就看到里面全是文件了!各位自己试试哦!

我把代码放到下面,简单做下解释!

import pandas as pd #导入pandas包

cf=open(r"D:\按照某列拆分文件测试.csv",encoding='gb18030',errors='ignore') #r代表文本没有转义字符,第一段输入的是打开文件的路径及文件名,encoding后面接的参数是代表使用什么编码gb18030比gb2312更为强大!error代码代表略过有错误的行

df= pd.read_csv(cf) #读取文件

list_township = df['镇区'].drop_duplicates() #删除镇区重复项drop_duplicates()为pandas自带方法!很方便

for township in list_township: #循环遍历列表,前面基础课程分享过

save = df.loc[df["镇区"] == township] #将镇区列等于镇区某个关键字的筛选出来赋值给save变量,中括号内是判断条件,df.loc[]代表将符合筛选条件的筛选出来

save.to_csv('D:/拆分后数据/'+ str(township) + '.csv',index=False,sep=',') #存储至新的文件夹,并且按照筛选条件命名文件

知道有的朋友看到这些代码很头疼!如果不理解没有关系!

本期只是解释小编为什么分享pandas,代码只是顺便分享的!

后续我们从pandas最基础的知识开始分享!

如果你有用Excel处理大数据的需求,学习pandas准没有错!

期待您与我共同成长、共同学习进步!

原文发布于微信公众号 - 阿凯的Excel(akexcel)

原文发表时间:2018-01-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

【观点】R语言在做为数据分析工具的优点

我从事数据分析工作已经有十年之久。最初是出于工作需要,我的经理给我一堆数据,我需要处理这些数据。当时我一直使用的工具是 Excel,因为这是我熟练掌握的一款工具...

3428
来自专栏Youngxj

[seo优化]给蜘蛛构建通畅网站结构

2006
来自专栏非著名程序员

微信小程序优秀开发资源汇总

? 说实话,我最近大概有半年多再也没有敲过 Android 的代码了,所以对于 Android 方面的内容可能分享的比较少了,这半年一直在做微信小程序的开发,...

5094
来自专栏PPV课数据科学社区

【聚焦】R语言与Excel约架!谁更适合做数据分析?

我从事数据分析工作已经有十年之久。最初是出于工作需要,我的经理给我一堆数据,我需要处理这些数据。当时我一直使用的工具是 Excel,因为这是我熟练掌握的一款工具...

2764
来自专栏逍遥剑客的游戏开发

引擎工具开发的一些总结

2285
来自专栏web前端教室

【crud】全栈-在线备忘录-node-express-MongoDB

这个VueJs的demo,这是一个在线的备忘录,算是全栈的一个应用吧,第一版的很简陋的demo贴上来,以后再美化UI,先把crud流程跑通再说, ? <!-- ...

3007
来自专栏腾讯Bugly的专栏

手游热更新方案xLua开源:Unity3D下Lua编程解决方案

导语 xLua是Unity3D下Lua编程解决方案,自2016年初推广以来,已经应用于十多款腾讯自研游戏,凭借其出色的性能,易用性,扩展性而广受好评。 而就在前...

2966
来自专栏韩伟的专栏

腾讯的热更新方案开源了

xLua是Unity3D下Lua编程解决方案,自2016年初推广以来,已经应用于十多款腾讯自研游戏,凭借其出色的性能,易用性,扩展性而广受好评。现在xLua开源...

4353
来自专栏SEO

【思考】百度新推出“网页标题作弊详解”

3218
来自专栏CDA数据分析师

R语言 PK Excel,谁更适合做数据分析?

我从事数据分析工作已经有十年之久。最初是出于工作需要,我的经理给我一堆数据,我需要处理这些数据。当时我一直使用的工具是 Excel,因为这是我熟练掌握的一款工具...

2217

扫描关注云+社区