Pandas实现分列功能(Pandas读书笔记1)

最近发现自己特愿意扯和分享内容本身无关的事情,下述内容纯闲扯:

pandas应该怎么分享困扰了我好久,但是看我公众号的朋友更困惑的是这个人为啥要分享pandas,分享这个东西有什么用呢?所以我决定先分享pandas能做什么,然后再从基础概念开始分享全面的知识点。我希望我的文章能成为某些朋友的中文API,将来应用遇到困难直接查询我的文章即可!

首先介绍什么是pandas

panda我们很熟悉!蠢萌蠢萌,让人想抱起来捏两下的国宝!

pandas是什么啦!遥记英文老师曾讲S是复数的意思!

那pandas就是!!!!

好吧!pandas的主人貌似是熊猫爱好者,或者最初是用来分析熊猫行为的!

不管怎样,Pandas是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。

这段话来自百度百科!

反正就是用于数据分析、数据处理很牛啦!具体有多牛呢!以后我们慢慢来体会!

今天先和大家分享一个Python的小应用!按照某列拆分数据并分别存储至不同文件!

大家可以先下载一下这个文件实验一下!

链接:https://pan.baidu.com/s/1kW0nJoF 密码:56xd

友情提醒!文件有43MB,手机党慎点!

我的文件行数有多少呢?

我们打开看一下!

也许我的个人电脑差一点吧!打开文件用了1分钟,我不太舍得让大家盯着圆圈看一分钟,所以还是略过打开的截图了!

我自己一行一行的数,数了四个小时,一共有57万多行!

如何按照K列镇区的非重复值拆分为独立文件呢!

方法一:勤劳小蜜蜂!

刚刚演示了普通劳动人民是如何按照某列拆分一列的!考虑K列有三十多种可能,勤劳如我也没有操作完!你们感兴趣可以弄一下!

方法二、Excel达人!

Excel强如我的!肯定不会手动筛选然后粘贴了!VBA一串代码搞定!

还是直接用强大如我的阿凯的Excel插件解决问题吧!

然后我就经历了漫长的等待-----未响应-----重新启动从零开始!!

我恨你拿五十多万行的数据欺负我!!

有本事你拿五百万行的数据哇!!!

反正我的插件都解决不了!

方法三、pandas出马!

逼得我非要用pandas!看看Python处理能用多久搞定!

基本上运行完代码后,打开目标文件夹就会发现会有源源不断的新文件生成!其实小编的电脑还是比较差的,台式机基本上打开文件夹就看到里面全是文件了!各位自己试试哦!

我把代码放到下面,简单做下解释!

import pandas as pd #导入pandas包

cf=open(r"D:\按照某列拆分文件测试.csv",encoding='gb18030',errors='ignore') #r代表文本没有转义字符,第一段输入的是打开文件的路径及文件名,encoding后面接的参数是代表使用什么编码gb18030比gb2312更为强大!error代码代表略过有错误的行

df= pd.read_csv(cf) #读取文件

list_township = df['镇区'].drop_duplicates() #删除镇区重复项drop_duplicates()为pandas自带方法!很方便

for township in list_township: #循环遍历列表,前面基础课程分享过

save = df.loc[df["镇区"] == township] #将镇区列等于镇区某个关键字的筛选出来赋值给save变量,中括号内是判断条件,df.loc[]代表将符合筛选条件的筛选出来

save.to_csv('D:/拆分后数据/'+ str(township) + '.csv',index=False,sep=',') #存储至新的文件夹,并且按照筛选条件命名文件

知道有的朋友看到这些代码很头疼!如果不理解没有关系!

本期只是解释小编为什么分享pandas,代码只是顺便分享的!

后续我们从pandas最基础的知识开始分享!

如果你有用Excel处理大数据的需求,学习pandas准没有错!

期待您与我共同成长、共同学习进步!

原文发布于微信公众号 - 阿凯的Excel(akexcel)

原文发表时间:2018-01-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏UML

数据流程图 (DFD) 示例:食品订购系统

数据流图也称为气泡图。它通常用作创建系统概述的初步步骤,而不需要详细介绍,以后可以将其作为自上而下的分解方式进行详细说明。DFD显示将从系统输入和输出的信息类型...

1546
来自专栏Kirito的技术分享

设计RPC接口时,你有考虑过这些吗?

RPC 框架的讨论一直是各个技术交流群中的热点话题,阿里的 dubbo,新浪微博的 motan,谷歌的 grpc,以及不久前蚂蚁金服开源的 sofa,都是比较出...

1001
来自专栏嵌入式程序猿

FreeMaster和你有个约会

FreeMaster 其实这工具好多年了,只是最近有了更新,在加上最近在调试BLDC电机,用这个工具挺好,FreeMASTER是一个用户友好型实时调试监测器和数...

2728
来自专栏逍遥剑客的游戏开发

引擎工具开发的一些总结

2325
来自专栏HansBug's Lab

【备忘】Idea的那些事

说到Java的IDE,似乎eclipse和Idea是目前的主流。然而,OO的课程组却一直在推荐使用eclipse,于是很多人就这样错过了Idea这样强大的IDE...

4009
来自专栏FreeBuf

一种常规Android脱壳技术的拓展(附工具)

最近在做移动安全测试的项目时,遇到了最新的某数字壳,好久都没脱壳了,记得上次脱壳还是zjdroid通杀的时候。秉着安全研究的精神,趁此机会,又把最新的加固与脱壳...

2628
来自专栏企鹅号快讯

WebSocket:5分钟从入门到精通

作者:程序猿小卡 https://segmentfault.com/a/1190000012709475 一、内容概览 WebSocket的出现,使得浏览器具备...

1988
来自专栏王亚昌的专栏

UNIX编程艺术之“文本化”

    本章的标题表达了作者的主旨:Good Protocols Make Good Practice。的确,好的协议或文件格式,会大大提升使用者的效率。这里的...

1082
来自专栏JAVA高级架构

JAVA架构师面试题,如何成为架构师

经常面试一些候选人,整理了下我面试使用的题目,陆陆续续整理出来的题目很多,所以每次会抽一部分来问。答案会在后面的文章中逐渐发布出来。 基础题目 Java线程的...

70211
来自专栏ATYUN订阅号

使用Python对Instagram进行数据分析

Instagram是最大的照片分享社交媒体平台,每月有5亿活跃用户,每天会上传9500万张照片和视频到Instagram上。它有大量的数据和巨大的潜力。这篇文章...

3384

扫码关注云+社区