专栏首页阿凯的ExcelPandas实现分列功能(Pandas读书笔记1)

Pandas实现分列功能(Pandas读书笔记1)

最近发现自己特愿意扯和分享内容本身无关的事情,下述内容纯闲扯:

pandas应该怎么分享困扰了我好久,但是看我公众号的朋友更困惑的是这个人为啥要分享pandas,分享这个东西有什么用呢?所以我决定先分享pandas能做什么,然后再从基础概念开始分享全面的知识点。我希望我的文章能成为某些朋友的中文API,将来应用遇到困难直接查询我的文章即可!

首先介绍什么是pandas

panda我们很熟悉!蠢萌蠢萌,让人想抱起来捏两下的国宝!

pandas是什么啦!遥记英文老师曾讲S是复数的意思!

那pandas就是!!!!

好吧!pandas的主人貌似是熊猫爱好者,或者最初是用来分析熊猫行为的!

不管怎样,Pandas是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。

这段话来自百度百科!

反正就是用于数据分析、数据处理很牛啦!具体有多牛呢!以后我们慢慢来体会!

今天先和大家分享一个Python的小应用!按照某列拆分数据并分别存储至不同文件!

大家可以先下载一下这个文件实验一下!

链接:https://pan.baidu.com/s/1kW0nJoF 密码:56xd

友情提醒!文件有43MB,手机党慎点!

我的文件行数有多少呢?

我们打开看一下!

也许我的个人电脑差一点吧!打开文件用了1分钟,我不太舍得让大家盯着圆圈看一分钟,所以还是略过打开的截图了!

我自己一行一行的数,数了四个小时,一共有57万多行!

如何按照K列镇区的非重复值拆分为独立文件呢!

方法一:勤劳小蜜蜂!

刚刚演示了普通劳动人民是如何按照某列拆分一列的!考虑K列有三十多种可能,勤劳如我也没有操作完!你们感兴趣可以弄一下!

方法二、Excel达人!

Excel强如我的!肯定不会手动筛选然后粘贴了!VBA一串代码搞定!

还是直接用强大如我的阿凯的Excel插件解决问题吧!

然后我就经历了漫长的等待-----未响应-----重新启动从零开始!!

我恨你拿五十多万行的数据欺负我!!

有本事你拿五百万行的数据哇!!!

反正我的插件都解决不了!

方法三、pandas出马!

逼得我非要用pandas!看看Python处理能用多久搞定!

基本上运行完代码后,打开目标文件夹就会发现会有源源不断的新文件生成!其实小编的电脑还是比较差的,台式机基本上打开文件夹就看到里面全是文件了!各位自己试试哦!

我把代码放到下面,简单做下解释!

import pandas as pd #导入pandas包

cf=open(r"D:\按照某列拆分文件测试.csv",encoding='gb18030',errors='ignore') #r代表文本没有转义字符,第一段输入的是打开文件的路径及文件名,encoding后面接的参数是代表使用什么编码gb18030比gb2312更为强大!error代码代表略过有错误的行

df= pd.read_csv(cf) #读取文件

list_township = df['镇区'].drop_duplicates() #删除镇区重复项drop_duplicates()为pandas自带方法!很方便

for township in list_township: #循环遍历列表,前面基础课程分享过

save = df.loc[df["镇区"] == township] #将镇区列等于镇区某个关键字的筛选出来赋值给save变量,中括号内是判断条件,df.loc[]代表将符合筛选条件的筛选出来

save.to_csv('D:/拆分后数据/'+ str(township) + '.csv',index=False,sep=',') #存储至新的文件夹,并且按照筛选条件命名文件

知道有的朋友看到这些代码很头疼!如果不理解没有关系!

本期只是解释小编为什么分享pandas,代码只是顺便分享的!

后续我们从pandas最基础的知识开始分享!

如果你有用Excel处理大数据的需求,学习pandas准没有错!

期待您与我共同成长、共同学习进步!

本文分享自微信公众号 - 阿凯的Excel(akexcel),作者:阿忠凯

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-01-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Excel的匹配函数全应用

    今天会和大家分享日常使用频率最高匹配函数用法,谈到匹配函数,首先想到的就是Vlookup,嗯,今天就是要分享Vlookup和他的小伙伴们的应用。 ? ...

    用户1332619
  • 或关系求均值(函数虐心版)

    最近醉心于Python的学习和分享,好久没有分享Excel相关的文章了。 熟悉我文章的朋友,都知道我特喜欢分享数组函数,也特喜欢分享那种很长的函数。 前几天有朋...

    用户1332619
  • 或关系模糊匹配求均值(虐心升级版)

    上期和大家分享了如何使用数组函数实现或关系求均值。 本期和大家分享进一步的应用,或关系模糊匹配求均值。 如果没看上期直接看本期会比较痛苦,来个传送门! 点击我可...

    用户1332619
  • auto-sklearn环境报错 AttributeError: module 'pandas' has no attribute 'core'

    最后发现是 pandas 库的版本问题。安装 auto-sklearn 时安装的 pandas 版本是 0.25.1,这个版本有问题,需要安装 0.22 版的 ...

    kongxx
  • Python进阶之Pandas入门(一) 介绍和核心

    Pandas是数据分析中一个至关重要的库,它是大多数据项目的支柱。如果你想从事数据分析相关的职业,那么你要做的第一件事情就是学习Pandas。

    HuangWeiAI
  • 独家|图说Pandas中旋转和重塑函数

    本文通过图例的方式,举例说明了pandas中旋转(pivot)和重塑(reshape)函数的实现方式。

    数据派THU
  • Python一行命令生成数据分析报告

    一般在python进行数据分析/统计分析时,第一步总是对数据进行一些描述性分析、相关性分析,但是总会是有一大堆代码,那么今天就介绍一个神器pandas_prof...

    刘早起
  • Python pyspider 安装与开发

    PySpider是一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑...

    阳光岛主
  • 整理了25个Pandas实用技巧(上)

    如果你还想知道pandas所依赖的模块的版本,你可以使用show_versions()函数:

    1480
  • 2019-03-31的一周好文推荐

    https://kudu.apache.org/2019/03/19/testing-apache-kudu-applications-on-the-jvm.h...

    哒呵呵

扫码关注云+社区

领取腾讯云代金券