临时处理小记:把Numpy的narray二进制文件转换成json文件

临时处理一个Numpy的二进制文件,分析知道里面是dict类型,简单小记一下,如果Numpy和Python基础不熟悉可以看我之前写的文章(贴一下Numpy的)

小白眼中的AI之~Numpy基础

码农眼中的数学之~矩阵专栏(附Numpy讲解)

%%time

import numpy as np
Wall time: 135 ms
%%time

import pandas as pd
Wall time: 351 ms
%%time

df = pd.DataFrame(np.load("data.npy")) # 通过narry创建DataFrame
Wall time: 910 ms
%%time

df.head(10) # 快速预览前10行
Wall time: 1 ms

0

0

{'email': 'liurh@csdn.net', 'pwd': '9755DD0556...

1

{'email': 'fw19@sina.com', 'pwd': '6BB518D1A42...

2

{'email': 'whcheng@126.com', 'pwd': '0079ABBA6...

3

{'email': 'zh4ang@163.com', 'pwd': 'E23E561F02...

4

{'email': 'johnzhou8888@yahoo.com.cn', 'pwd': ...

5

{'email': 'zaza902@hotmail.com', 'pwd': '9B084...

6

{'email': 'yuping_zhong@163.com', 'pwd': '7D07...

7

{'email': 'annnntning@sina.com', 'pwd': '448A2...

8

{'email': 'sunnydinasun@sohu.com', 'pwd': 'DBF...

9

{'email': 'ysmrose@sohu.com', 'pwd': '22DDD26D...

%%time

# 提取email列
df['Email'] = df[0].map(lambda x : dict(x)["email"])
# 提取pwd列
df['MD5'] = df[0].map(lambda x : dict(x)["pwd"] )
# 删除无用列
del df[0]
Wall time: 1.05 s
%%time

df.size # 查看总共多少数据
Wall time: 0 ns





2097148
%%time

df.shape
Wall time: 0 ns





(1048574, 2)
%%time

df.head(10)
Wall time: 0 ns

Email

MD5

0

liurh@csdn.net

9755DD05564EAD9EADCACE40B5A02711

1

fw19@sina.com

6BB518D1A42F22DA5CA62D5EE41C5D4F

2

whcheng@126.com

0079ABBA66856DAFDF2B9A6E0DB23A09

3

zh4ang@163.com

E23E561F0202ACECA30B8F07A48AB8E9

4

johnzhou8888@yahoo.com.cn

0EB1A2DB91A2BF3FB6275DE659A25805

5

zaza902@hotmail.com

9B08473C992C07E98389ED1C280A634A

6

yuping_zhong@163.com

7D0710824FF191F6A0086A7E3891641E

7

annnntning@sina.com

448A2BCEE09A3B14C22DC000351216B7

8

sunnydinasun@sohu.com

DBFBA02E366BAB58DF605D6475189A51

9

ysmrose@sohu.com

22DDD26D62AF8B1C4A216BE18FDFF5B2

%%time

df.T.to_json("user.json") # 重新保存为Json(转置只是为了存储成我们常见的json格式)
Wall time: 2.85 s

原文发布于微信公众号 - 我为Net狂(dotNetCrazy)

原文发表时间:2018-08-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏算法channel

玩转Pandas,让数据处理更easy系列4

玩转Pandas系列已经连续推送3篇,尽量贴近Pandas的本质原理,结合工作实践,按照使用Pandas的逻辑步骤,系统地并结合实例推送Pandas的主要常用功...

12030
来自专栏数据小魔方

箱线图(boxplot)

今天要跟大家介绍的图表是箱线图! ▽▼▽ 在恶心excel2013及以下版本中,没有直接制作箱线图的图表工具,需要借助股价图,并对数据做少许变换才能做出箱线图的...

46880
来自专栏Rovo89

UML类图的学习笔记

11830
来自专栏Crossin的编程教室

【每周一坑】田忌赛马

本周的题目取自著名的历史典故:田忌赛马 背景资料如下 田忌经常与齐国众公子赛马,设重金赌注。田忌的上宾孙膑发现他们的马脚力都差不多,马分为上、中、下三等,于是对...

315100
来自专栏JAVA高级架构

程序员必须掌握的600个英语单词

11620
来自专栏生信宝典

Python学习没有捷径,但可以加速,零基础九天你也可以会编程

在小学生都学Python了,你还不知道怎么开始文中介绍了Python的应用广泛,功能强大,提供了Python的在线学习视频和资料等 (收集资料是我们的最爱)。...

215100
来自专栏软件开发 -- 分享 互助 成长

散列表(哈希表)

序言: 如果将一系列的记录按照关键字的某种函数存储,那么在查找某个数据的时候就可以直接通过关键字计算出来了,而不在需要“比较”,这样会非常高效,这就是散列技术。...

19880
来自专栏大史住在大前端

野生前端的数据结构基础练习(8)——图

图是由边的集合和点的集合组成的。如果图的边有方向(或者说图中的顶点对是有序的)则成为有向图,如果边没有方向则称为无向图。

10830
来自专栏数据结构与算法

洛谷P1731 [NOI1999]生日蛋糕(爆搜)

设从下往上数第i(1<=i<=M)层蛋糕是半径为Ri, 高度为Hi的圆柱。当i<M时,要求 R_i>R_{i+1}Ri​>Ri+1​ 且 H_i>H_{i+1}...

11210
来自专栏逸鹏说道

大小端对齐,正码,反码,补码 ~ 附整数溢出的探讨

http://www.cnblogs.com/dotnetcrazy/p/8178175.html

11930

扫码关注云+社区

领取腾讯云代金券