首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据分析从零开始实战(二)

零 写在前面 上一篇文章带大家了解了数据分析基础,配置好了数据分析的基本环境,以及利用pandas模块读写csv文件,本文开头,我也补充了csv与tsv的基本介绍与区别,意在更好的让大家理解相关知识点...文件 文章开头我已经说明了csv与tsv的差别,相信部分看过第一篇文章的读者应该知道怎么处理tsv文件了。...函数解析 read_json(path_or_buf,orient,encoding,numpy) 常见参数解析: path_or_buf:字符串,表示文件路径; orient:指示预期的JSON字符串格式...仅支持数字数据,支持非数字列和索引标签。另请注意,如果numpy = True,则每个术语的JSON顺序必须相同。...函数解析 to_json(path_or_buf,orient,encoding,index) 前三个参数和read_json()里的一样 index:False则选择不写入索引,默认为True。

1.4K30
您找到你想要的搜索结果了吗?
是的
没有找到

Pandas vs Spark:数据读取篇

这一转储的过程目的有二:一是提高读取速度,二是降低数据读取过程的运行内存占用(实测同样的数据转储为csv文件后再读取,内存占用会更低一些); read_excel:其实也是对xlrd库的二次封装,用来读取...Excel文件会更加方便,日常使用不多; read_json:json文件本质上也属于结构化数据,所以也可将其读取为DataFrame类型,如果嵌套层级差别较大的话,读取起来不是很合适; read_html...:这应该算是Pandas提供的一个小彩蛋了,表面上看它就是一个用于读取html文件数据表格的接口,实际上有人却拿他来干着爬虫的事情…… read_clipboard:这可以算是Pandas提供的另一个小彩蛋...read_table:可用于读取txt文件,使用频率不高; read_parquet:Parquet是大数据的标志性文件,Pandas也对其予以支持,依赖还是很复杂的; 另外,还有ocr和pickle...等文件类型,其中OCR是Hive的标准数据文件类型,与Parquet类似,也是列式存储,虽然Pandas也提供支持,既然是大数据,其实与Pandas已经关系不大了;而pickle则是python中常用的序列化存储格式

1.7K30

Python数据分析的数据导入和导出

由于Excel文件存放巨量数据时会占用极大空间,且导入时也存在占用极大内存的缺点,因此,巨量数据常采用CSV格式。...read_csv() Python,导入CSV格式数据通过调用pandas模块的read_csv方法实现。...pandas导入JSON数据 read_json() read_json函数是一个读取JSON文件的函数。它的作用是将指定的JSON文件加载到内存并将其解析成Python对象。...示例 导入(爬取)网络数据 Python的数据分析,除了可以导入文件和数据库的数据,还有一类非常重要的数据就是网络数据。...该例,首先通过pandas库的read_csv方法导入sales.csv文件的前10行数据,然后使用pandas库的to_csv方法将导入的数据输出为sales_new.csv文件。

13510

n种方式教你用python读写excel等数据文件

内存不够时使用,一般不太用 readlines() :一次性读取整个文件内容,并按行返回到list,方便我们遍历 具体用法可见:一文搞懂python文件读写 2....import pandas as pd pd.read_csv('test.csv') read_excel方法 读取excel文件,包括xlsx、xls、xlsm格式 import pandas as...pd pd.read_excel('test.xlsx') read_table方法 通过对sep参数(分隔符)的控制来对任何文本文件读取 read_json方法 读取json格式文件 df = pd.DataFrame...主要模块: xlrd库 从excel读取数据,支持xls、xlsx xlwt库 对excel进行修改操作,不支持对xlsx格式的修改 xlutils库 xlw和xlrd,对一个已存在的文件进行修改...xlsxwriter 用来生成excel表格,插入数据、插入图标等表格操作,不支持读取 Microsoft Excel API 需安装pywin32,直接与Excel进程通信,可以做任何在Excel里可以做的事情,比较慢

3.9K10

深入理解pandas读取excel,txt,csv文件等命令

pandas读取文件官方提供的文档 使用pandas读取文件之前,必备的内容,必然属于官方文档,官方文档查阅地址 http://pandas.pydata.org/pandas-docs/version...,再低内存消耗解析。...data = pd.read_csv("data.txt",sep="\s+") 读取的文件如果出现中文编码错误 需要设定 encoding 参数 为行和列添加索引 用参数names添加列索引,用...可接受的值是None或xlrd converters 参照read_csv即可 其余参数 基本和read_csv一致 pandas 读取excel文件如果报错,一般处理为 错误为:ImportError...pandas读取文件的过程,最常出现的问题,就是中文问题与格式问题,希望当你碰到的时候,可以完美的解决。 有任何问题,希望可以评论区给我回复,期待和你一起进步,博客园-梦想橡皮擦

12K40

深入理解pandas读取excel,tx

pandas读取文件官方提供的文档 使用pandas读取文件之前,必备的内容,必然属于官方文档,官方文档查阅地址 http://pandas.pydata.org/pandas-docs/version...,再低内存消耗解析。...data = pd.read_csv("data.txt",sep="\s+") 读取的文件如果出现中文编码错误 需要设定 encoding 参数 为行和列添加索引 用参数names添加列索引...可接受的值是None或xlrd converters 参照read_csv即可 其余参数 基本和read_csv一致 pandas 读取excel文件如果报错,一般处理为 错误为:ImportError...pandas读取文件的过程,最常出现的问题,就是中文问题与格式问题,希望当你碰到的时候,可以完美的解决。 有任何问题,希望可以评论区给我回复,期待和你一起进步,博客园-梦想橡皮擦

6.1K10

机器学习,如何优化数据性能

类似下面的写法: 这是非常不好的习惯,numpy或pandas实现append的时候,实际上对内存块进行了拷贝——当数据块逐渐变大的时候,这一操作的开销会非常大。...笔者没有深入研究它们这么设计原因,猜测可能是为了保证拼接后的数组在内存依然是连续区块——这对于高性能的随机查找和随机访问是很有必要的。...Numpy和pandas都提供了很多非常方便的区块选取及区块处理的办法。这些功能非常强大,支持按条件的选取,能满足大部分的需求。...避免链式赋值 链式赋值是几乎所有pandas的新人都会在不知不觉犯的错误,并且产生恼人而又意义不明的SettingWithCopyWarning警告。...实际上这个警告是提醒开发者,你的代码可能没按你的预期运行,需要检查——很多时候可能产生难以调试发现的错误

73330

10行代码,Python实现爬取淘宝天猫评论

“累计评价”: 出现如下结果 URL下面出现很多网址,而评论数据正隐藏在其中!...下面开始我们的爬取,我使用Python的requests库进行抓取,Python依次输入: importrequests asrqurl ='http://rate.tmall.com/list_detail_rate.htm...上面的意思是,文本查找下面标签 "rateList": [...],"tags" 找到后保留方括号及方括号里边的内容。为什么不直接以方括号为标签呢,而要多加几个字符?...也简单,直接用Pandas吧。这是Python强大的数据分析工具,用它可以直接读取JSON。...importpandas aspdmytable =pd .read_json (myjson ) 现在mytable就是一个规范的Pandas的DataFrame了: 如果有两个表mytable1和mytable2

3.2K50

区块链技术——惹争议?

数字货币的意义被再次审视,围绕“可以用区块链做什么”的思考仍在发酵,尽管建立全新的应用场景这条路异常艰难。...而“什么可以用到区块链”的思考路径则更为实际,如何将区块链落地到原有的生活、生产的场景,解决实际问题。...前文提到的供应链金融平台是一个资产数据化的案例,推行起来仍有难度,很多大企业并不愿意将自己的信息上链。 在数字资产方面,区块链技术落地会有非常大的空间。...因为在审计过程可以看到,很多合约的错误是重复雷同的,这就是因为采用了伪劣的核心模版。...这些公司内部会有精度更高、更完备的测试工具,形式化验证之后,还会进行人工漏洞复现和人工复审。

57140

20个经典函数细说Pandas的数据读取与存储

,因此可以read_sql()方法填入对应的sql语句然后来读取我们想要的数据, pd.read_sql(sql, con, index_col=None, coerce_float...{"format": "%d/%m/%y"}}) to_sql()方法 我们来看一下to_sql()方法,作用是将DataFrame当中的数据存放到数据库当中,请看下面的示例代码,我们创建一个基于内存的...()方法和to_json()方法 我们经常也会在实际工作与学习当中遇到需要去处理JSON格式数据的情况,我们用Pandas模块当中的read_json()方法来进行处理,我们来看一下该方法中常用到的参数...SystemExit 解释器请求退出 3 KeyboardInterrupt 用户中断执行(通常是输入^C) 4 Exception 常规错误的基类...粘贴到例如Excel表格 df.to_clipboard()

3K20

Pandas的Apply函数——Pandas中最好用的函数

Pandas最好用的函数 Pandas是Python语言中非常好用的一种数据结构包,包含了许多有用的数据操作方法。而且很多算法相关的库函数的输入数据结构都要求是pandas数据,或者有该数据的接口。...CSV read_csv to_csv text JSON read_json to_json text HTML read_html to_html text Local clipboard read_clipboard...`里面所有函数自由度最高的函数。...这个函数需要自己实现,函数的传入参数根据axis来定,比如axis = 1,就会把一行数据作为Series的数据结构传入给自己实现的函数,我们函数实现对Series不同属性之间的计算,返回一个结果...比如读取一个表格: 假如我们想要得到表格的PublishedTime和ReceivedTime属性之间的时间差数据,就可以使用下面的函数来实现: import pandas as pd import

1K10

Pandas库常用方法、函数集合

读取 写入 read_csv:读取CSV文件 to_csv:导出CSV文件 read_excel:读取Excel文件 to_excel:导出Excel文件 read_json:读取Json文件 to_json...join concat:合并多个dataframe,类似sql的union pivot:按照指定的行列重塑表格 pivot_table:数据透视表,类似excel的透视表 cut:将一组数据分割成离散的区间...聚合 转换 过滤 groupby:按照指定的列或多个列对数据进行分组 agg:对每个分组应用自定义的聚合函数 transform:对每个分组应用转换函数,返回与原始数据形状相同的结果 rank:计算元素每个分组的排名...pandas.plotting.bootstrap_plot:用于评估统计数据的不确定性,例如均值,中位数,中间范围等 pandas.plotting.lag_plot:绘制时滞图,用于检测时间序列数据的模式...获取日期的星期几和月份的名称 total_seconds: 计算时间间隔的总秒数 rolling: 用于滚动窗口的操作 expanding: 用于展开窗口的操作 at_time, between_time: 特定时间进行选择

25110

面试官问我内存池Memory Pool是什么,以为我不知道,其实我都懂!

翻阅 Java 编程思想英文原版时,读到了 pool of memory一词,而 Java 的堆内容就属于内存池。...对于其它动态存储器规划的实践来说,因为会变动存储器区块大小导致的碎片问题,导致实时系统上受限于性能因此,根本无法使用。...这个函数会先检测当前的内存池是否仍有足够空间可以规划所需的存储器区块,若空间已不足,将继续尝试下一个内存池。...一次归还存储器成千上万个对象的存储器区块只需要一个操作,无需像 malloc 一般需要个别 free。 内存池可以层次结构式的树状结构中被分群,非常适合某些特定的程序结构,例如递归与迭代。...缺点 内存池模块使用时,必须依照程序需求来做个别调整,才能保持时间与空间效率。

1.3K31

Pandas的10个常用函数总结

注意:我没有解释基本的算术和统计运算,比如 sqrt 和 corr,因为我想在这篇文章关注更多 Pandas 特定的函数。 read_csv 让我们从读取数据开始。...copy 我知道为了代码复制一些对象,我们通常写 A= B,但在 Pandas ,这实际上创建了 B 作为对 A 的引用。所以如果我们改变 B,A 的值也将被改变。因此,我们需要如下复制函数。...shallow 是如何随着 s 的变化而变化的, deep 保持不变。...它将系列的每个值替换为另一个值,该值可能来自函数、字典或另一个Series。下面是一些简单的例子, map 复杂情况下实际上有很大帮助,因为我们可以单个 map 调用映射多个事物。...apply,我们可以函数调用中直接在一行定义复杂的 lambda表达式。

85230
领券