专栏首页小数志Pandas vs Spark:数据读取篇

Pandas vs Spark:数据读取篇

导读

按照前文所述,本篇开始Pandas和Spark常用数据处理方法对比系列。数据处理的第一个环节当然是数据读取,所以本文就围绕两个框架常用的数据读取方法做以介绍和对比。

数据读取是所有数据处理分析的第一步,而Pandas和Spark作为常用的计算框架,都对常用的数据源读取内置了相应接口。总体而言,数据读取可分为从文件读取和从数据库读取两大类,其中数据库读取包含了主流的数据库,从文件读取又区分为不同的文件类型。基于此,本文首先分别介绍Pandas和Spark常用的数据读取API,而后进行简要对比分析。

01 Pandas常用数据读取方法

Pandas内置了丰富的数据读取API,且都是形如pd.read_xxx格式,通过对pd顶级接口方法进行过滤,得到Pandas中支持的数据读取API列表如下:

过滤pandas中以read开头的方法名称

按照个人使用频率,对主要API接口介绍如下:

  • read_sql:用于从关系型数据库中读取数据,涵盖了主流的常用数据库支持,一般来讲pd.read_sql的第一个参数是SQL查询语句,第二个参数是数据库连接驱动,所以从这个角度讲read_sql相当于对各种数据库读取方法的二次包装和集成;
  • read_csv:其使用频率不亚于read_sql,而且有时考虑数据读取效率问题甚至常常会首先将数据从数据库中转储为csv文件,而后再用read_csv获取。这一转储的过程目的有二:一是提高读取速度,二是降低数据读取过程中的运行内存占用(实测同样的数据转储为csv文件后再读取,内存占用会更低一些);
  • read_excel:其实也是对xlrd库的二次封装,用来读取Excel文件会更加方便,但日常使用不多;
  • read_json:json文件本质上也属于结构化数据,所以也可将其读取为DataFrame类型,但如果嵌套层级差别较大的话,读取起来不是很合适;
  • read_html:这应该算是Pandas提供的一个小彩蛋了,表面上看它就是一个用于读取html文件中数据表格的接口,但实际上有人却拿他来干着爬虫的事情……
  • read_clipboard:这可以算是Pandas提供的另一个小彩蛋,用于从剪切板中读取结构化数据到DataFrame中。至于数据是如何到剪切板中的,那方式可能就多种多样了,比如从数据库中复制、从excel或者csv文件中复制,进而可以方便的用于读取小型的结构化数据,而不用大费周章的连接数据库或者找到文件路径!
  • read_table:可用于读取txt文件,使用频率不高;
  • read_parquet:Parquet是大数据中的标志性文件,Pandas也对其予以支持,但依赖还是很复杂的;
  • 另外,还有ocr和pickle等文件类型,其中OCR是Hive中的标准数据文件类型,与Parquet类似,也是列式存储,虽然Pandas也提供支持,但既然是大数据,其实与Pandas已经关系不大了;而pickle则是python中常用的序列化存储格式。

在以上方法中,重点掌握和极为常用的数据读取方法当属read_sql和read_csv两种,尤其是read_csv不仅效率高,而且支持非常丰富的参数设置,例如支持跳过指定行数(skip_rows)后读取一定行数(nrows)的数据,就是这个小技巧使得曾经小内存的我也能得以处理大数据,着实欣喜!

02 Spark常用数据读取方法

与Pandas类似,Spark也提供了丰富的数据读取API,对于常用的数据读取方法也都给予了非常好的支持。这里以Scala Spark为例,通过tab键补全命令查看常用的数据读取方法如下:

通过spark-shell的tab键补全得到spark.read.的系列方法

可以明显注意到Spark的数据读取API与Pandas接口名称的一个显著区别是:Spark采用二级接口的方式,即首先调用read属性获取读接口的类,然后再区分数据源细分为各种类型;而Pandas则是直接提供了read_各数据类型的API。仍然按照使用频率来分:

  • spark.read.parquet:前面已经提到,parquet是大数据中的标准文件存储格式,也是Apache的顶级项目,相较于OCR而言,Parquet更为流行和通用。Parquet的优势也不少,包括内置了数据Schema、高效的压缩存储等;
  • spark.read.jdbc:通过jdbc提供了对读取各主流数据库的支持,由于其实际上也是一个类,所以相应的参数设置都要依托option方法来进行传递,最后通过执行load实现数据的读取。但不得不说,spark内置的一些默认参数相较于Pandas而言合理性要差很多,例如fetchSize默认为10,这对于大数据读取而言简直是致命的打击,谁用谁知道……
  • spark.read.csv:spark对于csv文件也给予了很好的支持,但参数配置相较于Pandas而言则要逊色很多
  • spark.read.textFile:典型的txt文件读取方式,相信很多人的一个Spark项目word count大多是从读取txt文件开始的吧,不过对于个人而言好像也仅仅是在写word count时才用到了read.textFile。
  • 其他也有read.json和read.orc等,但使用频率不高。

如果说Pandas读取数据库是最为常用的方法,那么Spark其实最为常用的当属Parquet,毕竟Parquet文件与Spark等同为Apache顶级项目,而且更具大数据特色,称得上是大数据文件存储的业界规范!

03 小结

整体来看,Pandas和Spark在数据读取方面都提供了丰富的接口,支持的数据源类型也大体相当。但对参数支持和易用性方面,Pandas对数据库和csv文件相对更加友好,而Spark与Parquet文件格式则更为搭配。虽然同为数据计算框架,但Pandas是单机计算模式,而Spark则是分布式计算,所以不同的数据量级也自然决定了数据源的侧重点不同,本无高下之分,只能说各有千秋。


最后,感谢清华大学出版社为本公众号读者赞助《Scala和Spark大数据分析 函数式编程、数据流和机器学习》一本,截止下周一(3月22日)早9点,公众号后台查看分享最多的前3名读者随机指定一人。

推荐语:本书在简要介绍Scala语言理解“面向对象”和“函数式编程”等理念的基础上,重点围绕Spark的核心抽象概念以及Spark SQL、Spark Streaming和Spark GraphX等组件来分析结构化和非结构化数据,开发出具备可伸缩性和容错能力的流式应用。通过本书,你将学会用Spark来快速完成大数据分析,对于学习Scala和Spark将会非常有帮助。

本文分享自微信公众号 - 小数志(Datazhi),作者:luanhz

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2021-03-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 开发ETL为什么很多人用R不用Python

    ETL在数据工作中起着至关重要的作用,主要用途有两个:(1)数据生产(2)为探索性数据分析与数据建模服务。

    taskctl官方频道
  • SQL、Pandas和Spark:常用数据查询操作对比

    当今信息时代,数据堪称是最宝贵的资源。沿承系列文章,本文对SQL、Pandas和Spark这3个常用的数据处理工具进行对比,主要围绕数据查询的主要操作展开。

    luanhz
  • 仅需1秒!搞定100万行数据:超强Python数据分析利器

    使用Python进行大数据分析变得越来越流行。这一切都要从NumPy开始,它也是今天我们在推文介绍工具背后支持的模块之一。

    量化投资与机器学习微信公众号
  • python Pandas 读取数据,写

    pandas 选取数据 iloc和 loc的用法不太一样,iloc是根据索引, loc是根据行的数值

    py3study
  • SQL、Pandas和Spark:这个库,实现了三大数据分析工具的大一统

    看过近期推文的读者,想必应该知道笔者最近在开一个数据分析常用工具对比的系列,主要是围绕SQL、Pandas和Spark三大个人常用数据分析工具,目前已完成了基本...

    luanhz
  • Spark 2.3.0 重要特性介绍

    为了继续实现 Spark 更快,更轻松,更智能的目标,Spark 2.3 在许多模块都做了重要的更新,比如 Structured Streaming 引入了低延...

    smartsi
  • Pandas vs Spark:获取指定列的N种方式

    本篇继续Pandas与Spark常用操作对比系列,针对常用到的获取指定列的多种实现做以对比。

    luanhz
  • Spark vs Dask Python生态下的计算引擎

    对于 Python 环境下开发的数据科学团队,Dask 为分布式分析指出了非常明确的道路,但是事实上大家都选择了 Spark 来达成相同的目的。Dask 是一个...

    Ewdager
  • 大数据之Hadoop vs. Spark,如何取舍?

    Hadoop在大数据领域享有多年垄断权,随着该领域开始出现新生力量,其统治地位正在逐渐下滑。年初的调查中,Hadoop被列为2018年大数据领域的“渐冻”趋势之...

    IT派
  • EMPS:个人做数据分析处理的4重境界

    自从事数据科学行业以来,便每天在与各种数据处理打交道,当然这里的数据处理是多方面的:既有数据采集和读写,也有数据清洗与变换,当然还有数据分析和挖掘。从主用工具的...

    luanhz
  • Spark读取结构化数据

    Spark可以从本地CSV,HDFS以及Hive读取结构化数据,直接解析为DataFrame,进行后续分析。

    用户2183996
  • 用于ETL的Python数据转换工具详解

    做 数据仓库系统,ETL是关键的一环。说大了,ETL是数据整合解决方案,说小了,就是倒数据的工具。回忆一下工作这么些年来,处理数据迁移、转换的工作倒 还真的不...

    砸漏
  • python读取hdfs并返回dataframe教程

    补充知识:Python连接HDFS实现文件上传下载及Pandas转换文本文件到CSV

    砸漏
  • SQL、Pandas、Spark:窗口函数的3种实现

    窗口函数是数据库查询中的一个经典场景,在解决某些特定问题时甚至是必须的。个人认为,在单纯的数据库查询语句层面【即不考虑DML、SQL调优、索引等进阶】,窗口函数...

    luanhz
  • 有比Pandas 更好的替代吗?对比Vaex, Dask, PySpark, Modin 和Julia

    表格是存储数据的最典型方式,在Python环境中没有比Pandas更好的工具来操作数据表了。尽管Pandas具有广泛的能力,但它还是有局限性的。比如,如果数据集...

    deephub
  • pandas(series和读取外部数据)

    pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需...

    用户7886150
  • Apache Spark 3.0.0重磅发布 —— 重要特性全面解析

    2020年6月18日,开发了近两年(自2018年10月份至今)的Apache Spark 3.0.0正式发布!

    大数据学习与分享
  • Apache Spark 3.0.0重磅发布 —— 重要特性全面解析

    2020年6月18日,开发了近两年(自2018年10月份至今)的Apache SparkTM 3.0.0正式发布!

    大数据学习与分享
  • 优化spark sql读取 kudu数据

    通过 spark sql 读取 kudu 数据,由于 kudu 表 只有 6 个 tablet ,所以 spark 默认只能启动 6 个 task,读取 kud...

    shengjk1

扫码关注云+社区

领取腾讯云代金券