pyspark记录

Spark DataFrame学习

1. 文件的读取

1.1 spark.read.json() / spark.read.parquet() 或者 spark.read.load(path,format=”parquet/json”)

1.2 和数据库的交互 spark.sql(“”)

2.函数使用

  • 2.1 printSchema() - 显示表结构
  • 2.2 df.select(col) - 查找某一列的值
  • 2.3 df.show([int n]) - 显示[某几行的]的值
  • 2.4 df.filter(condition) - 过滤出符合条件的行
  • 2.5 df.groupby(col).count() df.groupby(col).agg(col,func.min(),func.max(),func.sum()) - 聚合函数
  • 2.6 spark.createDataFrame([(),(),(),()…,()],(col1,col2,col3,…,coln))
  • 2.7 自定义udf函数

123

@pandas_udf("col1 type,col2 type,...,coln type",PandasUDFType.GROUPD_MAP)def f(pdf): pass

df.groupby(col).apply(f).show()

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏个人分享

SparkSQL(源码阅读三)

  额,没忍住,想完全了解sparksql,毕竟一直在用嘛,想一次性搞清楚它,所以今天再多看点好了~

49920
来自专栏Web 开发

在SAE上开发遇到的问题~

添加一个escape_data()的函数,该函数已经会自动识别各种PHP配置环境~

12700
来自专栏伦少的博客

Spark通过修改DataFrame的schema给表字段添加注释

通过Spark将关系型数据库(以Oracle为例)的表同步的Hive表,要求用Spark建表,有字段注释的也要加上注释。Spark建表,有两种方法:

26130
来自专栏转载gongluck的CSDN博客

用ADO操作数据库的方法步骤

学习ADO时总结的一些经验 用ADO操作数据库的方法步骤 ADO接口简介 ADO库包含三个基本接口:_ConnectionPtr接口、_CommandPtr接口...

46040
来自专栏PingCAP的专栏

TiDB 源码阅读系列文章(十一)Index Lookup Join

在介绍 Index Lookup Join 之前,我们首先看一下什么是 Nested Loop Join。

3.3K40
来自专栏令仔很忙

存储过程--机房收费系统

存储过程是由流控制和SQL语句书写的过程,这个过程经编译和优化后存储在数据库服务器中,应用程序使用时只要调用即可。

12210
来自专栏Java帮帮-微信公众号-技术文章全总结

第三十天-加强2-多表查询&JDBC&连接池&DBUtils&综合案例【悟空教程】

第三十天-加强2-多表查询&JDBC&连接池&DBUtils&综合案例【悟空教程】

17540
来自专栏扎心了老铁

使用spark与MySQL进行数据交互的方法

在项目中,遇到一个场景是,需要从Hive数据仓库中拉取数据,进行过滤、裁剪或者聚合之后生成中间结果导入MySQL。 对于这样一个极其普通的离线计算场景,有多种技...

1.3K90
来自专栏个人分享

Hbase与hive整合

//hive与hbase整合 create table lectrure.hbase_lecture10(sname string, score int) st...

21240
来自专栏chenssy

【死磕Sharding-jdbc】---路由&执行

继续以 sharding-jdbc-example-jdbc模块中的 com.dangdang.ddframe.rdb.sharding.example.jdb...

11630

扫码关注云+社区

领取腾讯云代金券