前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >pyspark记录

pyspark记录

作者头像
DuncanZhou
发布2018-09-04 16:15:15
1.3K0
发布2018-09-04 16:15:15
举报
文章被收录于专栏:Duncan's BlogDuncan's Blog

Spark DataFrame学习

1. 文件的读取

1.1 spark.read.json() / spark.read.parquet() 或者 spark.read.load(path,format=”parquet/json”)

1.2 和数据库的交互 spark.sql(“”)

2.函数使用

  • 2.1 printSchema() - 显示表结构
  • 2.2 df.select(col) - 查找某一列的值
  • 2.3 df.show([int n]) - 显示[某几行的]的值
  • 2.4 df.filter(condition) - 过滤出符合条件的行
  • 2.5 df.groupby(col).count() df.groupby(col).agg(col,func.min(),func.max(),func.sum()) - 聚合函数
  • 2.6 spark.createDataFrame([(),(),(),()…,()],(col1,col2,col3,…,coln))
  • 2.7 自定义udf函数

123

@pandas_udf("col1 type,col2 type,...,coln type",PandasUDFType.GROUPD_MAP)def f(pdf): pass

df.groupby(col).apply(f).show()

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018-08-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Spark DataFrame学习
    • 1. 文件的读取
      • 2.函数使用
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档