首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

PySpark SQL——SQL和pd.DataFrame的结合体

导读 昨日推文PySpark环境搭建和简介,今天开始介绍PySpark中的第一个重要组件SQL/DataFrame,实际上从名字便可看出这是关系型数据库SQL和pandas.DataFrame的结合体,...Spark core中的RDD是最为核心的数据抽象,定位是替代传统的MapReduce计算框架;SQL是基于RDD的一个新的组件,集成了关系型数据库和数仓的主要功能,基本数据抽象是DataFrame,与pandas.DataFrame...SparkSession sc = SparkContext() spark = SparkSession(sc) DataFrame:是PySpark SQL中最为核心的数据结构,实质即为一个二维关系表,定位和功能与pandas.DataFrame...() df.filter('age=18').show() """ +----+---+ |name|age| +----+---+ | Tom| 18| +----+---+ """ 值得指出的是在pandas.DataFrame...以上主要是类比SQL中的关键字用法介绍了DataFrame部分主要操作,而学习DataFrame的另一个主要参照物就是pandas.DataFrame,例如以下操作: dropna:删除空值行 实际上也可以接收指定列名或阈值

9.9K20

数据可视化Seaborn入门介绍

返回数据集格式为Pandas.DataFrame对象。...matplotlib中figure),而后两者是axes-level(对应操作对象是matplotlib中的axes),但实际上接口调用方式和传参模式都是一致的,其核心参数主要包括以下4个: data,pandas.dataframe...swarmplot两种,常用参数是一致的,主要包括: x,散点图的x轴数据,一般为分类型数据 y,散点图的y轴数据,一般为数值型数据 hue,区分维度,相当于增加了第三个参数 data,pandas.dataframe...小结 最后简要总结seaborn制作可视化图表的几个要点: 绝大多数绘图接口名字均为XXXXplot形式 绘图数据对象主要区分连续型的数值变量和离散型的分类数据 绘图接口中的传参类型以pandas.dataframe

2.6K20
领券