首页
学习
活动
专区
圈层
工具
发布

Spark之【SparkSQL编程】系列(No1)——《SparkSession与DataFrame》

DataFrame 2.1 创建 在Spark SQL中SparkSession是创建DataFrame和执行SQL的入口,创建DataFrame有三种方式:通过Spark的数据源进行创建;从一个存在的...hadoop fs -put /opt/data/people.json /input ok~ 1) 从Spark数据源进行创建 (1) 查看Spark数据源进行创建的文件格式, spark.read...全局的临时视图存在于系统数据库 global_temp中,我们必须加上库名去引用它 5)对于DataFrame创建一个全局表 scala> df.createGlobalTempView("people...DSL 风格语法 (次要) 1)创建一个DataFrame scala> val df = spark.read.json("/input/people.json") df: org.apache.spark.sql.DataFrame...1) 创建一个DataFrame scala> val df = spark.read.json("/input/people.json") df: org.apache.spark.sql.DataFrame

1.7K20

Spark SQL 快速入门系列(2) | SparkSession与DataFrame的简单介绍

SparkSession   在老的版本中,SparkSQL 提供两种 SQL 查询起始点:一个叫SQLContext,用于Spark 自己提供的 SQL 查询;一个叫 HiveContext,用于连接...DataFrame的转换从本质上来说更具有关系, 而 DataSet API 提供了更加函数式的 API 2.1 创建 DataFrame With a SparkSession, applications...通过 Spark 数据源创建 1. 查看Spark数据源进行创建的文件格式 ? 2....注意: 临时视图只能在当前 Session 有效, 在新的 Session 中无效. 可以创建全局视图. 访问全局视图需要全路径:如global_temp.xxx 4....从 DataFrame到RDD 直接调用DataFrame的rdd方法就完成了从转换. scala> val df = spark.read.json("/opt/module/spark-local/

2.4K30
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    适合小白入门的IDEA开发SparkSQL详细教程

    写在前面: 博主是一名软件工程系大数据应用开发专业大二的学生,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。...作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!...创建DataFrame/DataSet Spark会根据文件信息尝试着去推断DataFrame/DataSet的Schema,当然我们也可以手动指定,手动指定的方式有以下几种: 第1种...//注意:RDD中原本没有toDF方法,新版本中要给它增加一个方法,可以使用隐式转换 import spark.implicits._ //注意:上面的rowRDD的泛型是Person...//注意:RDD中原本没有toDF方法,新版本中要给它增加一个方法,可以使用隐式转换 import spark.implicits._ //注意:上面的rowRDD的泛型是Person

    2K20

    Spark Shell笔记

    学习感悟 (1)学习一定要敲,感觉很简单,但是也要敲一敲,不要眼高手低 (2)一定要懂函数式编程,一定,一定 (3)shell中的方法在scala写的项目中也会有对应的方法 (4)sc和spark是程序的入口...(Shell) 从集合中创建RDD parallelize和makeRDD val rdd1246 = sc.parallelize(List("a","b","c")) rdd1246.collect...val rdd1617=sc.makeRDD(List(1,List(("a","b","c")),(2,List("d","e","f")))) rdd1617.collect 从外部存储创建RDD...由外部存储系统的数据集创建,包括本地文件系统,还有Hadoop支持的数据集,如HDFS,HBase sc.textFile("hdfs://iZm5ea99qngm2v98asii1aZ:9000/README.txt...例子从 RDD 中随机且有放 回的抽出 50%的数据,随机种子值为 3(即 可能以 1 2 3 的其中一个起始值) scala> val rdd5 = sc.makeRDD(List(1,2,3,4,5,6,7

    35920

    原 SparkSQL语法及API

    如果左表的某行在右表中没有匹配行,则在相关联的结果集行中右表的所有选择列表列均为空值。...//获取记录总数 val row = df.first()//获取第一条记录 val value = row.getString(1)//获取该行指定列的值 df.collect //获取当前df对象中的所有数据为一个...Array 其实就是调用了df对象对应的底层的rdd的collect方法 2、通过sql语句来调用 1.针对表的操作 1>创建表 df.registerTempTable("tabName") 2>查看表...org.apache.spark.sql.SQLContext(sc); val df = sc.textFile("file:///root/work/words.txt").flatMap{ _.split...1、创建工程     打开scala IDE开发环境,创建一个scala工程。 2、导入jar包     导入spark相关依赖jar包。 ? 3、创建类     创建包路径以object类。

    1.7K50

    Note_Spark_Day08:Spark SQL(Dataset是什么、外部数据源、UDF定义和分布式SQL引擎)

    中添加的新的接口,是DataFrame API的一个扩展,是Spark最新的数据抽象,结合了RDD和DataFrame的优点。...针对Dataset数据结构来说,可以简单的从如下四个要点记忆与理解: ​ Spark 框架从最初的数据结构RDD、到SparkSQL中针对结构化数据封装的数据结构DataFrame, 最终使用Dataset...DataFrameReader专门用于加载load读取外部数据源的数据,基本格式如下: SparkSQL模块本身自带支持读取外部数据源的数据: Save 保存数据 SparkSQL模块中可以从某个外部数据源读取数据...表中读取数据,需要设置连接数据库相关信息,基本属性选项如下: 10-[掌握]-外部数据源之集成Hive(spark-shell) ​ Spark SQL模块从发展来说,从Apache Hive框架而来...() } } 14-[了解]-分布式SQL引擎之spark-sql交互式命令行 回顾一下,如何使用Hive进行数据分析的,提供哪些方式交互分析??? ​

    4.3K40

    Spark SQL实战(04)-API编程之DataFrame

    /input.txt") // TODO 业务逻辑处理,通过DF/DS提供的API完成业务 df.printSchema() df.show() // 展示出来 只有一个字段...因此,如果需要访问Hive中的数据,需要使用HiveContext。 元数据管理:SQLContext不支持元数据管理,因此无法在内存中创建表和视图,只能直接读取数据源中的数据。...在Scala和Java中,DataFrame由一组Rows组成的Dataset表示: Scala API中,DataFrame只是Dataset[Row]的类型别名 Java API中,用户需要使用Dataset...表示DataFrame 通常将Scala/Java中的Dataset of Rows称为DataFrame。...通过调用该实例的方法,可以将各种Scala数据类型(如case class、元组等)与Spark SQL中的数据类型(如Row、DataFrame、Dataset等)之间进行转换,从而方便地进行数据操作和查询

    4.6K20

    Spark——底层操作RDD,基于内存处理数据的计算引擎

    Spark提供了80多个算子,可轻松构建并行应用程序。我们可以 从Scala,Python,R和SQL Shell 交互使用它。 通用 结合使用SQL,流和复杂的分析。...目录下,这样每次提交任务时,就不会从客户端的spark_home/jars下上传所有jar包,只是从hdfs中sparkjars下读取,速度会很快,省略了上传的过程。...# 如果直接使用foreach进行输出, 结果会在执行的日志中显示,需要通过图形化界面查看 scala> sc.textFile("hdfs://node2:8020/spark/data/word.txt...RDD是Spark平台的核心概念,是Spark能够高效的处理大数据的各种场景的基础。 能够在Scala中写SQL语句。...Spark On Hive的配置 在Spark客户端配置Hive On Spark 在Spark客户端安装包下spark-1.6.0/conf中创建文件hive-site.xml:(或者从hive配置文件复制

    2.5K20
    领券