首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Spark Shell笔记

学习感悟 (1)学习一定要敲,感觉很简单,但是也要敲一敲,不要眼高手低 (2)一定要懂函数式编程,一定,一定 (3)shell的方法scala写的项目中也会有对应的方法 (4)sc和spark是程序的入口...(Shell) 从集合创建RDD parallelize和makeRDD val rdd1246 = sc.parallelize(List("a","b","c")) rdd1246.collect...:针对于(K,V)形式的类型只对 V 进行操作 reduce(func):通过 func 函数聚集 RDD 的所有元素, 这个功能必须是可交换且可并联的 collect():驱动程序,以数组的形式返回数据...将会调用 toString 方法,将它装换为文件 本 saveAsSequenceFile(path):将数据集中的元素以 Hadoop sequencefile 的格式保存到指定的目录 下,可以使.../bin/spark-shell 读取数据,创建DataFrame 我的hdfs上/cbeann/person.json { "name": "王小二", "age": 15} { "name"

17710
您找到你想要的搜索结果了吗?
是的
没有找到

数据分析EPHS(2)-SparkSQL的DataFrame创建

这个在后面的文章咱们慢慢体会,本文咱们先来学习一下如何创建一个DataFrame对象。...3.2 通过CSV文件创建 这里,首先需要导入一个包,可以:https://www.mvnjar.com/com.databricks/spark-csv_2.11/1.5.0/detail.html...3.4 通过Hive创建 这是咱们最常用的方式了,假设咱们已经把鸢尾花数据导入到hive中了: val df = spark.sqlContext.read.format("com.databricks.spark.csv...接下来,spark同样写sql就好了: val df = spark.sql( """ |select | * |from...4、总结 今天咱们总结了一下创建Spark的DataFrame的几种方式,实际的工作,大概最为常用的就是从Hive读取数据,其次就可能是把RDD通过toDF的方法转换为DataFrame。

1.5K20

我是一个DataFrame,来自Spark星球

这个在后面的文章咱们慢慢体会,本文咱们先来学习一下如何创建一个DataFrame对象。...3.2 通过CSV文件创建 这里,首先需要导入一个包,可以:https://www.mvnjar.com/com.databricks/spark-csv_2.11/1.5.0/detail.html...3.4 通过Hive创建 这是咱们最常用的方式了,假设咱们已经把鸢尾花数据导入到hive中了: val df = spark.sqlContext.read.format("com.databricks.spark.csv...接下来,spark同样写sql就好了: val df = spark.sql( """ |select | * |from...4、总结 今天咱们总结了一下创建Spark的DataFrame的几种方式,实际的工作,大概最为常用的就是从Hive读取数据,其次就可能是把RDD通过toDF的方法转换为DataFrame。

1.7K20

Excel小技巧41:Word创建对Excel表的动态链接

例如,我们可以Word中放置一个来自Excel的表,并且可以随着Excel该表的数据变化而动态更新。...这需要在Word创建一个对Excel表的动态链接,允许Word文档自动获取Excel表的变化并更新数据。 例如下图1所示的工作表,其中放置了一个Excel表,复制该表。 ?...功能区“开始”选项卡,选择“粘贴——选择性粘贴”命令,如下图2所示。 ?...图2 弹出的“选择性粘贴”对话框,选取“粘贴链接”并选择“形式”列表框的“Microsoft Excel工作表对象”,如下图3所示。 ?...图9 这样,每次要更新数据时,单击右键,快捷菜单中选择“更新链接”即可,如下图10所示。 ? 图10 实际上,当创建对单元格区域的链接后,Word将会存储源数据字段的信息,然后显示链接的数据。

3.7K30

了解 NebulaGraph 上的 Spark 项目

Nebula Algorithm,建立 Nebula Spark Connector 和 GraphX 之上,也是一个Spark Lib 和 Spark 上的应用程序,它用来 NebulaGraph...请注意, GraphX 假定顶点 ID 是数字类型的,因此对于字符串类型的顶点 ID 情况,需要进行实时转换,请参考 Nebula Algorithom 的例子,了解如何绕过这一问题。...包 现在,让我们用上一章创建的相同环境做一个实际测试。...再看看一些细节 这个例子里,我们实际上是用 Exchange 从 CSV 文件这一其中支持的数据源读取数据写入 NebulaGraph 集群的。...它是一个 HOCON 格式的文件: .nebula 描述了 NebulaGraph 集群的相关信息 .tags 描述了如何将必填字段对应到我们的数据源(这里是 CSV 文件)等有关 Vertecies

71630

第三天:SparkSQL

什么是DataFrame Spark,DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库的二维表格。...DataFrame 创建Spark SQLSparkSession是创建DataFrame和执行SQL的入口,创建DataFrame有三种方式:通过Spark的数据源进行创建;从一个存在的RDD进行转换...从Spark数据源进行创建 查看Spark数据源进行创建的文件格式 scala> spark.read. csv format jdbc json load option options...加载数据 read直接加载数据 scala> spark.read. csv jdbc json orc parquet textFile… … 注意:加载数据的相关参数需写到上述方法。...保存数据 write直接保存数据 scala> df.write. csv jdbc json orc parquet textFile… … 注意:保存数据的相关参数需写到上述方法

13.1K10

快速入门Flink (4) —— Flink批处理的DataSources和DataSinks,你都掌握了吗?

1.1.3 步骤 IDEA 创建项目 导入 Flink 所需的 Maven 依赖 创建 scala 单例对象,添加 main 方法 获取 Flink 批处理运行环境 构建一个 collection 源...使用 flink 操作进行单词统计 打印 1.1.4 实现 IDEA 创建 flink-base 项目 导入 Flink Maven 依赖 分别在 main 和 test 目录创建 scala 文件夹...", "flink mapreduce hadoop hive", "flume spark spark hive") } 导入 Flink 隐式参数 import org.apache.flink.api.scala...{ArrayBuffer, ListBuffer} import scala.collection.mutable /** * 读取集合的批次数据 */ object BatchFromCollectionDemo...用 Stream 创建 DataSet (Stream相当于 lazy List,避免中间过程中生成不必要的集合) val ds9: DataSet[String] = env.fromCollection

1.3K20

如何管理Spark的分区

写入磁盘文件时,再来观察一下文件的个数, scala> numsDF.write.csv("file:///opt/modules/data/numsDF") 可以发现,上述的写入操作会生成4个文件...,我们来看一下每个分区的数据: numsDF4.write.csv("file:///opt/modules/data/numsDF4") 上面的操作会产生两个文件,每个分区文件的数据为: part...这也印证了源码说的,repartition操作会将所有数据进行Shuffle,并且将数据均匀地分布不同的分区上,并不是像coalesce方法一样,会尽量减少数据的移动。...但是,如果有成千上万个分区,那么Spark会变得非常慢。 spark的shuffle分区数是静态的。它不会随着不同的数据大小而变化。...如果要将数据写出到文件系统,则可以选择一个分区大小,以创建合理大小的文件。 该使用哪种方法进行重分区呢?

1.9K10

大数据技术之_28_电商推荐系统项目_01

,融合存储 Redis 的用户最近评分队列数据,提交给实时推荐算法,完成对用户新的推荐结果计算;计算完成之后,将新的推荐结构和 MongDB 数据库的推荐结果进行合并。...3.1 IDEA创建maven项目   打开 IDEA,创建一个 maven 项目,命名为 ECommerceRecommendSystem。...        对于具体的 DataLoader 子项目,需要 spark 相关组件,还需要 mongodb 的相关依赖,我们 pom.xml 文件引入所有依赖(...将数据文件 products.csv,ratings.csv 复制到资源文件目录 src/main/resources 下,我们将从这里读取数据并加载到 mongodb 。... DataLoader/src/main/scala 下新建 package,命名为 com.atguigu.recommender,新建名为 DataLoader 的 scala 单例 object

2.9K30
领券