导入org.apache.spark.SparkConf在Spark-shell中不起作用_无法在spark-shell中导入cosmosDB包_相对导入在导入的模块中不起作用 - 腾讯云开发者社区

问题导读 1.你认为SparkContext的作用是什么？ 2.SQLContext 和HiveContext的区别是什么？ 3.SQLContext、HiveContext与SparkContext的区别是什么？第一步spark driver 应用程序创建SparkContext，SparkContext 允许spark driver 应用程序通过资源管理器访问集群。资源管理器可以是Yarn，或则spark集群管理器。为了创建SparkContext，你可以第一步创建SparkConf，Spa

【Spark篇】---Spark中transformations算子二

coalesce常用来减少分区，第二个参数是减少分区的过程中是否产生shuffle。

您找到你想要的搜索结果了吗？

是的

没有找到

Spark Core入门1【Spark集群安装、高可用、任务执行流程、使用Scala/Java/Lambda编写Spark WordCount】

Spark是一种快速、通用、可扩展的大数据分析引擎，包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目。

Spark2.x学习笔记：9、 Spark编程实例

一种基于布隆过滤器的大表计算优化方法

最最简单的~WordCount¬

步骤1：textFile先生成HadoopRDD,然后再通过map操作生成MappedRDD.

Spark 1.4连接mysql诡异的问题及解决

这个问题就很诡异了。。数据源连接也没错啊，毕竟在hive的metastore也是用的这个啊。。最终只能在启动spark-shell的时候同时引入jar包了= =

慕课网Spark SQL日志分析 - 4.从Hive平滑过渡到Spark SQL

老版本文档：http://spark.apache.org/docs/1.6.1/

Spark的运行环境及远程开发环境的搭建

2009 RAD实验室，引入内存存储 2010 开源 2011 AMP实验室，Spark Streaming 2013 Apache顶级项目

SparkSQL

Hive on Spark：Hive既作为存储元数据又负责SQL的解析优化，语法是HQL语法，执行引擎变成了Spark，Spark负责采用RDD执行。

腾讯云EMR&Elasticsearch中使用ES-Hadoop之Spark篇

腾讯云EMR&Elasticsearch中使用ES-Hadoop之MR&Hive篇

010

spark源码分析————shell

spark-shell启动的过程源码分析 spark-shell function main() { # 对当前系统进行判断，通过spark-submits.sh 启动 org.apac

第一天：spark基础

Hadoop 的概念可追溯到 2003，2004 Google2篇论文(老版三辆马车)，2011年发布1.0版本，2012年发布稳定版。Hadoop 在2.0版本之前组件主要是 HDFS跟MapReduce。

SparkStreaming编程实现

3.MyNetworkTotalWordCountV2.scala(开发自己的实时词频统计程序(累计单词出现次数))

客快物流大数据项目(五十四)：初始化Spark流式计算程序

4、设置 join 或aggregate洗牌（shuffle）数据时使用的分区数

Spark Streaming 快速入门系列(3) | DStream中如何创建数据源

测试过程中，可以通过使用ssc.queueStream(queueOfRDDs)来创建DStream，每一个推送到这个队列中的RDD，都会作为一个DStream处理。

Spark Streaming 快速入门系列(5) | 还不会DStream转换，一文带你深入了解

关于转换这方面的一些具体问题，如果想要了解可以点击下列网址进行查看： http://spark.apache.org/docs/2.1.1/streaming-programming-guide.html#transformations-on-dstreams

【Spark篇】---Spark中Transformations转换算子

Spark中默认有两大类算子，Transformation（转换算子）,懒执行。action算子，立即执行，有一个action算子，就有一个job。

Spark2.3.0 初始化

Spark 程序必须做的第一件事是创建一个 JavaSparkContext 对象(Scala和Python中是SparkContext对象)，这告诉了 Spark 如何访问集群。要创建 SparkContext，你首先需要构建一个包含有关应用程序信息的 SparkConf 对象。

Hive数据源实战

Spark SQL支持对Hive中存储的数据进行读写。操作Hive中的数据时，必须创建HiveContext，而不是SQLContext。HiveContext继承自SQLContext，但是增加了在Hive元数据库中查找表，以及用HiveQL语法编写SQL的功能。除了sql()方法，HiveContext还提供了hql()方法，从而用Hive语法来编译sql。

本机连接Spark Standalone--最简单的spark调试方式

去官网 http://spark.apache.org/downloads.html 选择对应版本下载 tar包

spark运行简单的demo程序

使用spark可以直接在命令行中启动spark-shell，然后在spark-shell中使用scala进行数据的处理。现在要介绍的是使用ide进行处理程序的编写。

Spark2.0学习（一）--------Spark简介

Apache Spark™ is a unified analytics engine for large-scale data processing

第三天：SparkSQL

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式SQL查询引擎的作用。我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduc的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。所有Spark SQL的应运而生，它是将Spark SQL转换成RDD，然后提交到集群执行，执行效率非常快！

Note_Spark_Day02：Standalone集群模式和使用IDEA开发应用程序

可以发现在一个Spark Application中，包含多个Job，每个Job有多个Stage组成，每个Job执行按照DAG图进行的。

Spark1.4启动spark-shell时initializing失败

查看spark-env.sh 和spark-default.conf中的配置发现两边都写的有classpath

2021年大数据Spark（十七）：Spark Core的RDD持久化

在实际开发中某些RDD的计算或转换可能会比较耗费时间，如果这些RDD后续还会频繁的被使用到，那么可以将这些RDD进行持久化/缓存，这样下次再使用到的时候就不用再重新计算了，提高了程序运行的效率。

PySpark在windows下的安装及使用

官网下载http://spark.apache.org/downloads.html，遇到加载不了选项框的情况可以尝试用手机打开网址获取下载链接后下载

源码编译搭建Spark3.x环境

首先安装好JDK、Scala和Maven，由于安装都比较简单，本文就不演示了，我这里使用的JDK、Scala和Maven版本如下：

用SparkStreaming做奇怪的事

作者：尹会生无需授权即可转载，甚至无需保留以上版权声明 Spark Steaming 是非常著名的流式计算工具，这次用它来搞一个奇葩的需求：开发给定一个日志同步服务器，日志达到10MB会同步过来一个新的文件，要求判断里面包含“error”关键字的次数，累积达到5次以后就发送紧急通知。这个奇葩需求要注意两个点，一个是文件会不断的增加，所以要定时删除文件；另一个是"error"会在不定长的时间出现。这让我想到了Spark Streaming 的高级功能，我们要用到状态查询才能搞的定。首先

010

Spark机器学习API之特征处理

问题导读： 1.怎样利用Spark机器学习API进行特征提取？ 2.怎样利用Spark机器学习API进行特征选择？ 3.Spark机器学习API中的特征选择有哪几种方法？ Spark机器学习库中包含了两种实现方式，一种是spark.mllib，这种是基础的API，基于RDDs之上构建，另一种是spark.ml，这种是higher-level API，基于DataFrames之上构建，spark.ml使用起来比较方便和灵活。 Spark机器学习中关于特征处理的API主要包含三个方面：特征提取、特征转换

Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN

本文介绍了 Apache Spark 的 RDD 程序设计指南，从 RDD 的基本概念、创建与操作、缓存与存储、性能优化等方面进行了详细阐述，并提供了丰富的实例和代码以帮助读者更好地理解和掌握 RDD 的使用方法。

Spark Streaming 快速入门系列(6) | DStream的几种保存方式

输出操作指定了对流数据经转化操作得到的数据所要执行的操作(例如把结果推入外部数据库或输出到屏幕上)。

Spark Streaming 整合 Flume

Apache Flume 是一个分布式，高可用的数据收集系统，可以从不同的数据源收集数据，经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming 提供了以下两种方式用于 Flume 的整合。

【Spark篇】---SparkStreaming算子操作transform和updateStateByKey

今天分享一篇SparkStreaming常用的算子transform和updateStateByKey。

Spark 系列教程（2）运行模式介绍

Apache Spark 是用于大规模数据处理的统一分析引擎，它提供了 Java、Scala、Python 和 R 语言的高级 API，以及一个支持通用的执行图计算的优化引擎。

Spark-Streaming实时数据读取(kafka)

上一篇文章我们使用Spark对MySQL进行读写，实际上Spark在工作中更多的是充当实时流计算框架引入依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.12</artifactId> <version>3.0.0-preview</version>

WordCount案例

1、安装nc工具：yum install nc 2、开发实时wordcount程序

spark加载数据到ES

在日常开发中一定会遇到，spark将计算好的数据load到es中，供后端同学查询使用。下面介绍一下spark写es的方式。使用scala进行演示，对应的java自己google了。

RDD转换为DataFrame

为什么要将RDD转换为DataFrame？因为这样的话，我们就可以直接针对HDFS等任何可以构建为RDD的数据，使用Spark SQL进行SQL查询了。这个功能是无比强大的。想象一下，针对HDFS中的数据，直接就可以使用SQL进行查询。

Win7 Eclipse 搭建spark java1.8环境：WordCount helloworld例子

原荐 Spark框架核心概念

Spark框架核心概念首先介绍Spark中的核心名词概念，然后再逐一详细说明。 RDD：弹性分布式数据集，是Spark最核心的数据结构。有分区机制，所以可以分布式进行处理。有容错机制，通过RDD之间的依赖关系来恢复数据。依赖关系：RDD的依赖关系是通过各种Transformation（变换）来得到的。父RDD和子RDD之间的依赖关系分两种：①窄依赖②宽依赖。 ①窄依赖：父RDD的分区和子RDD的分区关系是：一对一。窄依赖不会发生Shuffle，执行效率高，spark框架底层

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐