从sbt文件的spark库中排除hadoop依赖

在sbt文件的spark库中排除hadoop依赖是为了解决版本冲突或者避免不必要的依赖。当我们使用Spark框架时，它默认会依赖Hadoop库，但有时候我们可能不需要使用Hadoop相关功能，或者我们已经在项目中显式地引入了Hadoop库，这时就需要将Spark库中的Hadoop依赖排除掉。

要从sbt文件的spark库中排除hadoop依赖，可以通过在sbt文件中添加排除规则来实现。具体步骤如下：

打开项目中的build.sbt文件。
在文件中找到对Spark库的依赖声明，通常是以"libraryDependencies"开始的一行代码。
在该依赖声明中，找到对Spark库的具体依赖规则，通常是以"groupId"和"artifactId"来指定的。
在该依赖规则中添加"exclude"方法，指定要排除的依赖项。例如，可以使用以下代码排除Hadoop依赖：

.exclude("org.apache.hadoop", "hadoop-client")
.exclude("org.apache.hadoop", "hadoop-hdfs")
.exclude("org.apache.hadoop", "hadoop-common")

保存并关闭文件。

通过以上步骤，我们成功地从sbt文件的spark库中排除了Hadoop依赖。这样做可以减少项目的依赖冲突，并且可以更加灵活地管理项目的依赖关系。

推荐的腾讯云相关产品：腾讯云EMR（Elastic MapReduce），它是一种大数据处理和分析的云服务，提供了Spark、Hadoop等开源框架的集成和管理。您可以通过腾讯云EMR来快速搭建和管理Spark集群，并进行大数据处理和分析。

腾讯云EMR产品介绍链接地址：https://cloud.tencent.com/product/emr

相关·内容

30分钟--Spark快速入门指南

Spark shell 默认是读取 HDFS 中的文件，需要先上传文件到 HDFS 中，否则会有“org.apache.hadoop.mapred.InvalidInputException: Input...使用 SQLContext 可以从现有的 RDD 或数据源创建 DataFrames。作为示例，我们通过 Spark 提供的 JSON 格式的数据源文件 ....该程序依赖 Spark API，因此我们需要通过 sbt 进行编译打包。在 ./sparkapp 中新建文件 simple.sbt（vim ....点击查看：解决 sbt 无法下载依赖包的问题使用 sbt 打包 Scala 程序为保证 sbt 能正常运行，先执行如下命令检查整个应用程序的文件结构： cd ~/sparkappfind ....SimpleApp的文件结构接着，我们就可以通过如下代码将整个应用程序打包成 JAR（首次运行同样需要下载依赖包，如果这边遇到网络问题无法成功，也请下载上述安装 sbt 提到的离线依赖包 sbt-0.13.9

3.6K9 0

Spark 开发环境搭建

gateway 的 unix 用户名(本例中为 spark)，上面配置表示允许运行在所有主机上的、以$user-nfs 用户启动的网关访问任意 hadoop 用户组下的文件(HDFS 文件)。...spark-shell 启动时，会导入相关依赖库，并创建名称为 "sc" 的 SparkContext 对象，这个对象是通向 spark 世界的向导，我们已经可以在交互环境开始第一次 Spark 分布式计算之旅了...5.1 sbt 简介 sbt 官网: http://www.scala-sbt.org, 在这上面有有很详细的中文文档。 sbt 从官网下载最新版本，开箱即可使用，其安装说名这里不再赘述。...托管依赖指在远程组件仓库（maven, ivy 等）管理的依赖包，工程中定义声明下使用的版本，编译时直接从远程下载。非托管依赖只存在于本地的依赖包，默认为工程根目录下 "lib" 子目录。.../jars lib sbt 会首先从本地库中寻找寻找被引用组件包。

6.8K2 1

【腾讯云的1001种玩法】Ubuntu 14.04 Spark单机环境搭建与初步学习

Spark 例子：回归模型 Spark 的数据分析功能包含在一个称为 MLlib 的组件当中，顾名思义，这是 Spark 的机器学习库，而回归是它支持的模型之一。...之所以需要这么做，是因为 Spark 读取文本文件时把每一行当作了一个字符串，因此我们需要从这个字符串中解析出我们需要的数据来。...接下来的 cache() 方法是 Spark 非常独到的一个操作，它是为了告诉 Spark，只要内存足够（限额可以通过 Spark 中的配置文件设置），就将数据放到内存里，以加快后续程序的运算速度。...如果内存放不下，就依然保存到硬盘中。这样的好处在于，一方面避免了 R 把所有对象都往内存放的操作，另一方面避免了 Hadoop 这种重度依赖硬盘，以至于效率低下的情形。...加速SBT下载依赖库的速度[EB/OL]. http://segmentfault.com/a/1190000002474507. sbt.

4.2K1 0

1 Spark机器学习 spark MLlib 入门

开始学习spark ml了，都知道spark是继hadoop后的大数据利器，很多人都在使用spark的分布式并行来处理大数据。spark中也提供了机器学习的包，就是MLlib。...MLlib中也包含了大部分常用的算法，分类、回归、聚类等等，借助于spark的分布式特性，机器学习在spark将能提高很多的速度。MLlib底层采用数值计算库Breeze和基础线性代数库BLAS。...还是从helloworld开始吧。要用spark的话，最好还是使用scala语言。...注意，你会经历比较漫长的等待，等待sbt的各种jar包下载完毕，然后你的项目才能创建成功。 sbt你可以理解为一种构建方式，和maven、gradle一样，通过sbt能管理你需要依赖的jar。...添加依赖后，又是漫长的等待，等待下载完依赖的jar包，等OK后，我们就可以使用spark-mllib来开发机器学习程序了。可以找到该jar，看看里面的包结构。

1.2K2 0

Apache Spark 2.2.0 中文文档 - 快速入门 | ApacheCN

在 Scala（运行于 Java 虚拟机之上, 并能很好的调用已存在的 Java 类库）或者 Python 中它是可用的。...Datasets 可以从 Hadoop 的 InputFormats（例如 HDFS文件）或者通过其它的 Datasets 转换来创建。...让我们从 Spark 源目录中的 README 文件来创建一个新的 Dataset: scala> val textFile = spark.read.textFile("README.md") textFile...我们的应用依赖了 Spark API, 所以我们将包含一个名为 build.sbt 的 sbt 配置文件, 它描述了 Spark 的依赖。...该文件也会添加一个 Spark 依赖的 repository: name := "Simple Project" version := "1.0" scalaVersion := "2.11.8"

1.4K8 0

Spark历险记之编译和远程任务提交

从各方面报道来看Spark抱负并非池鱼，而是希望替代Hadoop在大数据中的地位，成为大数据处理的主流标准，不过Spark还没有太多大项目的检验，离这个目标还有很大路要走。...环境介绍序号应用说明 1 CDH Hadoop2.6 如果想跑在hadoop上，则需要安装 2 JDK7 底层依赖 3 Scala2.11.7 底层依赖 4 Maven3.3.3 构建编译打包...Linux系统这里Hadoop已经安装完毕，并且能正常工作，Spark可以运行在Standalone模式上，所以假如你没有Hadoop环境，当然也是可以使用的。...，这里推荐下载spark源码，自己编译所需对应的hadoop版本，虽然spark官网也提供了二进制的包！...在IDEA中，创建一个Scala的SBT项目：然后在build.sbt文件中，加入如下依赖： Java代码 name := "spark2117" version := "1.0"

2K9 0

Fedora 配置 Spark 实验环境（一）安装Hadoop、Spark

，将会远程下载sbt launcher，以及对应版本的 sbt 和 scala 程序。...成功启动后会提示sbt的版本以及jdk版本。...SBT 常用操作运行 Scala Interpreter > console 编译 src/main/scala 目录下的源文件 > compile 运行 src/test/scala 目录下的单元测试...> test 运行 main method（或实现App接口的object） > run //可以从多个可执行程序中选择某一个运行 4....> 完成以上四个XML配置文件后，可以运行脚本程序启动Hadoop： cd $HADOOP_HOME bin/hdfs namenode

9235 0

Spark的那些外部框架

代码库的名字必须与包名相同。代码库的主分支必须有README.md文件，在根目录下必须有LICENSE文件。换句话说，你不需要编译自己的package。...如果要在你的项目中包含此插件，请务必在sbt项目的project/plugins.sbt文件中写入下面的代码： resolvers += "bintray-Spark-packages" at "https...sparkVersion——package所依赖的Spark版本。 sparkComponents——package所依赖的Spark组件列表，例如SQL、MLlib。...package注册网站在Spark package站点上注册了Github账号后，可以从“name”下拉菜单中选择你的代码库。 ?...顾名思义，在DMLC项目下有许多机器学习库，它们在Hadoop和Spark等已有资源上具有高扩展性。XGBoost是基于Gradient Boosting（梯度提升）算法的。

1.3K1 0

Spark安装之问题

厦门大学数据库实验室教程有几个坑 SparkSQL context 在执行sql语句时，现在使用spark.sql()替换sqlContext.sal() sparkapp使用sbt打包 simple.sbt...直接使用教程中的sbt依赖版本即可，即此处无所谓，不过最好是和本机配置版本一致 sbt package 打包运行时一定要注意联网！！...即在有simple.sbt的目录位置执行sbt package命令 spark.sql 执行时目前需要开启hadoop，原理未知，不开会报错 sbt 第一次安装时，直接官网下，现在教程中说的bug已经没有了...，会卡住无输出，是正常的，时间非常慢！...第一次打包时，下载的依赖非常多，不断输出，但非常慢！完成次教程全部都在①台机器上还未进行集群配置

5651 0

——快速入门

在shell中，既可以使用scala（运行在java虚拟机，因此可以使用java库）也可以使用python。可以在spark的bin目录下启动spark shell： ....，这个操作在hadoop中很常见。...这个程序仅仅是统计文件中包含字符a和b的分别都有多少行。你可以设置YOUR_SPARK_HOME替换自己的文件目录。不像之前在shell中的例子那样，我们需要自己初始化sparkContext。...应用依赖于spark api，因此需要在程序中配置sbt的配置文件——simple.sbt，它声明了spark的依赖关系。..." %% "spark-core" % "2.0.0" 为了让sbt正确的工作，还需要创建SimpleApp.scala以及simple.sbt。

1.4K9 0

Spark的运行环境及远程开发环境的搭建

Spark Streaming：实时数据流处理组件，类似Storm 提供API来操作实时数据流使用场景是从Kafka等消息队列中接收数据实时统计 Spark Mlib：包含通用机器学习功能的包，...Spark版本要严格对照Hadoop版本 Spark运行不依赖Hadoop启动 Spark运行目录bin的内容，要确保有执行权限[+x] Spark目录 bin 包含和Spark交互的可执行文件...全部步骤： PC上安装Scala环境，IDEA，IDEA安装Scala插件 1.本地运行新建Scala的Project，注意要选对应的scala版本然后在build.sbt中添加spark-core...的依赖，可以去MavenRepositories网站去查，找到sbt（ivy）的依赖格式就行了然后新建一个scala class，选择object，书写代码，要使用本地模式最后直接点击运行即可。...，把全部依赖都打包了，90多M，但正常应该10多M，删掉无用的依赖，并且把sbt中spark-core的依赖设为provided模式 ?

2.2K3 0

Ubuntu 16.04 Spark单机环境搭建

安装Spark 1、下载Spark的压缩文件。...下载地址为： http://spark.apache.org/downloads.html 2、下载spark-2.1.1-bin-hadoop2.7.tgz后，解压到指定的目录： $ tar -zxvf...spark-2.1.1-bin-hadoop2.7.tgz -C /opt/spark/ 3、配置scala环境变量。...$ nano ~/.bashrc 在.bashrc文件末尾增加如下内容： export SPARK_HOME=/opt/spark/spark-2.1.1-bin-hadoop2.7 export PATH...$ spark-shell 如果出现如下界面，则表示spark已正确安装： ? 安装sbt 1、下载Spark的压缩文件。

1K0 0

Spark Submit的ClassPath问题

同时，还需要在classpath中提供密钥的key文件。从需求看，这个集成并不复杂，且客户也提供了较翔实的接口文档与示例案例，开发工作量非常小。...在我们的Scala项目中，可以直接将要依赖的jar包放在module的lib文件夹下，在使用sbt执行编译和打包任务时，会自动将lib下的jar包放入classpath中。...由于我们使用了sbt assembly，并编写了对应的脚本来支持整个产品的打包工作，最终打包的结果是一个完整的mort.jar包。换言之，我们要依赖的外部Jar包也将被打包到最终的jar文件中。...实际上，sbt assembly并不会将所有依赖的外部包都装配到最终的部署包中，只要在sbt的依赖中添加provided，就能保证第三方依赖包不被包含进部署包中。...因此，我们可以改写sbt脚本，当执行assembly时，排除这个mock包，这是首要解决的方案。

4.2K9 0

Spark集群 + Akka + Kafka + Scala 开发(1) : 配置开发环境

创建一个基于spark的scala工程，并在spark standalone的集群环境中运行。...sbt 配置软件复制AKKA的类库到spark里，这样spark应用就可以使用AKKA的类库。...注意：不要复制所有的akka文件，akka类库中的某些文件的版本可能会和spark的有冲突，在运行apark应用时，会出现java.lang.ExceptionInInitializerError。.../config-* $SPARK_HOME/extraClassPath/executor/ 在spark的配置文件spark-defaults.conf中，指定classPath 进入到$SPARK_HOME.../conf目录中，看有没有文件spark-defaults.conf。

1.2K6 0

大数据基础系列之提交spark应用及依赖管理

在创建assembly jar的时候，将Spark和Hadoop列为provided依赖。这些不需要进行打包，因为在运行的时候集群管理器能够提供这些jar。...对于python工程，你可以用spark-submit的--py-files参数，将.py，.zip或者.egg文件随你的应用分发到集群中。...默认情况下会从conf/spark-defaults.conf读取。 Spark默认配置的优先级是SparkConf设置的，spark-submit设置的，然后是默认配置文件读取的。...Spark使用以下URL方案来允许不同的策略来传播jar： 1,file:-绝对路径和file:/ URIs，被http 文件服务器管理，每个Executor都可以从http server拉去指定的文件...可以使用--repositories参数将另外的repositories 或者SBT的resolvers依赖以逗号分割的方式加入。

1.2K9 0

PySpark初级教程——第一步大数据分析(附代码实现)

通常依赖于Map-Reduce的框架的组织现在正在转向Apache Spark框架。Spark执行内存计算，比Hadoop等Map Reduce框架快100倍。...解压并移动压缩文件: tar xzvf spark-2.4.4-bin-hadoop2.7.tgz mv spark-2.4.4-bin-hadoop2.7 spark sudo mv spark/...但是，如果你正在处理一个包含数百个源代码文件的大型项目呢?在这种情况下，你需要使用构建工具。 SBT是Scala构建工具的缩写，它管理你的Spark项目以及你在代码中使用的库的依赖关系。...在文件spark-env.sh中。...在这种情况下，Spark将只从第一个分区读取文件，在不需要读取整个文件的情况下提供结果。让我们举几个实际的例子来看看Spark是如何执行惰性计算的。

4.4K2 0

如何使用IDEA加载已有Spark项目

注意：默认你的机器已有Scala环境，项目使用IDEA打开，对Sbt不做要求，因为这里采用的是NoSbt方式添加依赖的。...//注意这是在No-sbt模式下必须的，这个包很大，大概170M，导入后不用再添加其他依赖即可对Spark程序进行本地(Local)运行，其已包括GraphX模块。...-1.x 版本的即可，所以在网上找了一个 spark-assembly-1.5.1-hadoop2.6.0.jar，同样在上图中的右侧点击加号后选择JARS or direct..添加到项目依赖中即可...第三步：设置环境变量，在系统变量中添加HADOOP_HOME，指向你解压的文件路径。...hadoop文件夹中替换下载包中的两个目录。

2K2 0

大数据常见错误解决方案转

解决方法：yarn-lient模式出现的异常，暂时无解 21、hadoop的文件不能下载以及YARN中Tracking UI不能访问历史日志解决方法：windows系统不能解析域名所致，把hosts...文件hostname复制到windows的hosts中 22、经验：HDFS文件路径写法为：hdfs://master:9000/文件路径，这里的master是namenode的hostname,9000...，bin和system32文件夹中加入64位的2.6版本的hadoop.dll 46、经验：Spark Streaming包含三种计算模式：nonstate 、stateful 、window...1.6,需升级spark版本 70、IDEA从git导入scala项目，通篇提示变量never used 解决方法：将src文件夹mark directory as sources root 71...类的算子，而将每个task处理的数据按key进行分类，将相同key都写入同一个磁盘文件中，而每一个磁盘文件都只属于下游stage的一个task，在将数据写入磁盘之前，会先将数据写入内存缓存中，下一个stage

3.6K1 0

傻白甜，约不约？

而且 Sbt 默认会从一些奇奇怪怪的地方下载依赖，相信大家的第一次，都不会很美好（ Sbt 的项目构建异常缓慢，而且还经常会失败），笔者也不例外，所以有了这篇文章，希望对你有些帮助。...配置全局仓库在用户目录下，修改文件 C:\Users\dafei\.sbt\repositories ，如果没有，可以自行创建目录及文件。...sbt 项目依赖在使用 scala 的时候，大家一定要注意自己的sdk版本以及配置的依赖包的版本要一致，如果不符，就会出现各种奇怪的问题 libraryDependencies += "org.apache.spark...Akka特点：对并发模型进行了更高的抽象是异步、非阻塞、高性能的事件驱动编程模型是轻量级事件处理（1GB内存可容纳百万级别个Actor）它提供了一种称为Actor的并发模型，其粒度比线程更小，你可以在系统中启用大量的...System.setProperty("hadoop.home.dir", "E:\\devlop\\workspace\\wanwansbt3") val spark = SparkSession.builder.appName

8033 0

大数据常见错误及解决方案

解决方法：yarn-lient模式出现的异常，暂时无解 21、hadoop的文件不能下载以及YARN中Tracking UI不能访问历史日志解决方法：windows系统不能解析域名所致，把hosts文件...hostname复制到windows的hosts中 22、经验：HDFS文件路径写法为：hdfs://master:9000/文件路径，这里的master是namenode的hostname,9000是...it is run first time，不要退出，直至sbt处理完 63、经验：ES的分片类似kafka的partition 64、kafka出现OOM异常解决方法：进入kafka broker启动脚本中...1.6,需升级spark版本 70、IDEA从git导入scala项目，通篇提示变量never used 解决方法：将src文件夹mark directory as sources root 71、Run...，而将每个task处理的数据按key进行分类，将相同key都写入同一个磁盘文件中，而每一个磁盘文件都只属于下游stage的一个task，在将数据写入磁盘之前，会先将数据写入内存缓存中，下一个stage的

3.4K7 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云