腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据智能实战

大数据与人工智能方向的论文复现、技术探索、工程实践的点滴记录和积累。

专栏作者

256

文章

390966

阅读量

56

订阅数

spark读取多个文件夹(嵌套)下的多个文件

spark 腾讯云测试服务

在正常调用过程中，难免需要对多个文件夹下的多个文件进行读取，然而之前只是明确了spark具备读取多个文件的能力。

2022-05-07

3.1K0

spark-submit动态提交的办法（SparkLauncher实战）

Library for launching Spark applications.

2022-05-07

9720

spark访问redis集群中某个数据库的问题

node.js spark tcp/ip 数据库 sql

正常redis是没有数据库的概念的，但是当redis变成集群的时候，它是可以设置数据库的。（其实也就是开辟一块索引）

2022-05-07

7850

spark dataframe新增列的处理

scala bash bash 指令 spark

利用withColumn函数就能实现对dataframe中列的添加。但是由于withColumn这个函数中的第二个参数col必须为原有的某一列。所以默认先选择了个ID。

2022-05-07

7570

spark批量读取大量小文件的办法

spark txt 遍历多线程

在实际工程中，经常会遇到要一起读取众多小文件的办法。本来正常情况下是进行文件夹的遍历。

2022-05-07

1.1K0

initial job has not accepted any resources的spark错误解决办法

在运行多个spark应用程序的时候，经常会出现initial job has not accepted any resources的错误。

2022-05-07

2050

spark访问Redis并进行操作

云数据库 Redis spark

Redis是一种高性能的内存数据库，其应用场合非常广泛，在一些实时性要求比较高的场景中，以Redis作为架构来实现的是比较多的。

2022-05-07

2930

Spark实现HIVE统计结果导入到HBase操作

hive 编程算法 python hbase spark

由于HIVE更新的机制极其不适应SPARK环境，于是利用HBase来执行HIVE中某些统计结果的更新。首先要做的是实现Spark + Hive访问，得到RDD，再将这个RDD导入到HBase中操作。然而网上关于这一块目前资料还真很少。但是其原理总体上来说是非常简单的。步骤主要是两步： (1)开启hive连接器，实现spark + hive的访问，得到dataframe对象。

2022-05-07

5420

Spark访问HBase的Eclipse代码实现

java hadoop hbase spark TDSQL MySQL 版

Hbase是一个列式数据库，从其本质上来看，可以当做是一个数据源，而Spark本身又可以进行Hbase的连接，访问数据并进行查询。

2022-05-07

3650

spark sql 无法访问 hive metastore问题解决

java html hive spark tcp/ip

Spark SQL on Hive是Shark的一个分支，是HIVE执行分析引擎的一个重要利器。在Spark 1.5.1的时候，可以非常简单地在spark shell中进行Hive的访问，然而到了Spark 1.5.2时，发现进入Spark Shell的时候，总是出现报错，其原因总是无法访问hive的metastore,从而无法进行各种操作，相当的烦人的。看了说明，说是要配置hive thrift服务，然而总是报各种失败! 困扰了很多天，终于搞定了。于是在这边将过程写下来。

2022-05-07

8930

Spark 1.5.2(Scala 2.11）版本的编译与安装

打包 spark scala

Spark于11月9号又将几个BUG解决之后，release一个较新的版本。作为spark的追随者，于是开始重新进行spark的编译。

2022-05-07

4070

spark mlib中机器学习算法的测试（SVM，KMeans, PIC, ALS等）

编程算法 spark 机器学习神经网络深度学习

在学习spark mlib机器学习方面，为了进行算法的学习，所以对原有的算法进行了试验。从其官网（http://spark.apache.org/docs/latest/mllib-guide.html）上进行了相关文档的介绍学习，并通过其给定的例子包中相关进行测试。

2022-05-07

4330

spark master开发中org.apache.spark.serializer.JavaDeserializationStream错误解决

val conf = new SparkConf().setMaster("spark://hostname:7077").setAppName("Spark Pi")

2022-05-07

3210

Spark R安装成功的步骤

spark java scala ruby on rails

网上有很多关于spark R的安装过程，但是按照那个过程总是出错。当然最常见的问题是：

2022-05-07

2600

Hive V1.2.1源码的解译

hive hadoop java spark scala

在利用spark sql on hive的过程中，访问Mysql总是报错，其报错的日志总是显示：

2022-05-07

2390

Spark1.5.1源码(Scala 2.11.7)的编译步骤

打包 spark hive scala

在编写spark程序的过程中，如果以master=local的方式是可以正常搞定的，然而如果将master设置为spark集群的方式则总是报各种错，通过源码查看，主要是AKKA通信与序列化之间的问题，而其核心原因是scala版本不匹配的问题。默认从apache官网下载的BIN包只支持2.10的，而2.11版本的还需要自己搞定。

2022-05-07

3110

SparkR的第一个测试例子Spark Pi计算

安装SparkR颇费周折，网上看到的各种安装方法，其实最终测试都很不好用。可能是国内有些网站被屏蔽的关系吧。

2022-05-07

5050

Spark 2.0 DataFrame map操作中Unable to find encoder for type stored in a Dataset.问题的分析与解决

随着新版本的spark已经逐渐稳定，最近拟将原有框架升级到spark 2.0。还是比较兴奋的，特别是SQL的速度真的快了许多。。然而，在其中一个操作时却卡住了。主要是dataframe.map操作，这个之前在spark 1.X是可以运行的，然而在spark 2.0上却无法通过。。看了提醒的问题，主要是： ******error: Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc)

2018-01-09

2.8K0

sparksql udf自定义函数中参数过多问题的解决

spark sql 数据库

在进行spark sql数据库操作中，常常需要一些spark系统本身不支持的函数，如获取某一列值中的字符串。如要获取　“aaaakkkkk”中的第4－第8个字符。针对这种需求，只有设置UDF来实现了。如 val fun:((String,Int,Int) => String) = (args:String, k1:Int, k2:Int) => { args.substr(k1,k2)} val sqlfunc = udf(fun) df.withColumn("column22", sqlfunc

2018-01-09

1.8K0

Hive在spark2.0.0启动时无法访问../lib/spark-assembly-*.jar: 没有那个文件或目录的解决办法

最近将整个架构升级到spark 2.0.0之后，发现一个问题，就是每次进行hive --service metastore启动的时候，总是会报一个小BUG。无法访问/home/ndscbigdata/soft/spark-2.0.0/lib/spark-assembly-*.jar: 没有那个文件或目录。而这一行究竟是怎么回事，网上没有任何有关的资料。没办法，只好一步一步分析，终于找到问题的症结。其主要的原因是：在hive.sh的文件中，发现了这样的命令，原来初始当spark存在的时候，进行spa

2018-01-09

1.9K0

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态