首页
学习
活动
专区
工具
TVP
发布

大数据智能实战

大数据与人工智能方向的论文复现、技术探索、工程实践的点滴记录和积累。
专栏作者
256
文章
390966
阅读量
56
订阅数
spark读取多个文件夹(嵌套)下的多个文件
在正常调用过程中,难免需要对多个文件夹下的多个文件进行读取,然而之前只是明确了spark具备读取多个文件的能力。
sparkexpert
2022-05-07
3.1K0
spark-submit动态提交的办法(SparkLauncher实战)
Library for launching Spark applications.
sparkexpert
2022-05-07
9720
spark访问redis集群中某个数据库的问题
正常redis是没有数据库的概念的,但是当redis变成集群的时候,它是可以设置数据库的。(其实也就是开辟一块索引)
sparkexpert
2022-05-07
7850
spark dataframe新增列的处理
利用withColumn函数就能实现对dataframe中列的添加。但是由于withColumn这个函数中的第二个参数col必须为原有的某一列。所以默认先选择了个ID。
sparkexpert
2022-05-07
7570
spark批量读取大量小文件的办法
在实际工程中,经常会遇到要一起读取众多小文件的办法。本来正常情况下是进行文件夹的遍历。
sparkexpert
2022-05-07
1.1K0
initial job has not accepted any resources的spark错误解决办法
在运行多个spark应用程序的时候,经常会出现initial job has not accepted any resources的错误。
sparkexpert
2022-05-07
2050
spark访问Redis并进行操作
Redis是一种高性能的内存数据库,其应用场合非常广泛,在一些实时性要求比较高的场景中,以Redis作为架构来实现的是比较多的。
sparkexpert
2022-05-07
2930
Spark实现HIVE统计结果导入到HBase操作
由于HIVE更新的机制极其不适应SPARK环境,于是利用HBase来执行HIVE中某些统计结果的更新。首先要做的是实现Spark + Hive访问,得到RDD,再将这个RDD导入到HBase中操作。 然而网上关于这一块目前资料还真很少。但是其原理总体上来说是非常简单的。 步骤主要是两步: (1)开启hive连接器,实现spark + hive的访问,得到dataframe对象。
sparkexpert
2022-05-07
5420
Spark访问HBase的Eclipse代码实现
Hbase是一个列式数据库,从其本质上来看,可以当做是一个数据源,而Spark本身又可以进行Hbase的连接,访问数据并进行查询。
sparkexpert
2022-05-07
3650
spark sql 无法访问 hive metastore问题解决
Spark SQL on Hive是Shark的一个分支,是HIVE执行分析引擎的一个重要利器。在Spark 1.5.1的时候,可以非常简单地在spark shell中进行Hive的访问,然而到了Spark 1.5.2时,发现进入Spark Shell的时候,总是出现报错,其原因总是无法访问hive的metastore,从而无法进行各种操作,相当的烦人的。 看了说明,说是要配置hive thrift服务,然而总是报各种失败! 困扰了很多天,终于搞定了。于是在这边将过程写下来。
sparkexpert
2022-05-07
8930
Spark 1.5.2(Scala 2.11)版本的编译与安装
Spark于11月9号又将几个BUG解决之后,release一个较新的版本。作为spark的追随者,于是开始重新进行spark的编译。
sparkexpert
2022-05-07
4070
spark mlib中机器学习算法的测试(SVM,KMeans, PIC, ALS等)
在学习spark mlib机器学习方面,为了进行算法的学习,所以对原有的算法进行了试验。从其官网(http://spark.apache.org/docs/latest/mllib-guide.html)上进行了相关文档的介绍学习,并通过其给定的例子包中相关进行测试。
sparkexpert
2022-05-07
4330
spark master开发中org.apache.spark.serializer.JavaDeserializationStream错误解决
val conf = new SparkConf().setMaster("spark://hostname:7077").setAppName("Spark Pi")
sparkexpert
2022-05-07
3210
Spark R安装成功的步骤
网上有很多关于spark R的安装过程,但是按照那个过程总是出错。当然最常见的问题是:
sparkexpert
2022-05-07
2600
Hive V1.2.1源码的解译
在利用spark sql on hive的过程中,访问Mysql总是报错,其报错的日志总是显示:
sparkexpert
2022-05-07
2390
Spark1.5.1源码(Scala 2.11.7)的编译步骤
在编写spark程序的过程中,如果以master=local的方式是可以正常搞定的,然而如果将master设置为spark集群的方式则总是报各种错,通过源码查看,主要是AKKA通信与序列化之间的问题,而其核心原因是scala版本不匹配的问题。默认从apache官网下载的BIN包只支持2.10的,而2.11版本的还需要自己搞定。
sparkexpert
2022-05-07
3110
SparkR的第一个测试例子Spark Pi计算
安装SparkR颇费周折,网上看到的各种安装方法,其实最终测试都很不好用。可能是国内有些网站被屏蔽的关系吧。
sparkexpert
2022-05-07
5050
Spark 2.0 DataFrame map操作中Unable to find encoder for type stored in a Dataset.问题的分析与解决
随着新版本的spark已经逐渐稳定,最近拟将原有框架升级到spark 2.0。还是比较兴奋的,特别是SQL的速度真的快了许多。。 然而,在其中一个操作时却卡住了。主要是dataframe.map操作,这个之前在spark 1.X是可以运行的,然而在spark 2.0上却无法通过。。 看了提醒的问题,主要是: ******error: Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc)
sparkexpert
2018-01-09
2.8K0
sparksql udf自定义函数中参数过多问题的解决
在进行spark sql数据库操作中,常常需要一些spark系统本身不支持的函数,如获取某一列值中的字符串。 如要获取 “aaaakkkkk”中的第4-第8个字符。 针对这种需求,只有设置UDF来实现了。 如 val fun:((String,Int,Int) => String) = (args:String, k1:Int, k2:Int) => { args.substr(k1,k2)}  val sqlfunc = udf(fun) df.withColumn("column22", sqlfunc
sparkexpert
2018-01-09
1.8K0
Hive在spark2.0.0启动时无法访问../lib/spark-assembly-*.jar: 没有那个文件或目录的解决办法
最近将整个架构升级到spark 2.0.0之后,发现一个问题,就是每次进行hive --service metastore启动的时候,总是会报一个小BUG。 无法访问/home/ndscbigdata/soft/spark-2.0.0/lib/spark-assembly-*.jar: 没有那个文件或目录。 而这一行究竟是怎么回事,网上没有任何有关的资料。 没办法,只好一步一步分析,终于找到问题的症结。 其主要的原因是:在hive.sh的文件中,发现了这样的命令,原来初始当spark存在的时候,进行spa
sparkexpert
2018-01-09
1.9K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档