腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
大数据智能实战
大数据与人工智能方向的论文复现、技术探索、工程实践的点滴记录和积累。
专栏作者
举报
256
文章
390966
阅读量
56
订阅数
订阅专栏
申请加入专栏
全部文章(256)
机器学习(40)
人工智能(32)
深度学习(31)
神经网络(30)
编程算法(29)
spark(29)
python(26)
其他(24)
腾讯云测试服务(21)
tensorflow(17)
数据库(16)
hive(16)
打包(14)
java(13)
sql(13)
NLP 服务(12)
http(12)
hadoop(10)
大数据(10)
hbase(10)
scala(9)
云数据库 Redis(9)
linux(9)
https(9)
html(8)
网络安全(8)
爬虫(7)
bash(6)
github(6)
ubuntu(6)
pytorch(6)
flask(5)
git(5)
api(5)
bash 指令(5)
存储(5)
开源(5)
javascript(4)
node.js(4)
网站(4)
图像识别(4)
tcp/ip(4)
model(4)
php(3)
c#(3)
ide(3)
eclipse(3)
unix(3)
图像处理(3)
opencv(3)
语音识别(2)
数据挖掘(2)
.net(2)
jar(2)
apache(2)
apt-get(2)
mapreduce(2)
文件存储(2)
TDSQL MySQL 版(2)
游戏(2)
缓存(2)
面向对象编程(2)
安全(2)
数据处理(2)
windows(2)
using(2)
video(2)
模型(2)
视频(2)
内容分发网络 CDN(1)
人脸识别(1)
c++(1)
perl(1)
go(1)
jquery ui(1)
xml(1)
css(1)
jquery(1)
json(1)
qt(1)
嵌入式(1)
云数据库 SQL Server(1)
sqlite(1)
oracle(1)
nosql(1)
django(1)
ruby on rails(1)
matlab(1)
命令行工具(1)
云数据库 MongoDB(1)
视频处理(1)
mongodb(1)
express(1)
分布式(1)
shell(1)
html5(1)
正则表达式(1)
jdbc(1)
监督学习(1)
zookeeper(1)
keras(1)
flash(1)
腾讯云开发者社区(1)
processing(1)
kafka(1)
utf8(1)
sdk(1)
Elasticsearch Service(1)
arcgis(1)
background(1)
com(1)
config(1)
core(1)
correlation(1)
cv2(1)
dlib(1)
error(1)
field(1)
figure(1)
firefox(1)
flex(1)
gis(1)
gpu(1)
image(1)
key(1)
label(1)
lag(1)
local(1)
localhost(1)
mapbox(1)
mask(1)
max(1)
mean(1)
nlp(1)
normalization(1)
openstreetmap(1)
path(1)
pip(1)
poi(1)
python3(1)
redis(1)
render(1)
scale(1)
server(1)
src(1)
state(1)
stream(1)
styles(1)
super(1)
time(1)
torch(1)
txt(1)
widget(1)
window(1)
百度(1)
遍历(1)
程序(1)
地图(1)
多线程(1)
可视化(1)
框架(1)
论文(1)
手机(1)
数据(1)
语音(1)
搜索文章
搜索
搜索
关闭
spark读取多个文件夹(嵌套)下的多个文件
spark
腾讯云测试服务
在正常调用过程中,难免需要对多个文件夹下的多个文件进行读取,然而之前只是明确了spark具备读取多个文件的能力。
sparkexpert
2022-05-07
3.1K
0
spark-submit动态提交的办法(SparkLauncher实战)
spark
api
Library for launching Spark applications.
sparkexpert
2022-05-07
972
0
spark访问redis集群中某个数据库的问题
node.js
spark
tcp/ip
数据库
sql
正常redis是没有数据库的概念的,但是当redis变成集群的时候,它是可以设置数据库的。(其实也就是开辟一块索引)
sparkexpert
2022-05-07
785
0
spark dataframe新增列的处理
scala
bash
bash 指令
spark
利用withColumn函数就能实现对dataframe中列的添加。但是由于withColumn这个函数中的第二个参数col必须为原有的某一列。所以默认先选择了个ID。
sparkexpert
2022-05-07
757
0
spark批量读取大量小文件的办法
spark
txt
遍历
多线程
在实际工程中,经常会遇到要一起读取众多小文件的办法。本来正常情况下是进行文件夹的遍历。
sparkexpert
2022-05-07
1.1K
0
initial job has not accepted any resources的spark错误解决办法
spark
在运行多个spark应用程序的时候,经常会出现initial job has not accepted any resources的错误。
sparkexpert
2022-05-07
205
0
spark访问Redis并进行操作
云数据库 Redis
spark
Redis是一种高性能的内存数据库,其应用场合非常广泛,在一些实时性要求比较高的场景中,以Redis作为架构来实现的是比较多的。
sparkexpert
2022-05-07
293
0
Spark实现HIVE统计结果导入到HBase操作
hive
编程算法
python
hbase
spark
由于HIVE更新的机制极其不适应SPARK环境,于是利用HBase来执行HIVE中某些统计结果的更新。首先要做的是实现Spark + Hive访问,得到RDD,再将这个RDD导入到HBase中操作。 然而网上关于这一块目前资料还真很少。但是其原理总体上来说是非常简单的。 步骤主要是两步: (1)开启hive连接器,实现spark + hive的访问,得到dataframe对象。
sparkexpert
2022-05-07
542
0
Spark访问HBase的Eclipse代码实现
java
hadoop
hbase
spark
TDSQL MySQL 版
Hbase是一个列式数据库,从其本质上来看,可以当做是一个数据源,而Spark本身又可以进行Hbase的连接,访问数据并进行查询。
sparkexpert
2022-05-07
365
0
spark sql 无法访问 hive metastore问题解决
java
html
hive
spark
tcp/ip
Spark SQL on Hive是Shark的一个分支,是HIVE执行分析引擎的一个重要利器。在Spark 1.5.1的时候,可以非常简单地在spark shell中进行Hive的访问,然而到了Spark 1.5.2时,发现进入Spark Shell的时候,总是出现报错,其原因总是无法访问hive的metastore,从而无法进行各种操作,相当的烦人的。 看了说明,说是要配置hive thrift服务,然而总是报各种失败! 困扰了很多天,终于搞定了。于是在这边将过程写下来。
sparkexpert
2022-05-07
893
0
Spark 1.5.2(Scala 2.11)版本的编译与安装
打包
spark
scala
Spark于11月9号又将几个BUG解决之后,release一个较新的版本。作为spark的追随者,于是开始重新进行spark的编译。
sparkexpert
2022-05-07
407
0
spark mlib中机器学习算法的测试(SVM,KMeans, PIC, ALS等)
编程算法
spark
机器学习
神经网络
深度学习
在学习spark mlib机器学习方面,为了进行算法的学习,所以对原有的算法进行了试验。从其官网(http://spark.apache.org/docs/latest/mllib-guide.html)上进行了相关文档的介绍学习,并通过其给定的例子包中相关进行测试。
sparkexpert
2022-05-07
433
0
spark master开发中org.apache.spark.serializer.JavaDeserializationStream错误解决
spark
jar
val conf = new SparkConf().setMaster("spark://hostname:7077").setAppName("Spark Pi")
sparkexpert
2022-05-07
321
0
Spark R安装成功的步骤
spark
java
scala
ruby on rails
网上有很多关于spark R的安装过程,但是按照那个过程总是出错。当然最常见的问题是:
sparkexpert
2022-05-07
260
0
Hive V1.2.1源码的解译
hive
hadoop
java
spark
scala
在利用spark sql on hive的过程中,访问Mysql总是报错,其报错的日志总是显示:
sparkexpert
2022-05-07
239
0
Spark1.5.1源码(Scala 2.11.7)的编译步骤
打包
spark
hive
scala
在编写spark程序的过程中,如果以master=local的方式是可以正常搞定的,然而如果将master设置为spark集群的方式则总是报各种错,通过源码查看,主要是AKKA通信与序列化之间的问题,而其核心原因是scala版本不匹配的问题。默认从apache官网下载的BIN包只支持2.10的,而2.11版本的还需要自己搞定。
sparkexpert
2022-05-07
311
0
SparkR的第一个测试例子Spark Pi计算
spark
java
安装SparkR颇费周折,网上看到的各种安装方法,其实最终测试都很不好用。可能是国内有些网站被屏蔽的关系吧。
sparkexpert
2022-05-07
505
0
Spark 2.0 DataFrame map操作中Unable to find encoder for type stored in a Dataset.问题的分析与解决
spark
随着新版本的spark已经逐渐稳定,最近拟将原有框架升级到spark 2.0。还是比较兴奋的,特别是SQL的速度真的快了许多。。 然而,在其中一个操作时却卡住了。主要是dataframe.map操作,这个之前在spark 1.X是可以运行的,然而在spark 2.0上却无法通过。。 看了提醒的问题,主要是: ******error: Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc)
sparkexpert
2018-01-09
2.8K
0
sparksql udf自定义函数中参数过多问题的解决
spark
sql
数据库
在进行spark sql数据库操作中,常常需要一些spark系统本身不支持的函数,如获取某一列值中的字符串。 如要获取 “aaaakkkkk”中的第4-第8个字符。 针对这种需求,只有设置UDF来实现了。 如 val fun:((String,Int,Int) => String) = (args:String, k1:Int, k2:Int) => { args.substr(k1,k2)} val sqlfunc = udf(fun) df.withColumn("column22", sqlfunc
sparkexpert
2018-01-09
1.8K
0
Hive在spark2.0.0启动时无法访问../lib/spark-assembly-*.jar: 没有那个文件或目录的解决办法
spark
最近将整个架构升级到spark 2.0.0之后,发现一个问题,就是每次进行hive --service metastore启动的时候,总是会报一个小BUG。 无法访问/home/ndscbigdata/soft/spark-2.0.0/lib/spark-assembly-*.jar: 没有那个文件或目录。 而这一行究竟是怎么回事,网上没有任何有关的资料。 没办法,只好一步一步分析,终于找到问题的症结。 其主要的原因是:在hive.sh的文件中,发现了这样的命令,原来初始当spark存在的时候,进行spa
sparkexpert
2018-01-09
1.9K
0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档