腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
大数据-Hadoop、Spark
专栏成员
举报
88
文章
145473
阅读量
39
订阅数
订阅专栏
申请加入专栏
全部文章(88)
spark(18)
其他(15)
linux(14)
hadoop(10)
hive(10)
大数据(9)
sql(7)
java(6)
node.js(6)
TDSQL MySQL 版(5)
http(5)
kubernetes(5)
hbase(5)
数据库(4)
云数据库 SQL Server(4)
yarn(4)
zookeeper(4)
打包(3)
apache(3)
容器镜像服务(3)
tcp/ip(3)
python(2)
javascript(2)
bash(2)
scala(2)
ubuntu(2)
专用宿主机(2)
容器(2)
编程算法(2)
存储(2)
html5(2)
jvm(2)
ssh(2)
面向对象编程(2)
windows(2)
https(2)
微服务(2)
kafka(2)
image(2)
png(2)
负载均衡(1)
go(1)
html(1)
云数据库 Redis(1)
jar(1)
tomcat(1)
maven(1)
负载均衡缓存(1)
bash 指令(1)
spring(1)
访问管理(1)
命令行工具(1)
es 2(1)
人工智能(1)
网站(1)
日志数据(1)
缓存(1)
shell(1)
网络安全(1)
jdk(1)
yum(1)
dns(1)
jdbc(1)
rpc(1)
kernel(1)
gcc(1)
kerberos(1)
数据分析(1)
数据结构(1)
nat(1)
emr(1)
flink(1)
file(1)
jmx(1)
list(1)
ls(1)
memory(1)
output(1)
sort(1)
time(1)
日志(1)
搜索文章
搜索
搜索
关闭
大数据权限与安全
其他
权限的管控,历来是大数据平台中最让人头疼的问题之一。管得严了,业务不流畅,用户不开心,放得宽了,安全没有底,你能放心?而且大数据平台组件,服务众多;架构,流程复杂,有时候,就是你想管,也未必能管得起来。
sparkle123
2018-12-05
3.5K
0
2.2、宽依赖与窄依赖深度剖析
其他
宽依赖与窄依赖深度剖析
sparkle123
2018-10-10
454
0
hive bucket
其他
hive中table可以拆分成partition, table和partition可以通过CLUSTERED BY 进一步分bucket,bucket中的数据可以通过SORT BY排序。
sparkle123
2018-08-15
1.9K
0
Hadoop CombineTextInputFormat的使用
其他
1、机器的CPU的核数比如有 12 cores,启动多少个map task合适呢? => 启动12个map task使得机器最大化使用。 每个map task处理多少数据合适?128Mb,经过实绩
sparkle123
2018-07-04
1K
0
java -jar运行MR程序
其他
1、一般的做法都是使用hadoop jar的形式提交任务。 vi bin/hadoop.jar image.png 其实内部调用了RunJar.java 用来读取hadoop环境参数,配置文件等。
sparkle123
2018-07-04
1.4K
0
Java线程池
其他
Callable 和 Runable都是启动一个线程, 不过Callable可以有返回值 import java.util.concurrent.{Callable, Executor, Executors, Future} object ThreadDemo { def main(args: Array[String]): Unit = { val pool = Executors.newFixedThreadPool(5) // for(i <- 1 to 10) { //
sparkle123
2018-04-28
875
0
Logstash简单使用
其他
Logstash-控制台输入输出 cd logstash-2.4.1 bin/logstash -e 'input { stdin { } } output { stdout {} }' Settings: Default pipeline workers: 1 Pipeline main started hello 2018-04-10T09:11:37.888Z hadoop hello hello 2018-04-10T09:11:41.767Z hadoop hello word 2018-04
sparkle123
2018-04-26
693
0
解决Linux克隆后eth0不见的问题
其他
1.通过VMware WorkStation的clone功能,克隆了一份Linux虚拟机,主机名为:mini2,执行ifconfig -a查看所有网卡信息,发现eth0不见了。 原因:clone来的虚
sparkle123
2018-04-26
2.6K
0
启动hadoop,jps没有datanode
其他
启动./start-dfs.sh后jps发现没有datanode进程。 查看日志 2018-02-27 13:54:27,918 INFO org.apache.hadoop.ipc.Server: IPC Server Responder: starting 2018-02-27 13:54:29,140 INFO org.apache.hadoop.hdfs.server.common.Storage: Lock on /home/hadoop/app/tmp/dfs/data/in_use.lock
sparkle123
2018-04-26
4.4K
0
Linux服务器上传下载文件
其他
经常需要向Linux服务器上传,或下载文件。 2.如果不知道你要安装包的具体名称,可以使用yum provides */name 进行查找系统自带软件包的信息; 执行:yum provides */name 控制台显示信息: Loading mirror speeds from cached hostfile * base: mirrors.aliyun.com * extras: mirrors.aliyun.com * updates: mirrors.aliyun.com lrzsz-0.12.
sparkle123
2018-04-26
3.1K
0
Kafka简单使用1. 单节点单broker的部署及使用2.单节点多broker3. 容错性测试
其他
1. 单节点单broker的部署及使用 1.1.修改配置文件$KAFKA_HOME/config/server.properties的如下项: broker.id=0 listeners host.name log.dirs zookeeper.connect 1.2.启动Kafka kafka-server-start.sh 提示帮助信息: USAGE: /home/hadoop/app/kafka_2.11-0.9.0.0/bin/kafka-server-start.sh [-daemon] s
sparkle123
2018-04-26
717
0
Spark DataFrame基本操作
其他
DataFrame的概念来自R/Pandas语言,不过R/Pandas只是runs on One Machine,DataFrame是分布式的,接口简单易用。 Threshold: Spark RDD API VS MapReduce API One Machine:R/Pandas 官网的说明 http://spark.apache.org/docs/2.1.0/sql-programming-guide.html#datasets-and-dataframes 拔粹如下: A Dataset is
sparkle123
2018-04-26
1K
0
Hadoop常见问题整理
其他
1/运行mr程序出错 connecting to resoucemanager retrying .... retrying ..... 原因是没有启动yarn或者启动失败,正常启动yarn后,又报下面的错误: System times on machines may be out of sync,check system time and time zones 原因是各个节点的时间没有统一,使用NTP统一时间,或是使用secureCRT自带的 send chat to all sessions菜单
sparkle123
2018-04-26
1.6K
0
Hive建表
其他
关于Hive建表,参考官网: https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-ManagedandExternalTables weblog表结构: CREATE TABLE IF NOT EXISTS weblog( ip string , time string , req_url string , status string , size string
sparkle123
2018-04-26
878
0
SparkSQL基本使用
其他
往Hadoop集群上上传测试数据,hdfs dfs -cat /person/employee.txt employee.txt 1,zhangxx,20,manager 2,wangxin,25,employee 3,wangergou,78,xixi 4,wawo,35,gogo 5,liwei,28,programmer 6,hanmeimei,29,UI 1.读取数据,将每一行的数据使用列分隔符分割 val lineRDD = sc.textFile("hdfs://hdp-sk-01:900
sparkle123
2018-04-26
1.1K
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档