首页
学习
活动
专区
工具
TVP
发布

大数据-Hadoop、Spark

专栏成员
88
文章
145473
阅读量
39
订阅数
大数据权限与安全
权限的管控,历来是大数据平台中最让人头疼的问题之一。管得严了,业务不流畅,用户不开心,放得宽了,安全没有底,你能放心?而且大数据平台组件,服务众多;架构,流程复杂,有时候,就是你想管,也未必能管得起来。
sparkle123
2018-12-05
3.5K0
2.2、宽依赖与窄依赖深度剖析
宽依赖与窄依赖深度剖析
sparkle123
2018-10-10
4540
hive bucket
hive中table可以拆分成partition, table和partition可以通过CLUSTERED BY 进一步分bucket,bucket中的数据可以通过SORT BY排序。
sparkle123
2018-08-15
1.9K0
Hadoop CombineTextInputFormat的使用
1、机器的CPU的核数比如有 12 cores,启动多少个map task合适呢? => 启动12个map task使得机器最大化使用。 每个map task处理多少数据合适?128Mb,经过实绩
sparkle123
2018-07-04
1K0
java -jar运行MR程序
1、一般的做法都是使用hadoop jar的形式提交任务。 vi bin/hadoop.jar image.png 其实内部调用了RunJar.java 用来读取hadoop环境参数,配置文件等。
sparkle123
2018-07-04
1.4K0
Java线程池
Callable 和 Runable都是启动一个线程, 不过Callable可以有返回值 import java.util.concurrent.{Callable, Executor, Executors, Future} object ThreadDemo { def main(args: Array[String]): Unit = { val pool = Executors.newFixedThreadPool(5) // for(i <- 1 to 10) { //
sparkle123
2018-04-28
8750
Logstash简单使用
Logstash-控制台输入输出 cd logstash-2.4.1 bin/logstash -e 'input { stdin { } } output { stdout {} }' Settings: Default pipeline workers: 1 Pipeline main started hello 2018-04-10T09:11:37.888Z hadoop hello hello 2018-04-10T09:11:41.767Z hadoop hello word 2018-04
sparkle123
2018-04-26
6930
解决Linux克隆后eth0不见的问题
1.通过VMware WorkStation的clone功能,克隆了一份Linux虚拟机,主机名为:mini2,执行ifconfig -a查看所有网卡信息,发现eth0不见了。 原因:clone来的虚
sparkle123
2018-04-26
2.6K0
启动hadoop,jps没有datanode
启动./start-dfs.sh后jps发现没有datanode进程。 查看日志 2018-02-27 13:54:27,918 INFO org.apache.hadoop.ipc.Server: IPC Server Responder: starting 2018-02-27 13:54:29,140 INFO org.apache.hadoop.hdfs.server.common.Storage: Lock on /home/hadoop/app/tmp/dfs/data/in_use.lock
sparkle123
2018-04-26
4.4K0
Linux服务器上传下载文件
经常需要向Linux服务器上传,或下载文件。 2.如果不知道你要安装包的具体名称,可以使用yum provides */name 进行查找系统自带软件包的信息; 执行:yum provides */name 控制台显示信息: Loading mirror speeds from cached hostfile * base: mirrors.aliyun.com * extras: mirrors.aliyun.com * updates: mirrors.aliyun.com lrzsz-0.12.
sparkle123
2018-04-26
3.1K0
Kafka简单使用1. 单节点单broker的部署及使用2.单节点多broker3. 容错性测试
1. 单节点单broker的部署及使用 1.1.修改配置文件$KAFKA_HOME/config/server.properties的如下项: broker.id=0 listeners host.name log.dirs zookeeper.connect 1.2.启动Kafka kafka-server-start.sh 提示帮助信息: USAGE: /home/hadoop/app/kafka_2.11-0.9.0.0/bin/kafka-server-start.sh [-daemon] s
sparkle123
2018-04-26
7170
Spark DataFrame基本操作
DataFrame的概念来自R/Pandas语言,不过R/Pandas只是runs on One Machine,DataFrame是分布式的,接口简单易用。 Threshold: Spark RDD API VS MapReduce API One Machine:R/Pandas 官网的说明 http://spark.apache.org/docs/2.1.0/sql-programming-guide.html#datasets-and-dataframes 拔粹如下: A Dataset is
sparkle123
2018-04-26
1K0
Hadoop常见问题整理
1/运行mr程序出错 connecting to resoucemanager retrying .... retrying ..... 原因是没有启动yarn或者启动失败,正常启动yarn后,又报下面的错误: System times on machines may be out of sync,check system time and time zones 原因是各个节点的时间没有统一,使用NTP统一时间,或是使用secureCRT自带的 send chat to all sessions菜单
sparkle123
2018-04-26
1.6K0
Hive建表
关于Hive建表,参考官网: https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-ManagedandExternalTables weblog表结构: CREATE TABLE IF NOT EXISTS weblog( ip string , time string , req_url string , status string , size string
sparkle123
2018-04-26
8780
SparkSQL基本使用
往Hadoop集群上上传测试数据,hdfs dfs -cat /person/employee.txt employee.txt 1,zhangxx,20,manager 2,wangxin,25,employee 3,wangergou,78,xixi 4,wawo,35,gogo 5,liwei,28,programmer 6,hanmeimei,29,UI 1.读取数据,将每一行的数据使用列分隔符分割 val lineRDD = sc.textFile("hdfs://hdp-sk-01:900
sparkle123
2018-04-26
1.1K0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档