大数据-Hadoop、Spark-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据-Hadoop、Spark

专栏成员

88

文章

145473

阅读量

39

订阅数

大数据权限与安全

权限的管控，历来是大数据平台中最让人头疼的问题之一。管得严了，业务不流畅，用户不开心，放得宽了，安全没有底，你能放心？而且大数据平台组件，服务众多；架构，流程复杂，有时候，就是你想管，也未必能管得起来。

2018-12-05

3.5K0

2.2、宽依赖与窄依赖深度剖析

宽依赖与窄依赖深度剖析

2018-10-10

4540

hive中table可以拆分成partition， table和partition可以通过CLUSTERED BY 进一步分bucket，bucket中的数据可以通过SORT BY排序。

2018-08-15

1.9K0

Hadoop CombineTextInputFormat的使用

1、机器的CPU的核数比如有 12 cores，启动多少个map task合适呢？ => 启动12个map task使得机器最大化使用。每个map task处理多少数据合适？128Mb，经过实绩

2018-07-04

1K0

java -jar运行MR程序

1、一般的做法都是使用hadoop jar的形式提交任务。 vi bin/hadoop.jar image.png 其实内部调用了RunJar.java 用来读取hadoop环境参数，配置文件等。

2018-07-04

1.4K0

Callable 和 Runable都是启动一个线程, 不过Callable可以有返回值 import java.util.concurrent.{Callable, Executor, Executors, Future} object ThreadDemo { def main(args: Array[String]): Unit = { val pool = Executors.newFixedThreadPool(5) // for(i <- 1 to 10) { //

2018-04-28

8750

Logstash简单使用

Logstash-控制台输入输出 cd logstash-2.4.1 bin/logstash -e 'input { stdin { } } output { stdout {} }' Settings: Default pipeline workers: 1 Pipeline main started hello 2018-04-10T09:11:37.888Z hadoop hello hello 2018-04-10T09:11:41.767Z hadoop hello word 2018-04

2018-04-26

6930

解决Linux克隆后eth0不见的问题

1.通过VMware WorkStation的clone功能，克隆了一份Linux虚拟机，主机名为：mini2,执行ifconfig -a查看所有网卡信息，发现eth0不见了。原因：clone来的虚

2018-04-26

2.6K0

启动hadoop，jps没有datanode

启动./start-dfs.sh后jps发现没有datanode进程。查看日志 2018-02-27 13:54:27,918 INFO org.apache.hadoop.ipc.Server: IPC Server Responder: starting 2018-02-27 13:54:29,140 INFO org.apache.hadoop.hdfs.server.common.Storage: Lock on /home/hadoop/app/tmp/dfs/data/in_use.lock

2018-04-26

4.4K0

Linux服务器上传下载文件

经常需要向Linux服务器上传，或下载文件。 2.如果不知道你要安装包的具体名称，可以使用yum provides */name 进行查找系统自带软件包的信息；执行:yum provides */name 控制台显示信息： Loading mirror speeds from cached hostfile * base: mirrors.aliyun.com * extras: mirrors.aliyun.com * updates: mirrors.aliyun.com lrzsz-0.12.

2018-04-26

3.1K0

Kafka简单使用1. 单节点单broker的部署及使用2.单节点多broker3. 容错性测试

1. 单节点单broker的部署及使用 1.1.修改配置文件$KAFKA_HOME/config/server.properties的如下项： broker.id=0 listeners host.name log.dirs zookeeper.connect 1.2.启动Kafka kafka-server-start.sh 提示帮助信息： USAGE: /home/hadoop/app/kafka_2.11-0.9.0.0/bin/kafka-server-start.sh [-daemon] s

2018-04-26

7170

Spark DataFrame基本操作

DataFrame的概念来自R/Pandas语言，不过R/Pandas只是runs on One Machine，DataFrame是分布式的，接口简单易用。 Threshold: Spark RDD API VS MapReduce API One Machine:R/Pandas 官网的说明 http://spark.apache.org/docs/2.1.0/sql-programming-guide.html#datasets-and-dataframes 拔粹如下： A Dataset is

2018-04-26

1K0

Hadoop常见问题整理

1/运行mr程序出错 connecting to resoucemanager retrying .... retrying ..... 原因是没有启动yarn或者启动失败，正常启动yarn后，又报下面的错误： System times on machines may be out of sync,check system time and time zones 原因是各个节点的时间没有统一，使用NTP统一时间，或是使用secureCRT自带的 send chat to all sessions菜单

2018-04-26

1.6K0

关于Hive建表，参考官网： https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-ManagedandExternalTables weblog表结构: CREATE TABLE IF NOT EXISTS weblog( ip string , time string , req_url string , status string , size string

2018-04-26

8780

SparkSQL基本使用

往Hadoop集群上上传测试数据，hdfs dfs -cat /person/employee.txt employee.txt 1,zhangxx,20,manager 2,wangxin,25,employee 3,wangergou,78,xixi 4,wawo,35,gogo 5,liwei,28,programmer 6,hanmeimei,29,UI 1.读取数据，将每一行的数据使用列分隔符分割 val lineRDD = sc.textFile("hdfs://hdp-sk-01:900

2018-04-26

1.1K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态