大数据-Hadoop、Spark

56 篇文章
35 人订阅

全部文章

sparkle123

富士通南大 · 开发课长 (已认证)

ZooKeeper stat is not in whitelist

1052
sparkle123

富士通南大 · 开发课长 (已认证)

头条大数据实践

一、 除了日志数据,关系数据库中的数据也是数据分析的重要来源。在数据的采集方式上,用Spark实现类 Sqoop 的分布式抓取替代了早期定期用单机全量抓取 M...

1482
sparkle123

富士通南大 · 开发课长 (已认证)

大数据权限与安全

权限的管控,历来是大数据平台中最让人头疼的问题之一。管得严了,业务不流畅,用户不开心,放得宽了,安全没有底,你能放心?而且大数据平台组件,服务众多;架构,流程复...

8044
sparkle123

富士通南大 · 开发课长 (已认证)

2.2、宽依赖与窄依赖深度剖析

1293
sparkle123

富士通南大 · 开发课长 (已认证)

2018-08-08

1、spark程序停-启,实时数据量一下子太多,如何处理 2、spark程序数据丢失,如何处理?duration是多少?

852
sparkle123

富士通南大 · 开发课长 (已认证)

hive bucket

hive中table可以拆分成partition, table和partition可以通过CLUSTERED BY 进一步分bucket,bucket中的数据...

1102
sparkle123

富士通南大 · 开发课长 (已认证)

2018-08-01-日报

1、研究了数据治理、数据质量两份文档,整理了产品的功能需求文档, 使用在线工具将pdf转化为word,使用工具将chm转为word,转化效果还挺好的。 2、...

872
sparkle123

富士通南大 · 开发课长 (已认证)

【Hive】ERROR exec.DDLTask: java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCrc32.nati...

1/在$HADOOP_HOME/lib/native下面放了2.5.0-native-snappy.tar.gz,这是HDFS存储压缩所需的本地lib包。 c...

1112
sparkle123

富士通南大 · 开发课长 (已认证)

Hadoop CombineTextInputFormat的使用

1413
sparkle123

富士通南大 · 开发课长 (已认证)

本地Eclipse提交MR程序到Yarn

1445
sparkle123

富士通南大 · 开发课长 (已认证)

java -jar运行MR程序

1314
sparkle123

富士通南大 · 开发课长 (已认证)

maven-scala-plugin pom file error unknown

2794
sparkle123

富士通南大 · 开发课长 (已认证)

Linux解决方案:No space left on device

3965
sparkle123

富士通南大 · 开发课长 (已认证)

Flume整合Kafka实时收集日志信息

2473
sparkle123

富士通南大 · 开发课长 (已认证)

Flume + Kafka + Spark Streaming整合

3284
sparkle123

富士通南大 · 开发课长 (已认证)

Spark Streaming + Kafka整合

2735
sparkle123

富士通南大 · 开发课长 (已认证)

Logstash+Kafka+ZK集群整合

2204
sparkle123

富士通南大 · 开发课长 (已认证)

Elasticsearch+Kafka整合

3168
sparkle123

富士通南大 · 开发课长 (已认证)

第3章 Spark性能优化

1723
sparkle123

富士通南大 · 开发课长 (已认证)

day3-Akka实现RPC通信框架

代码: https://github.com/cyofeiyue/MyRPC 1.Akka配置信息 //Master akka.actor.provider ...

3638

扫码关注云+社区

领取腾讯云代金券