大数据-Hadoop、Spark

55 篇文章
31 人订阅

全部文章

sparkle123

富士通南大 · 开发课长 (已认证)

头条大数据实践

一、 除了日志数据,关系数据库中的数据也是数据分析的重要来源。在数据的采集方式上,用Spark实现类 Sqoop 的分布式抓取替代了早期定期用单机全量抓取 M...

742
sparkle123

富士通南大 · 开发课长 (已认证)

大数据权限与安全

权限的管控,历来是大数据平台中最让人头疼的问题之一。管得严了,业务不流畅,用户不开心,放得宽了,安全没有底,你能放心?而且大数据平台组件,服务众多;架构,流程复...

1224
sparkle123

富士通南大 · 开发课长 (已认证)

2.2、宽依赖与窄依赖深度剖析

793
sparkle123

富士通南大 · 开发课长 (已认证)

2018-08-08

1、spark程序停-启,实时数据量一下子太多,如何处理 2、spark程序数据丢失,如何处理?duration是多少?

712
sparkle123

富士通南大 · 开发课长 (已认证)

hive bucket

hive中table可以拆分成partition, table和partition可以通过CLUSTERED BY 进一步分bucket,bucket中的数据...

631
sparkle123

富士通南大 · 开发课长 (已认证)

2018-08-01-日报

1、研究了数据治理、数据质量两份文档,整理了产品的功能需求文档, 使用在线工具将pdf转化为word,使用工具将chm转为word,转化效果还挺好的。 2、...

742
sparkle123

富士通南大 · 开发课长 (已认证)

【Hive】ERROR exec.DDLTask: java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCrc32.nati...

1/在$HADOOP_HOME/lib/native下面放了2.5.0-native-snappy.tar.gz,这是HDFS存储压缩所需的本地lib包。 c...

782
sparkle123

富士通南大 · 开发课长 (已认证)

Hadoop CombineTextInputFormat的使用

1063
sparkle123

富士通南大 · 开发课长 (已认证)

本地Eclipse提交MR程序到Yarn

1145
sparkle123

富士通南大 · 开发课长 (已认证)

java -jar运行MR程序

954
sparkle123

富士通南大 · 开发课长 (已认证)

maven-scala-plugin pom file error unknown

1154
sparkle123

富士通南大 · 开发课长 (已认证)

Linux解决方案:No space left on device

2105
sparkle123

富士通南大 · 开发课长 (已认证)

Flume整合Kafka实时收集日志信息

1613
sparkle123

富士通南大 · 开发课长 (已认证)

Flume + Kafka + Spark Streaming整合

2144
sparkle123

富士通南大 · 开发课长 (已认证)

Spark Streaming + Kafka整合

1965
sparkle123

富士通南大 · 开发课长 (已认证)

Logstash+Kafka+ZK集群整合

1834
sparkle123

富士通南大 · 开发课长 (已认证)

Elasticsearch+Kafka整合

2178
sparkle123

富士通南大 · 开发课长 (已认证)

第3章 Spark性能优化

1393
sparkle123

富士通南大 · 开发课长 (已认证)

day3-Akka实现RPC通信框架

代码: https://github.com/cyofeiyue/MyRPC 1.Akka配置信息 //Master akka.actor.provider ...

3348
sparkle123

富士通南大 · 开发课长 (已认证)

Java线程池

Callable 和 Runable都是启动一个线程, 不过Callable可以有返回值 import java.util.concurrent.{Callab...

3506

扫码关注云+社区