大数据-Hadoop、Spark

55 篇文章
34 人订阅

全部文章

sparkle123

富士通南大 · 开发课长 (已认证)

头条大数据实践

一、 除了日志数据,关系数据库中的数据也是数据分析的重要来源。在数据的采集方式上,用Spark实现类 Sqoop 的分布式抓取替代了早期定期用单机全量抓取 M...

992
sparkle123

富士通南大 · 开发课长 (已认证)

大数据权限与安全

权限的管控,历来是大数据平台中最让人头疼的问题之一。管得严了,业务不流畅,用户不开心,放得宽了,安全没有底,你能放心?而且大数据平台组件,服务众多;架构,流程复...

3504
sparkle123

富士通南大 · 开发课长 (已认证)

2.2、宽依赖与窄依赖深度剖析

1043
sparkle123

富士通南大 · 开发课长 (已认证)

2018-08-08

1、spark程序停-启,实时数据量一下子太多,如何处理 2、spark程序数据丢失,如何处理?duration是多少?

772
sparkle123

富士通南大 · 开发课长 (已认证)

hive bucket

hive中table可以拆分成partition, table和partition可以通过CLUSTERED BY 进一步分bucket,bucket中的数据...

782
sparkle123

富士通南大 · 开发课长 (已认证)

2018-08-01-日报

1、研究了数据治理、数据质量两份文档,整理了产品的功能需求文档, 使用在线工具将pdf转化为word,使用工具将chm转为word,转化效果还挺好的。 2、...

812
sparkle123

富士通南大 · 开发课长 (已认证)

【Hive】ERROR exec.DDLTask: java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCrc32.nati...

1/在$HADOOP_HOME/lib/native下面放了2.5.0-native-snappy.tar.gz,这是HDFS存储压缩所需的本地lib包。 c...

922
sparkle123

富士通南大 · 开发课长 (已认证)

Hadoop CombineTextInputFormat的使用

1223
sparkle123

富士通南大 · 开发课长 (已认证)

本地Eclipse提交MR程序到Yarn

1275
sparkle123

富士通南大 · 开发课长 (已认证)

java -jar运行MR程序

1064
sparkle123

富士通南大 · 开发课长 (已认证)

maven-scala-plugin pom file error unknown

1414
sparkle123

富士通南大 · 开发课长 (已认证)

Linux解决方案:No space left on device

2625
sparkle123

富士通南大 · 开发课长 (已认证)

Flume整合Kafka实时收集日志信息

1803
sparkle123

富士通南大 · 开发课长 (已认证)

Flume + Kafka + Spark Streaming整合

2604
sparkle123

富士通南大 · 开发课长 (已认证)

Spark Streaming + Kafka整合

2245
sparkle123

富士通南大 · 开发课长 (已认证)

Logstash+Kafka+ZK集群整合

1954
sparkle123

富士通南大 · 开发课长 (已认证)

Elasticsearch+Kafka整合

2648
sparkle123

富士通南大 · 开发课长 (已认证)

第3章 Spark性能优化

1533
sparkle123

富士通南大 · 开发课长 (已认证)

day3-Akka实现RPC通信框架

代码: https://github.com/cyofeiyue/MyRPC 1.Akka配置信息 //Master akka.actor.provider ...

3478
sparkle123

富士通南大 · 开发课长 (已认证)

Java线程池

Callable 和 Runable都是启动一个线程, 不过Callable可以有返回值 import java.util.concurrent.{Callab...

3656

扫码关注云+社区