架构杂记

solve

发布于 2020-02-25 17:02:51

5290

发布于 2020-02-25 17:02:51

为什么要重新设计架构

不丢数据高可用方便接入

实时高效

flume为什么要对接kafka？另外一种方式就是 flume直接对接HDFS。主要是为了实时数据考虑 flume是一个消息管道，其数据流入之后，一旦被消费，这个数据就会被删除，也就是说他只能有一个消费者，而kafka不一样，可以支持多个消费者，比如实时数据可以拿一批，离线数据还可以拿一批

主要作用当然是削峰填谷，做一个缓冲作用解耦

根据目前的情况看起来，国内普遍对于flink比较看好，从实际情况来看，flink也是以后的发展方向，但是目前Spark的活跃程度远高于Flink，很难说Spark以后的底层不会也才有flink这种方式，

目前建议离线用Spark，实时的话可以尝试flink

目前熟悉Spark，对Flink不太熟悉

Kylin产生的背景 eBay公司为了实现Bi平台和Hadoop平台的无缝整合，并能在大规模数据集上实现秒级的查询而提出的最终解决方案，即 OLAP on Hadoop.从而诞生了kylin这个框架
Kylin解决的问题在大数据领域，自Hadoop诞生以来，存储和计算都得到了妥善的解决，其用到的主要技术主要是并行计算和列式存储。这些技术虽然大大提高了计算速度，但是查询时间还是会和数据的增加成线性增长这离实时分析的要求还相差甚远而kylin就是用来解决这一问题，其通过预计算的方式来使得我们平时查询的数据可以达到秒级响应
kylin的特点
- 标准的SQL接口
- 支持超大规模的数据集
- 亚秒级的响应
- Bi平台以及可视化工具的集成
我们为什么要用
- 一些业务多维度分析确实遇到了瓶颈
- 可以弥补公司确实OLAP的空白
- 可以作为一个数据自助查询的平台

性能方面相比于Spark 1.0，Spark 2.0在引擎性能方面有重大优化，其优化主要体现在Spark Core和Spark SQL两个系统上，其优化主要得益于Tungsten计划(“钨丝计划”)，其主要动机是优化Spark内存和CPU的使用，使其能够逼近物理机器的性能极限。利用“整阶段代码生成”(“whole stage code generation”)，使得SQL和DataFrame中算子性能优化2-10倍通过“向量化计算”提升Parquet格式文件的扫描吞吐率提升ORC格式文件的读写性能提升Catalyst查询优化器性能
统一DataFrame与Dataset API众所周知，在Spark 1.x中，DataFrame API存在很多问题，包括不是类型安全的(not type-safe)，缺乏函数式编程能力(not object-oriented)等，为了克服这些问题，社区引入了Dataset，相比于DataFrame，它具有以下几个特点：类型安全，面向对象编程方式;支持非结构化数据(json); java与scala统一接口和性能极好的序列化框架等，她将成为Spark未来主流的编程接口(RDD API是low-level API，而Dataset则是high-level API)。
SQL支持进一步完善
引入了Struct streaming