作者:沐远
本文整理自来自阿里巴巴的沐远的技术分享,由大数据技术与架构进行整理和总结。
场景需求和挑战
金融风控
个性化推荐
社交Feeds
时空时序
大数据
Apache HBase(在线查询) 的特点有:
面临的新的挑战:
Spark API的发展经历了RDD、DataFrame、DataSet
Spark Streaming采用的是Micro-Batch方式处理实时数据。
作业堆积、延迟高、并发不够?
Spark流式处理入库HBase
Micro-Batch Processing:100ms延迟 ,Continuous Processing:1ms延迟
Spark HBase Connector的一些优化
代码托管在:https://github.com/aliyun/aliyun-apsaradb-hbase-demo (包含Spark操作Hbase和Phoenix)