前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据分析漫谈

数据分析漫谈

作者头像
用户2936994
发布2018-08-27 11:44:24
2700
发布2018-08-27 11:44:24
举报
文章被收录于专栏:祝威廉

前言

今天突然想了想这事,后面正好也在群里有了讨论。所以这篇文章大体是做个总结。

夜间漫谈

目前来看,从数据本身进行各种转换和查询,大致分成三个类型:

  1. 明细查询
  2. 聚合统计
  3. 关键字检索

明细查询大体是横向行的查询,聚合统计依托于列的纵向查询。关键字检索则是有别于1,2的一种数据获取分析方式,作为人类三大信息来源之一的文字,关键字检索是一个非常重要的从海量数据获取自己想要的数据的方式。就目前我的感觉,人们通过关键字获取到数据集之后可以在走1,2进一步对数据做处理。

目前ElasticSearch可以覆盖三类了,但是聚合统计还很弱,而且不支持SQL。CarbonData覆盖前两类,Parquet则只有第二类。

而就目前的使用热度而言,理论上该是 ES> CarbonData > Parquet。 实际情况是,ElasticSearch当之无愧是王者,其次是Parquet/ORC。CarbonData 则是新起之秀。

从对时间响应的要求而言,又可以分成两种:

  1. 传统的BI报表以预计算为主,偏离线,对时间响应要求并不高。
  2. 交互式查询则更适合数据的探索,如果够快,也可以作为BI报表的后端。

交互式查询,我之前写过一篇内容,大体是说如何秒级,甚至是毫秒级对海量数据进行查询是我们一直追求的一个梦想。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2017.04.20 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前言
  • 夜间漫谈
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档