专栏首页数据社从0到1搭建自助分析平台

从0到1搭建自助分析平台

一、什么是自助分析平台

自助分析平台是构建在大数据平台之上的,依托于大数据平台的数据研发能力,通过统一的数据服务,实现对数据查询、分析的统一管理,为企业业务分析提供高效的数据决策支持,同时也避免数据工程师陷入繁杂的提数需求中。自助分析平台是有计算机基础的业务人员能够快速上手的前端产品,既要有大数据的处理性能,有需要有简单好用的可视化分析能力,只有让业务人员能够快速掌握使用方法,和公司的业务结合起来,自助分析平台才有价值。其实,一直以来,各大公司的数据分析平台都只有一个目标——干掉Excel。

二、自助分析平台该有哪些模块

上面已经介绍了,自助分析平台是用来查询数据,探索数据的,需要具备Excel已有的功能,还要比Excel做的更好。

  • 支持多数据源接入

自助分析平台要能够支持多种数据源、不同数据类型文件的接入,能够让数据工程师和业务人员快速的把数据导入到自助分析平台中。需要支持传统的关系型数据库、Hive、文件导入(Excel、CSV、TXT等)。

  • 多维度分析

能够对导入的数据进行快速查询、过滤、聚合、排序、关联等动态操作。比如业务人员已经有一些用户基本信息,它能够通过导入用户名,通过用户名关联到对应的用户分析数据。并能够对不同类型的用户进行分组聚合操作。以上所有的操作需要实现拖拽式,不需要让业务人员写一行代码。

  • 丰富的可视化

需要支持常用的可视化图形,如饼状图、环图、同轴曲线图、柱状图、散点图等,用户需要绑定自己导入或者通过平台清洗好的数据,既可以快速的生产对应的分析图表,制作可视化报告。

  • 权限管控

自助分析平台是对公司所有的业务人员使用的,需要有对应的权限管控。比如A用户制作的数据图表,B用户是不能够查看的,只有A赋权给B后才能查看。自助分析平台中的数据也要进行权限管控,比如敏感数据不能开放所有用户,下载数据需要有流程审批等等。

  • 高性能

数据分析查询要快、自助分析要快、可视化要快。很多自助分析平台最终变成了数据下载平台,其中很大一部分原因就是不够快,虽说大数据了比Excel快多了,但是实际业务探索中,很多时候数据量就是百万以内的,要是还没有Excel快的话,人家为什么要用你的平台呢?所以,不管是数据量大,还是数据量小,都要快!在技术上是否要考虑大数据量和中小数据量使用不能的查询计算引擎呢?

三、自助分析平台架构

  • 自助分析引擎

对于超大数据量的复杂查询分析,我们可以使用Spark提交任务的方式来实现自助分析。对于中小数据量的数据我们使用MPP数据库实现快速查询。

  • 可视化

我们可以使用echarts支撑多种类型图表展示,或者使用superset等开源自助分析项目进行展示。

  • 权限

为做到相互隔离和数据安全,后台管控系统通过条件限制控制数据的授权,对手机号、身份证号、邮箱等敏感信息管控端采用加密算法防止数据泄露。

四、总结

实际中业务人员和IT团队对于自助分析平台的搭建都有自己的想法,也想通过数据来给公司去做一些事情,所以在建立自助分析平台时,可以和业务人员不断的沟通,先定一些主题数据,做成果展示,和业务人员以及领导分享,让其参与评价和建议,不断优化和改善,当相关人员都有参与感时,自助分析平台才会持久发展。

最后,还是要提醒一下,自助分析平台的目的是“干掉Excel”,让所有的分析结果存储在线上,千万不要让其沦为数据下载平台。

本文分享自微信公众号 - 数据社(DataClub),作者:数据社

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-09-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 一文入门流处理开发

    Apache Flink 是一个开源的分布式流处理和批处理系统。Flink 的核心是在数据流上提供数据分发、通信、具备容错的分布式计算。同时,Flink 在流处...

    数据社
  • 为什么要学 Flink,Flink 香在哪?

    知道大数据的同学也应该知道 Flink 吧,最近在中国的热度比较高,在社区的推动下,Flink 技术栈在越来越多的公司开始得到应用。

    数据社
  • Flink简介

    ApacheFlink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它能够基于同一个Flink运行时,提供支持流处理和批处理两种类型应用的功能。

    数据社
  • 变天了

    知晓君
  • Elasticsearch写入原理深入详解

    Elasticsearch写入流程,网上有视频、笔记等各种版本,本文结合最新官方文档进行重新梳理,节省大家的时间。

    铭毅天下
  • Android 应用签名的两种方法

    在AndroidManifest.xml中配置sharedUserId可以使apk获取响应的用户uid并且能够使用与该用户相关的权限,常用的sharedUse...

    砸漏
  • 深度学习入门,一文讲解神经网络的构成、训练和算法

    人工神经网络(Artificial Neural Network,ANN),简称神经网络(Neural Network,NN),是一种模仿生物神经网络的结构和功...

    Datawhale
  • 神经网络的构成、训练和算法 | 小白深度学习入门

    人工神经网络(Artificial Neural Network,ANN),简称神经网络(Neural Network,NN),是一种模仿生物神经网络的结构和功...

    叶锦鲤
  • PaaS平台未来前瞻:要开放 要融合 要安全

    企业通讯随着移动信息化的浪潮正在经历一场重要变革,从最初传统的局域网套装通讯软件到SaaS时代的“在线即时协同”,再到互联网服务模式的公有云通讯平台,一个融合通...

    静一
  • 【HBUOJ】阿生的酒量

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

    韩旭051

扫码关注云+社区

领取腾讯云代金券