首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

数据可视化的开源方案: Superset vs Redash vs Metabase (一)

人是视觉动物,要用数据把一个故事讲活,图表是必不可少的。如果你经常看到做数据分析同事,在SQL客户端里执行完查询,把结果复制/粘贴到Excel里再做成图表,那说明你的公司缺少一个可靠的数据可视化平台。数据可视化是Business Intelligence(简称BI)中的核心功能,有许多成熟的商用解决方案,如老牌的Tableau, Qilk,新生代的Looker,国内的FineBI等等。不过对于许多小公司来说,这些服务的License费用是一笔不小的开销,且有一种“杀鸡用牛刀”的感觉。那在开源软件如此发达的今天,在数据可视化方面,有什么靠谱的方案可以选择呢?今天给大家介绍三个比较知名的项目,分别是Superset, Redash和Metabase。前两个我都在产生环境中实际使用过,在本文中会重点介绍。Metabase我只是试玩了一下,但我觉得这是一个非常有想法的项目,所以也会和大家聊聊我对它的看法。

04

避开机器学习中的陷阱 数据比算法更重要

用户行为分析、网络威胁检测,一股新的浪潮正在持续发酵。安全数据分析被用于掌握情况、发现问题和预测风险,并带来了潜力不可限量的营销前景。理想的情况是从攻击中提取出机器学习程序所支持的数据,并把它交给算法,然后一切安全状况尽在掌握。 作为信息安全工具,“机器学习”的噱头显然掩盖了数据科学不那么吸引人但却本质的一面:数据的收集和准备(后者占据了数据科学家约80%的时间)。事实是,机器学习和其他算法需要应用于适当、干净、容易理解的数据来获取有效的结果。 安全市场存在这种误导性的风向不足为奇,但是当这种情况出现在安全

06

大数据学习笔记0:大数据基本框架

Iaas、K8S、Omega都属于这一层。 计算引擎层 计算引擎层是大数据技术中最活跃的一层,直到今天,仍不断有新的计算引擎被提出。 总体上讲,可按照对时间性能的要求,将计算引擎分为三类: ❑ 批处理:该类计算引擎对时间要求最低,一般处理时间为分钟到小时级别,甚至天级别,它追求的是高吞吐率,即单位时间内处理的数据量尽可能大,典型的应用有搜索引擎构建索引、批量数据分析等。 ❑ 交互式处理:该类计算引擎对时间要求比较高,一般要求处理时间为秒级别,这类系统需要跟人进行交互,因此会提供类SQL的语言便于用户使用,典型的应用有数据查询、参数化报表生成等。 ❑ 实时处理:该类计算引擎对时间要求最高,一般处理延迟在秒级以内,典型的应用有广告系统、舆情监测等。 数据分析层 数据分析层直接跟用户应用程序对接,为其提供易用的数据处理工具。为了让用户分析数据更加容易,计算引擎会提供多样化的工具,包括应用程序API、类SQL查询语言、数据挖掘SDK等。 在解决实际问题时,数据科学家往往需根据应用的特点,从数据分析层选择合适的工具,大部分情况下,可能会结合使用多种工具,典型的使用模式是:首先使用批处理框架对原始海量数据进行分析,产生较小规模的数据集,在此基础上,再使用交互式处理工具对该数据集进行快速查询,获取最终结果。 数据可视化层 数据可视化层是直接面向用户展示结果的一层,由于该层直接对接用户,是展示大数据价值的“门户”,因此数据可视化是极具意义的。考虑到大数据具有容量大、结构复杂和维度多等特点,对大数据进行可视化是极具挑战性的。

01
领券