前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >一些闲谈

一些闲谈

作者头像
哒呵呵
发布2022-04-14 09:07:39
1450
发布2022-04-14 09:07:39
举报
文章被收录于专栏:鸿的学习笔记鸿的学习笔记

突然想到一个问题,对于一个只会写SQL的数据分析师而言,一个好的大数据系统应该是怎么样的呢?

存储数据

首先这个大数据系统里,应该存放在他想要的数据。只要有数据问题,就能在这个系统里找得到相应的数据去解决问题。这包含着两个意味:一个是数据系统的只存储合理的数据,另一个就是要求数据系统能够尽可能多的存储数据。对于第一个而言,就牵扯到数据治理的内容,要有合适的工具可以区分哪些数据是否应该保留,第二个就决定了大数据系统必然是分布式系统,可以尽可能扩容去保存数据。

快速计算

其次是输入一条SQL后,应该要很快就能返回结果。对于业务而言,尽可能缩短等待时间,否则输入一条 SQL,等待十几分钟才出结果,就很容易不耐烦。这也决定了,一个大数据系统的计算引擎必须要配备一个基于内存的,MPP计算引擎,满足在一定数据量下的快速查询的需求。当然这一类的计算引擎代价是非常高的,有些日常的数据处理需求就不会选择 MPP 计算引擎,而是选择类似 MapReduce 的计算引擎。

易用性

再者就是要方便使用,不能有太多的操作难度。最好就是有一个 Web 的 UI 界面,用户只需要输入 SQL,Web 就能返回查询的结果。如果满足数据安全要求的话,返回的查询可以以 Excel 格式下载。UI 界面最好还能带上 SQL 的自动提示功能,有 SQL 的功能函数的提示等。

稳定性

最后就是不能经常出问题,否则总是有各种问题,那这个大数据系统就基本上不可用了。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-03-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 鸿的笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 存储数据
  • 快速计算
  • 易用性
  • 稳定性
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档