百度百科上BI的定义是:商业智能(Business Intelligence,简称:BI),指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。BI产品则是将上述过程流程化的平台化产品,在降低数据获取、分析成本方面,契合中台的思想,因此也是作为数据中台解决方案的重要模块。
导读:随着业务的进一步发展,秉承“人人用数据,时时用数据”的愿景,如何让运营、产品自主探索分析数据,并发现业务问题成为众多公司迫切需要解决的问题。本文将分享笔者调研网易有数、阿里云QuickBI、联通、SmartBI四款产品里自助取数的结果,并总结后期在实战搭建自助取数产品的重难点。
电子表格可以输入输出、显示数据,也利用公式计算一些简单的加减法。可以帮助用户制作各种复杂的表格文档,进行繁琐的数据计算,并能对输入的数据进行各种复杂统计运算后显示为可视性极佳的表格,同时它还能形象地将大量枯燥无味的数据变为多种漂亮的彩色商业图表显示出来,极大地增强了数据的可视性。本次调研主要是为了进一步了解市面上的电子表格的功能,为表格优化打基础。
数据中台对一个企业,起着至关重要的作用。在数据中台这个称谓成型之前,各个企业也都在用不同的方式来尽可能地利用数据产生价值。只是在这个过程中,也不得不处理着数据带来的各种问题,比如各个业务系统经年累月以烟囱架构形式存在而导致的数据孤岛、数据隔离、数据不一致等等。数据中台对企业的真正意义是,让传统企业向科技企业升级,让IT系统集成向大数据集成升级,让工具/流程/管理向驱动业务运营升级。
数据中台对一个企业,起着至关重要的作用。在数据中台这个称谓成型之前,各个企业也都在用不同的方式来尽可能地利用数据产生价值。只是在这个过程中,也不得不处理着数据带来的各种问题,比如各个业务系统经年累月以烟囱架构形式存在而导致的数据孤岛、数据隔离、数据不一致等等。
一、日志采集系统 记录用户行为(搜索、悬停、点击事件、按钮、输入,请求异常采集等) PC端、App端(Ios,安卓),前端收集埋点数据
3,拷贝表从远程集群到本地(跨集群),拷贝完后记得修复分区表 【如果没有队列则不要:-Dmapred.job.queue.name=root.bi_qipu.p1】
大数据时代,几乎每个企业都在追求数字化转型、数据化管理,上到公司管理层战略目标制定,下到一线业务同学的项目复盘汇报、甚至产品经理和开发的需求沟通,都需要数据的支撑,从过去的拍脑袋的定性决策,转向一切用数据说话的定量决策。从而,带来数据获取和分析需求爆发式的增长。
市场上有许多以BI为旗帜的产品,但它们实际上是纯数据工具。选择BI产品时,很多人都会眼花缭乱。我简单地从技术来源对市场上的BI工具进行分类,以便于理解。
不管什么样的产品,都是为了解决业务问题而存在,数据产品也不例外。数据产品,种类繁多,不同数据产品,所具有的数据功能组件不同。
工欲善其事,必先利其器。随着互联网行业的飞速发展,越来越多的企业意识到BI工具对企业的业务发展有很大的推动作用,使得工作效率更高更强。目前市面出现的数据分析BI工具,不管是从使用场景,还是适用人群上,都存在着绝对的差异。目前,市面上的BI工具种类繁多,客户在进行BI工具选型时,眼花缭乱,不知所措。以下,就从技术来源上可以将市面上的BI工具做个简单分类,方便了解。
帆软公司是国内一家做大数据 BI 和分析平台的提供商,主打产品是 FineBI。笔者所在阿里数据中台也处于数据分析应用的前沿,本次精读的文章就是帆软公司的 《数据之上 智慧之光 2018》,感谢提供这份国内数据市场研究报告,让我们更深入全面的了解国内数据市场的发展方向。
经常在后台收到粉丝留言,说公司准备上BI了,但苦于市面上BI工具太多,不知道该怎么选,让我帮忙出出主意。
当今大数据时代,三分技术,七分数据,得数据者得天下,数据是新的原油。而即使获得相同的原油,但是不同的企业由于技术的差异,能够从原油中萃取出来的价值也是不一样的。一般对大数据的价值来说,大家耳熟能详的主要是数据化管理、数据驱动精细化运营等,这些主要还是以分析应用的场景为主,除此之外,大数据还可以借助AI的能力,把价值更加极致地发挥出来。
2021年还有不到1个月就要说再见了,除了感叹时光匆匆外,马上又要到季度总结、年度总结、年度规划的时候了。最近又集中地把各家公司的数据中台产品架构分析了一遍,试图除了在已有产品的迭代和打磨之余,找到一些新的启发点。看了一圈,发现大同小异。总结下来,数据中台产品最核心的也就是这几件套。
☞ 03.OLAP引擎 [ Kylin Druid Presto Impala Kudu ADB ES .. ]
数据应用,是真正体现数仓价值的部分,包括且又不局限于 数据可视化、BI、OLAP、即席查询,实时大屏,用户画像,推荐系统,数据分析,数据挖掘,人脸识别,风控反欺诈等等。
而阿里经济体中的 ABC,其中的 BIG DATA,即是我们 DT https://dt.alibaba.com/ ,我们用大数据赋能商业,创造价值。
很多应届生以及其他非产品岗无产品经验的同学,找产品经理方向工作的时候,会把竞品分析当作敲门砖,通过竞品分析报告来体现自己的产品思维,作为产品能力的佐证。有和一些产品经理交流过关于竞品分析的体会,他们的问题相信你也曾经遇到过。
互联网和移动互联网技术开启了大规模生产、分享和应用数据的大数据时代。面对如此庞大规模的数据,如何存储?如何计算?各大互联网巨头都进行了探索。Google的三篇论文 GFS(2003),MapReduce(2004),Bigtable(2006)为大数据技术奠定了理论基础。随后,基于这三篇论文的开源实现Hadoop被各个互联网公司广泛使用。在此过程中,无数互联网工程师基于自己的实践,不断完善和丰富Hadoop技术生态。经过十几年的发展,如今的大数据技术生态已相对成熟,围绕大数据应用搭建的平台架构和技术选型也逐渐趋向统一。
数据仓库选型是整个数据中台项目的重中之重,是一切开发和应用的基础。而数据仓库的选型,其实就是Hive数仓和非Hive数仓的较量。Hive数仓以Hive为核心,搭建数据ETL流程,配合Kylin、Presto、HAWQ、Spark、ClickHouse等查询引擎完成数据的最终展现。而非Hive数仓则以Greenplum、Doris、GaussDB、HANA(基于SAP BW构建的数据仓库一般以HANA作为底层数据库)等支持分布式扩展的OLAP数据库为主,支持数据ETL加工和OLAP查询。
由于历史原因,大型集团企业往往多个帐套系统共存,包括国内知名ERP厂商浪潮、用友、金蝶、速达所提供的财务系统,集团财务共享中心的财务人员在核对财务凭证数据时经常需要跨多个系统查询且每个系统使用方式不一,同时因为系统累计数据庞大,制单和查询操作经常出现卡顿,工作效率非常低。
Growth Hacking这个词在过去一两年开始迅速从硅谷传播到国内,也诞生了一系列专注于企业数据分析业务的明星初创公司,如GrowingIO,神策数据,诸葛IO等。Growth Hacking简单的来说就是用数据驱动的方式来指导产品的迭代改进,以实现用户的快速增长,可以看看上面几家数据分析公司披露的客户就知道它有多流行了: GrowingIO客户:有赞,豆瓣,36Kr等 神策数据客户:秒拍,AcFun,爱鲜蜂,pp租车等 诸葛IO客户:Enjoy,罗辑思维等 我司的一个主要产品是面向中小诊所的运营S
近期有人在公众号后台私信我,问数据产品经理有哪些可以找目标竞品的方法。C端产品,度娘或者应用市场一搜,可能竞品就出现了(广告竞价或SEO策略的同质化),。数据产品一般是面向企业内部,只有提供商业化服务的企业才可以找到公开的资料,所以寻找竞品时,要基于对行业的一定了解,以及外部辅助信息的输入。做数据产品七八年了,埋点采集、数据可视化统计、精准营销平台、BI工具、数据资产与治理、大数据开发工具,数据全流程各个领域都有所涉及,把过往收集整理的数据产品信息汇总、分类整理分享给大家。按照从上层应用到底层数据开发的顺序,整理如下:
数据仓库的核心是展现层和提供优质的服务。ETL 及其规范、分层等所做的一切都是为了一个更清晰易用的展现层。
一、数字化转型面临的痛点问题 📷 1.指标口径不统一 产品部门和财务部门一起开会给老板汇报,APP下单用户数产品1021W,财务1000W,产品说我的数据是数据团队出的,财务说我的也是,那数据为什么不
这是继 精读《React Conf 2019 - Day1》 之后的第二篇,补充了 React Conf 2019 第二天的内容。
近几年负责数据产品团队,经历团队人员的变迁,进行过几百+简历的筛选,近百场社招、校招面试。金三银四的求职/招聘季接近尾声,想把自己招聘数据产品经理的过程进行总结,分享给想找数据产品经理工作的求职者。
数字化转型主要包括业务数字化、数据资产化、资产业务化、业务智能化几个阶段。在不同的阶段,分别需要哪些数据产品呢?今天就逐一盘点一下,希望可以为各位老板的数字化转型过程中数据产品规划提供参考,主要是以模块规划为主,产品详细的功能和实现逻辑,往期文章几乎都有逐一的分享。
通常来说,大数据开发的整体架构基本一样,都涉及到底层的数据平台架构、数据中间件的选择、数仓模型的建立、可视化展现,其中数据层面主要是数据的采集(埋点、业务数据)、数据处理(离线、实时)、数据治理(数据分层、数据字典、指标体系、数据监控、数据安全、数据数仓)、数据展现(BI、可视化)。
我们这里所说的数据仓库,是基于大数据体系的,里面包含标签类目,区别于传统的数据仓库。下面我们来将这张图分解,逐个做简要分析。
bi-designer 是阿里数据中台团队自研的前端搭建引擎,基于它开发了阿里内部最大的数据分析平台,以及阿里云上的 QuickBI。
例如:select user_id from usertable where mobile_no in (select mobile_no from mobile where mobile_id = '10086');
还是要先说一下范围:以数据库为主的程序,b/s结构。 查询嘛,对于我来说就是SQL语句 where 后面(group、order by 前面的)的内容,把这搞定了,查询也就搞定了。 查询的分类,借鉴运算符里的一个术语,我把查询分成了四类:单目查询、双目查询、多目查询、特殊查询。 一、单目查询: 1、col = 1; //数字类型的相等的查询 2、col = 'abc'; //字符串类型的相等的查询 3、col like '%abc%'; //字符串的模糊查询 4、col l
Power Query 可以在 Power BI 或 Excel 中使用,很多人一开始就在想到底用哪个平台来使用 Power Query,其实不必为此纠结,总有一天会意识到需要把查询复制到一个另一个中的。这有可能是将查询从一个 Excel 工作簿中复制到另一个 Excel 工作簿中,从 Excel 复制到 Power BI,或者从 Power BI 复制到 Excel。在本章中,将探讨将查询从一个工具快速移植到另一个工具的方法。请记住,虽然本书的重点是 Excel 和 Power BI,但这些步骤对于任何承载 Power Query 的工具来说几乎是相同的,即使它包含在其他微软产品或服务中。
原文在简书上发表,再同步到Excel催化剂微信公众号或其他平台上,文章后续有修改和更新将在简书上操作, 其他平台不作同步修改更新,因此建议阅读其他出处的文章时,尽可能跳转回简书平台上查看。 简书原文地址:https://www.jianshu.com/p/21b2ca8fd2b8
在任何一种数据库中,都会有各种各样的日志,记录着数据库工作的方方面面,以帮助数据库管理
举例:在业务系统需要从 MySQL 数据库里读取 100w 数据行进行处理,应该怎么做?
Quick BI(以下简称Qbi)做数据分析有5个模块:仪表板、电子表格、数据大屏、即席分析和自主取数。其中仪表板和即席分析比较接近于Power BI(以下简称Pbi)制作的报告。本文的比较对象,主要指Qbi的仪表板和Pbi的报告。
之前的一篇文章 《深入理解MySQL的MVCC原理》中总结了一下MySQL中的MVCC,它主要利用隐藏字段、版本链、ReadView来实现,可以用来更好地解决多个事务的并发【读+写】问题,但是如果在多个事务并发【写+写】的情况下,就必须要用到锁了,一般情况下,数据库的锁都是在有数据库操作的过程中自动添加的。
背景: 为了提高数据库效率,建索引是家常便饭;那么当查询条件为2个及以上时,我们是创建多个单列索引还是创建一个联合索引好呢?他们之间的区别是什么?哪个效率高呢?我在这里详细测试分析下。
这条语句 其中 select,as, count ,from where,in ,and,group up都是关键字,这条语句的意思是:bi_BillItem根据billid去bill表查满足这些条件的如果查到满足条件billid相等的就查询出bi_BillItem中的menuId,menuName,MenuPrice,(sum(AmountOrder)-sum(AmountCancel))字段 并且按 menuId和menuPrice排序
在实际工作中当指定查询数据过大时,我们一般使用分页查询的方式一页一页的将数据放到内存处理。但有些情况不需要分页的方式查询数据或分很大一页查询数据时,如果一下子将数据全部加载出来到内存中,很可能会发生OOM(内存溢出);而且查询会很慢,因为框架耗费大量的时间和内存去把数据库查询的结果封装成我们想要的对象(实体类)。
上篇文章我们说了,myISAM表和innoDB表的不同,myISAM吧用户记录数据放在数据文件,会给每行数据一个行号,myISAM会给主键生成索引,吧索引页放在索引文件。B+树的叶子节点存储的是主键+行号,意味着第一次通过主键查询只能查到行号,之后回表,通过行号查询数据文件整行数据。而innoDB的聚簇索引不需要二次查询。
作者 | Steef-Jan Wiggers 译者 | 明知山 策划 | 丁晓昀 最近,谷歌宣布 Bigtable 联邦查询普遍可用,用户通过 BigQuery 可以更快地查询 Bigtable 中的数据。此外,查询无需移动或复制所有谷歌云区域中的数据,增加了联邦查询并发性限制,从而缩小了运营数据和分析数据之间长期存在的差距。 BigQuery 是谷歌云的无服务器、多云数据仓库,通过将不同来源的数据汇集在一起来简化数据分析。Cloud Bigtable 是谷歌云的全托管 NoSQL 数据库,主要用
github地址: https://github.com/nql1314/sql-practises
领取专属 10元无门槛券
手把手带您无忧上云