首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

在 CDP中使用Iceberg 为数据湖仓增压

我们很高兴地宣布在 Cloudera 数据平台 (CDP) 中全面推出 Apache Iceberg。Iceberg 是 100% 开放的表格格式,由Apache Software Foundation开发,帮助用户避免供应商锁定。今天的一般可用性公告涵盖了在 Cloudera 数据平台 (CDP) 中的关键数据服务中运行的 Iceberg,包括Cloudera 数据仓库 ( CDW )、Cloudera 数据工程 ( CDE ) 和 Cloudera 机器学习 ( CML ))。这些工具使分析师和数据科学家能够通过他们选择的工具和分析引擎轻松地就相同的数据进行协作。作为 CDP 的一部分,公司无需付出任何努力即可获得 Iceberg 的好处。不再有锁定、不必要的数据转换或跨工具和云的数据移动,只是为了从数据中提取洞察力。

01

数据分析:在缓慢变化中寻找跳变——基于缓慢变化维度的用户分群

引导语 数据分析中,我们常常有下面几种分群方式 基础属性类:年龄、性别、城市、学历、用于首次来源 ·  特点:基本是不变化的,虽然年龄、城市等也会发生变化,但本质上我们是将其作为一个用户固定属性进行分析 ·  优势:用户属性稳定,分群永远不变化 · 劣势:是维度有限,很多分析维度很难找到固定属性 图:某业务用户数分年龄段曲线(来自腾讯灯塔截图) 动态属性类:当天启动方式、当日拉活渠道、新老用户、当日播放视频数、当日是否领取红包 · 特点:基本上是基于用户当天的一些行为或状态数据,例如启动方式,每天

02

Data Warehouse in Cloud

数据,对一个企业的重要性不言而喻。如何利用好企业内部数据,发挥数据的更大价值,对于企业管理者而言尤为重要。作为最传统的数据应用之一,数据仓库在企业内部扮演着重要的角色。构建并正确配置好数据仓库,对于数据分析工作至关重要。一个设计良好的数据仓库,可以让数据分析师们如鱼得水;否则是可能使企业陷入无休止的问题之后,并在未来的企业竞争中处于劣势。随着越来越多的基础设施往云端迁移,那么数据仓库是否也需要上云?上云后能解决常见的性能、成本、易用性、弹性等诸多问题嘛?如果考虑上云,都需要注意哪些方面?目前主流云厂商产品又有何特点呢?面对上述问题,本文尝试给出一些答案,供各位参考。本文部分内容参考了MIT大学教授David J.DeWitt的演讲材料。

04

下一个风口-基于数据湖架构下的数据治理

随着大数据、人工智能、云计算、物联网等数字化技术的普及和广泛应用,传统的数据仓库模式,在快速发展的企业面前已然显的力不从心。数据湖,是可以容纳大量的原始数据的存储库和处理系统,已经成为企业应用大数据的重要工具。数据湖可以更好地支撑数据预测分析、跨领域分析、主动分析、实时分析以及多元化结构化数据分析,可以加速从数据到价值的过程,打造相应业务能力。而有效的数据治理才是数据资产形成的必要条件,同时数据治理是一个持续性过程,也是数据湖逐步实现数据价值的过程。未来在多方技术趋于融合,落地场景将不断创新,数据湖、数据治理或将成为新的技术热点。

05
领券