首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

你不知道的开源分布式存储系统 Alluxio 源码完整解析(上篇)

PART ONE 前言 目前数据湖已成为大数据领域的最新热门话题之一,而什么是数据湖,每家数据平台和云厂商都有自己的解读。整体来看,数据湖主要的能力优势是:集中式存储原始的、海量的、多来源的、多类型的数据,支持数据的快速加工及计算。相比于传统的数据仓库,数据湖对数据有更大的包容性,支持结构化/半结构化/非结构化数据,能快速进行数据的落地和数据价值发掘。数据湖的技术体系可以分为三个子领域:数据湖存储、数据湖计算、数据湖统一元数据。 数据湖存储提供海量异构数据的存储能力,支持多类型的底层存储系统,如分

06

【唯实践】基于Alluxio优化电商平台热点数据访问性能

在互联网电商平台上,广告是提升成交总额(Gross Merchandise Volume)和拉取新客的常见途经。在广告系统或广告运营中都需要基于人群数据分析进行定向的用户广告投放。在第三方平台进行广告投放,同样需要使用人群数据分析计算。根据计算分析方的不同,可以分为两类,第一类是基础数据全部发送给第三方广告平台,如抖音,腾讯等,由第三方在投放人群时候进行人群计算并作选择;第二类是人群计算工作在电商平台内部完成,推送给第三方的只是单个的人群包数据(设备数据)。在唯品会,我们目前采用第二类方式进行人群计算投放。我们每天需要完成数万的人群包计算,这些计算都是基于几张位于HDFS的之上的Hive 表完成,这些表每天通常都需要被访问上万次。

01
领券