首页
学习
活动
专区
工具
TVP
发布

大数据成神之路

专注大数据领域的一切技术~
专栏作者
636
文章
1289573
阅读量
317
订阅数
Presto在字节跳动的内部实践与优化
在字节跳动内部,Presto 主要支撑了 Ad-hoc 查询、BI 可视化分析、近实时查询分析等场景,日查询量接近 100 万条。
王知无-import_bigdata
2022-06-05
1.4K0
Hudi小文件问题处理和生产调优个人笔记
Apache Hudi提供的一个关键特性是自我管理文件大小,这样用户就不需要担心手动维护表。
王知无-import_bigdata
2022-04-13
1.7K0
基于Hive数据仓库的标签画像实战
建立用户画像首先需要建立数据仓库,用于存储用户标签数据。Hive是基于Hadoop的数据仓库工具,依赖于HDFS存储数据,提供的SQL语言可以查询存储在HDFS中的数据。开发时一般使用Hive作为数据仓库,存储标签和用户特征库等相关数据。
王知无-import_bigdata
2021-11-30
9110
标签体系下的用户画像建设小指南
用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。通俗说就是给用户打标签,而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易理解的特征来描述用户,可以让人更容易理解用户,并且可以方便计算机处理。
王知无-import_bigdata
2021-07-12
3.7K0
Flume+Kafka双剑合璧玩转大数据平台日志采集
大数据平台每天会产生大量的日志,处理这些日志需要特定的日志系统。目前常用的开源日志系统有 Flume 和Kafka两种, 都是非常优秀的日志系统,且各有特点。下面我们来逐一认识一下。
王知无-import_bigdata
2020-11-06
1.7K0
从0建设离线数据仓库
技术升级快于我们的想象,今天的故事在明天来看就是一种常识。对于数仓而言,又何尝不是?互联网的发展,导致大数据的人才缺口。互联网公司雨后春笋,传统行业机巧转身。短短几年,数据行业已沧海桑田。今天谈大数据已不复当年雾里看花的景象,它像一列更高速的快车,和老前辈们一样,向自己的终点加速。
王知无-import_bigdata
2019-08-29
2.4K0
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档