腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
大数据成神之路
专注大数据领域的一切技术~
专栏成员
举报
638
文章
1404213
阅读量
322
订阅数
订阅专栏
申请加入专栏
全部文章(638)
大数据(273)
sql(163)
数据库(129)
kafka(105)
spark(100)
flink(91)
编程算法(83)
apache(72)
存储(60)
hive(59)
java(52)
node.js(52)
api(52)
数据(46)
hadoop(41)
文件存储(39)
缓存(39)
hbase(36)
云数据库 SQL Server(35)
TDSQL MySQL 版(33)
数据处理(31)
分布式(29)
数据结构(28)
scala(25)
云数据库 Redis(24)
mapreduce(24)
数据分析(21)
javascript(19)
linux(19)
yarn(18)
https(18)
python(17)
网络安全(17)
unix(16)
jvm(16)
windows(16)
zookeeper(14)
开发(14)
打包(13)
消息队列 CMQ 版(13)
批量计算(12)
http(12)
数据湖(12)
bash(11)
面试(11)
数据迁移(10)
云计算(10)
xml(9)
企业(9)
数据安全(9)
Elasticsearch Service(9)
框架(9)
bash 指令(8)
腾讯云测试服务(8)
面向对象编程(8)
架构(8)
优化(8)
jar(7)
运维(7)
processing(7)
机器学习(6)
json(6)
日志数据(6)
开源(6)
hashmap(6)
tcp/ip(6)
rabbitmq(6)
数据可视化(6)
微服务(6)
html(5)
神经网络(5)
深度学习(5)
压力测试(5)
jdbc(5)
rpc(5)
nosql(4)
spring(4)
网站(4)
express(4)
sql server(4)
nest(4)
任务调度(4)
es(4)
数据集成(4)
工具(4)
配置(4)
设计(4)
数据管理(4)
系统(4)
性能(4)
oracle(3)
github(3)
maven(3)
人工智能(3)
vr 视频解决方案(3)
electron(3)
容器(3)
shell(3)
socket编程(3)
kerberos(3)
性能测试(3)
实时数仓(3)
测试(3)
工作(3)
行业(3)
集群(3)
模型(3)
内存(3)
实践(3)
索引(3)
原理(3)
对象存储(2)
官方文档(2)
数据挖掘(2)
css(2)
ajax(2)
android(2)
ide(2)
lucene/solr(2)
nginx(2)
容器镜像服务(2)
海外加速(2)
mongodb(2)
rollup.js(2)
kubernetes(2)
uml(2)
架构设计(2)
5g(2)
迁移(2)
clickhouse(2)
报表(2)
产品(2)
磁盘(2)
函数(2)
后端(2)
基础(2)
监控(2)
解决方案(2)
排序(2)
事件(2)
异常(2)
最佳实践(2)
负载均衡(1)
自动驾驶(1)
ios(1)
iphone(1)
php(1)
go(1)
lua(1)
erlang(1)
regex(1)
react(1)
typescript(1)
postgresql(1)
flask(1)
sqlalchemy(1)
git(1)
搜索引擎(1)
负载均衡缓存(1)
专用宿主机(1)
云数据迁移(1)
日志服务(1)
腾讯云可观测平台(1)
命令行工具(1)
云数据库 MongoDB(1)
es 2(1)
图像处理(1)
数据备份(1)
电商(1)
出行(1)
serverless(1)
游戏(1)
无人驾驶(1)
jdk(1)
推荐系统(1)
markdown(1)
zabbix(1)
微信(1)
机器人(1)
物联网(1)
系统架构(1)
腾讯云开发者社区(1)
安全治理(1)
raft(1)
实时监控(1)
数据库管理(1)
流计算 Oceanus(1)
大数据存储(1)
汽车(1)
腾讯云(1)
bi(1)
bigdata(1)
block(1)
class(1)
code(1)
combine(1)
configuration(1)
csv(1)
data(1)
dp(1)
export(1)
fifo(1)
hash(1)
import(1)
ip(1)
key(1)
memory(1)
mysql(1)
netty(1)
populate(1)
properties(1)
pulsar(1)
queue(1)
rank(1)
root(1)
scheduler(1)
select(1)
state(1)
sum(1)
table(1)
task(1)
time(1)
vi(1)
window(1)
报表工具(1)
登录(1)
队列(1)
服务(1)
高性能(1)
管理(1)
规范化(1)
架构师(1)
接口(1)
连接(1)
日志(1)
入门(1)
实时计算(1)
数据采集(1)
数据同步(1)
算法(1)
微信公众号(1)
线程(1)
效率(1)
协议(1)
研发(1)
语法(1)
中间件(1)
字符串(1)
搜索文章
搜索
搜索
关闭
Presto在字节跳动的内部实践与优化
hive
数据分析
日志数据
大数据
sql
在字节跳动内部,Presto 主要支撑了 Ad-hoc 查询、BI 可视化分析、近实时查询分析等场景,日查询量接近 100 万条。
王知无-import_bigdata
2022-06-05
1.5K
0
Hudi小文件问题处理和生产调优个人笔记
sql
spark
javascript
日志数据
Apache Hudi提供的一个关键特性是自我管理文件大小,这样用户就不需要担心手动维护表。
王知无-import_bigdata
2022-04-13
1.8K
0
基于Hive数据仓库的标签画像实战
数据库
日志数据
sql
hive
存储
建立用户画像首先需要建立数据仓库,用于存储用户标签数据。Hive是基于Hadoop的数据仓库工具,依赖于HDFS存储数据,提供的SQL语言可以查询存储在HDFS中的数据。开发时一般使用Hive作为数据仓库,存储标签和用户特征库等相关数据。
王知无-import_bigdata
2021-11-30
964
0
标签体系下的用户画像建设小指南
数据挖掘
数据库
日志数据
数据可视化
sql
用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。通俗说就是给用户打标签,而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易理解的特征来描述用户,可以让人更容易理解用户,并且可以方便计算机处理。
王知无-import_bigdata
2021-07-12
4.1K
0
Flume+Kafka双剑合璧玩转大数据平台日志采集
kafka
大数据
编程算法
缓存
日志数据
大数据平台每天会产生大量的日志,处理这些日志需要特定的日志系统。目前常用的开源日志系统有 Flume 和Kafka两种, 都是非常优秀的日志系统,且各有特点。下面我们来逐一认识一下。
王知无-import_bigdata
2020-11-06
1.8K
0
从0建设离线数据仓库
uml
数据库
日志数据
大数据
数据处理
技术升级快于我们的想象,今天的故事在明天来看就是一种常识。对于数仓而言,又何尝不是?互联网的发展,导致大数据的人才缺口。互联网公司雨后春笋,传统行业机巧转身。短短几年,数据行业已沧海桑田。今天谈大数据已不复当年雾里看花的景象,它像一列更高速的快车,和老前辈们一样,向自己的终点加速。
王知无-import_bigdata
2019-08-29
2.4K
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档