首页
学习
活动
专区
工具
TVP
发布

最新最全的大数据技术体系

专栏作者
717
文章
545126
阅读量
35
订阅数
刚刚,体验了一把Bing chat很爽
在周三微软发布了结合chatGpt的搜索引擎,我第一时间申请了加入waitlist,终于成为使用上Bing chat的首批全球用户,申请流程可以看我当时发表的博客:
Maynor
2023-02-17
2.3K0
学了1年大数据,来测测你大数据技术掌握程度?大数据综合复习之面试题15问(思维导图+问答库)
时隔一年,终于把主流的大数据组件全部学完了,学成之时,便是出师之日, 那为师便来考考你学的如何:
Maynor
2021-12-30
3350
【推荐系统】离线增量文章画像计算(二)
第一次:所有更新,后面增量每天的数据更新26日:1:002:00,2:003:00,左闭右开,一个小时更新一次
Maynor
2021-12-07
6110
【推荐系统】推荐业务架构介绍(一)
在头条APP海量用户与海量文章之上,使用lambda大数据实时和离线计算整体架构,利用黑马头条用户在APP上的点击行为、浏览行为、收藏行为等建立用户与文章之间的画像关系,通过机器学习推荐算法进行智能推荐
Maynor
2021-12-07
9240
大数据开发岗大厂面试30天冲刺 - 日积月累,每日五题【Day03】——Kafka1
消息队列就是用于当两个系统之间或者两个模块之间实现消息传递时,基于队列机制实现数据缓存的中间件
Maynor
2021-12-07
1920
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day09】——Hbase3
•Region划分规则:范围划分,一张表可以在Rowkey行的方向上划分多个Region,每个Region构成一段连续的区间 •数据划分规则:根据Rowkey属于哪个Region的范围,就将这条数据写入哪个Region分区中
Maynor
2021-12-07
1720
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day19】——Spark6
rdd分布式弹性数据集,简单的理解成一种数据结构,是spark框架上的通用货币。 所有算子都是基于rdd来执行的,不同的场景会有不同的rdd实现类, 但是都可以进行互相转换。rdd执行过程中会形成dag图,然后形成lineage保证容错性等。从物理的角度来看rdd存储的是block和node之间的映射。 1)粗粒度:启动时就分配好资源, 程序启动,后续具体使用就使用分配好的资源,不需要再分配资源;优点:作业特别多时,资源复用率高,适合粗粒度;缺点:容易资源浪费,假如一个job有1000个task,完成了999个,还有一个没完成,那么使用粗粒度,999个资源就会闲置在那里,资源浪费。 2)细粒度分配:用资源的时候分配,用完了就立即回收资源,启动会麻烦一点,启动一次分配一次,会比较麻烦。
Maynor
2021-12-07
1790
[新星计划]大数据组件的默认端口号思维导图
本文是假如大数据组件中的动物都变成神奇宝贝,那会变成什么样?的姊妹篇 大数据组件的默认端口号思维导图,后期将会结合记忆法出一篇记忆端口号的文章。
Maynor
2021-06-22
4720
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档