首页
学习
活动
专区
工具
TVP
发布

最新最全的大数据技术体系

专栏作者
717
文章
538290
阅读量
33
订阅数
Flink应用案例统计实现TopN的两种方式
窗口的计算处理,在实际应用中非常常见。对于一些比较复杂的需求,如果增量聚合函数 无法满足,我们就需要考虑使用窗口处理函数这样的“大招”了。 网站中一个非常经典的例子,就是实时统计一段时间内的热门 url。例如,需要统计最近 10 秒钟内最热门的两个 url 链接,并且每 5 秒钟更新一次。我们知道,这可以用一个滑动窗口 来实现,而“热门度”一般可以直接用访问量来表示。于是就需要开滑动窗口收集 url 的访问 数据,按照不同的 url 进行统计,而后汇总排序并最终输出前两名。这其实就是著名的“Top N” 问题。 很显然,简单的增量聚合可以得到 url 链接的访问量,但是后续的排序输出 Top N 就很难 实现了。所以接下来我们用窗口处理函数进行实现。
Maynor
2022-06-30
9280
Hive的基本知识(三)Hive中的函数大全
针对内置的函数,可以根据函数的应用类型进行归纳分类,比如:数值类型函数、日期类型函数、字符
Maynor
2022-05-08
1.6K0
大数据系列思考题
个人理解: hdfs启动流程 hdfs是Hadoop Distribute File System 的简称,即分布式文件系统,用于存储海量数据. hdfs的启动分为三步:1.启动Namenode;2.启动Datanode;3.启动Secondary Namenode; 详细说说: Secondary NameNode的工作流程:(为了方便Secondary NameNode以SN替代,NameNode)首先SN通知NN切换成edits文件; NN中的edits和fsimage通过http的方式传输到SN,并在SN中合并成新的fsimage.ckpt,之后传输回NN,并将旧的fsimage替换; NN中的edits生成新的edits文件并替换旧的edits
Maynor
2022-05-08
4230
Hive的基本知识(三)Hive中的函数大全
针对内置的函数,可以根据函数的应用类型进行归纳分类,比如:数值类型函数、日期类型函数、字符
Maynor
2021-12-07
1.3K0
大数据系列思考题----[持续更新]
个人理解: hdfs启动流程 hdfs是Hadoop Distribute File System 的简称,即分布式文件系统,用于存储海量数据. hdfs的启动分为三步:1.启动Namenode;2.启动Datanode;3.启动Secondary Namenode; 详细说说: Secondary NameNode的工作流程:(为了方便Secondary NameNode以SN替代,NameNode)首先SN通知NN切换成edits文件; NN中的edits和fsimage通过http的方式传输到SN,并在SN中合并成新的fsimage.ckpt,之后传输回NN,并将旧的fsimage替换; NN中的edits生成新的edits文件并替换旧的edits
Maynor
2021-04-09
6450
30分钟轻松搭建网站应用__LAMP安装命令
③在打开的配置文件界面,单击快捷键“shift+g”,进入配置文件最后一行。单击快捷键“i”进入编辑模式,移动光标至配置文件末尾,回车换行,拷贝粘贴以下配置代码。
Maynor
2021-04-09
3110
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档