首页
学习
活动
专区
工具
TVP
发布

数据仓库技术

专栏作者
55
文章
13977
阅读量
15
订阅数
三一重工大数据面试SQL-部门人员数据分析
现有一张员工在职所在部门信息表,包含员工ID、所属部门、开始日期、结束日期,请查询出如下内容
数据仓库晨曦
2024-04-30
600
字节快手大数据面试SQL-最高峰同时直播人数
有如下数据记录直播平台主播上播及下播时间,根据该数据计算出平台最高峰同时直播人数。
数据仓库晨曦
2024-04-30
660
大数据面试SQL048-泳池问题(下)
我们接着上两题继续讨论泳池问题,还是相同的数据。现有一份数据记录了用户进入和离开游泳池的时间,请计算出泳池内的平均人数
数据仓库晨曦
2024-04-11
470
大数据面试SQL047-泳池问题(中)
我们接着上一题大数据面试SQL046-泳池问题(上)继续讨论泳池问题。现有一份数据记录了用户进入和离开游泳池的时间,请找出一天中泳池最多人数持续时长,如有出现多次最高人数,对时间求和
数据仓库晨曦
2024-04-11
540
大数据面试SQL046-泳池问题(上)
这个题目是根据日志内容,计算时点状态数据,类似的还有根据日志计算直播间用户人数、游戏同时在线人数等。考察内容为累积求和及其使用技巧,属于知识面和经验的考察,如果知道则十分简单。
数据仓库晨曦
2024-04-11
810
数据仓库的核心概念
数据仓库晨曦
2024-03-25
920
大数据面试SQL045-每个用户每月访问次数占比及累积占比
接上一道题目大数据面试SQL044-统计每个用户累计访问次数我们再进一步探查sum()聚合函数使用over()开窗后有order by和没有order by的区别。
数据仓库晨曦
2024-03-25
800
大数据面试SQL044-统计每个用户累计访问次数
有如下用户访问数据t_visit_stat_044,包含用户ID(user_id),访问日期(visit_date),当天访问次数(visit_cnt)
数据仓库晨曦
2024-03-25
910
数据分析02-数据抽样
有数据表t_sample包含ID,type,val三个字段1~10000行数据,type为随机分配的1~3,val为0~1的随机数;其中根据ID进行分10个桶;
数据仓库晨曦
2024-03-07
1260
数据分析01-数据分箱
样例数据:我们创建一张hive表 t_box,包含两列(id,val), 其中id为1~1000,val 为随机数浮点数。
数据仓库晨曦
2024-03-06
1390
通过ollama+open webui可视化运行gemma
ollama是专为在Docker容器中部署LLM而设计的,简化了部署和管理流程,目前它支持的模型如下:
数据仓库晨曦
2024-03-06
4.9K0
GPT替代搜索引擎实践
从去年chat-gpt3.5发布后,就开始尝试使用了。那个时候大家都在担心gpt是否会替代人们的工作,于是我写了chatGPT能取代写SQL的工作吗? 当时结论是:我不认为未来几年内chatGPT或者其他LLM会直接替换掉数据开发人员的工作,仅仅是写SQL也不行。 chatGPT不能直接替换掉数据开发人员的工作,但是它却是一个十分强大的工具,可以数倍的提升工作效率,也就意味着当前一个团队的工作可能在未来只需要一个人就能完成,留下的应该是chatGPT玩得飞起的那个人吧。 经过一年多的时间,chat-GPT升级到了4.0,各种大模型层出不穷。我也尝试了不少的产品,现在主要使用的是kimichat,https://kimi.moonshot.cn/ 其大概替代掉了我日常30%~50%的搜索引擎场景。
数据仓库晨曦
2024-03-06
820
Hive基础知识07-求取中位数
中位数(Median)是描述一个数据集中心位置的统计量,它是将数据集从小到大排序后位于中间位置的数值。如果数据集中的元素数量是奇数,那么中位数就是正中间的那个数;如果是偶数,中位数则是中间两个数的平均值。
数据仓库晨曦
2024-03-06
3250
大数据面试SQL043-计算出完成订单数的众数
众数是描述数据集中趋势的一种方式,它特别适用于分类数据和顺序数据。在实际应用中,众数可以帮助我们了解数据的集中趋势,尤其是在数据分布不均匀时。
数据仓库晨曦
2024-02-28
1630
大数据面试SQL042-所有考试科目的成绩都大于对应学科的平均成绩的学生
2)查询出“所有”科目都大于平均成绩的学生,这里的所有比较难处理,有个技巧:对每个学生的每个科目满足“成绩>科目平均成绩”的记录打0,不满足的打1,然后对学生所有科目标签求和,和为0则满足“所有科目都大于平均成绩”,和>0则不满足;
数据仓库晨曦
2024-02-27
1200
大数据面试SQL035-用户行为路径分析
有一张用户操作行为记录表 t_act_log_035 包含用户ID(user_id),操作编号(op_id),操作时间(op_time)
数据仓库晨曦
2024-02-27
1302
大数据 面试 SQL 041 按照顺序进行行转列拼接
今天这个题目来自群里的小伙伴考我的:已知有表中含有两列数据id,val,数据内容如下,请按照id的大小将val进行拼接。
数据仓库晨曦
2024-01-08
1330
大数据 面试 SQL 040 计算次日留存率
现有用户登录记录表,已经按照用户日期进行去重处理。以用户登录的最早日期作为新增日期,请计算次日留存率是多少。
数据仓库晨曦
2024-01-08
1970
大数据面试SQL038 用户连续登录所有断点日期(二)
038题目发出后,群里很多朋友发出各种疑问,也给出了很多写法。大家的疑问主要有两个
数据仓库晨曦
2024-01-08
1642
大数据面试SQL 039 连续登录三天的记录
现有用户登录记录表,已经按照用户日期进行去重处理。请查询出用户所有连续三天登录的数据记录
数据仓库晨曦
2024-01-08
1550
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档