首页
学习
活动
专区
工具
TVP
发布

文渊之博

专栏作者
182
文章
304726
阅读量
38
订阅数
hivesql 累加计算
数据集有三列:userid,month,count,统计每个用户截止到当月为止的最大单月访问次数和累计到该月的总访问次数
用户1217611
2023-10-14
1760
hivesql 实现collect_list内排序
我正在尝试使用 collect_list 为每个 ID 生成事件列表。所以类似于以下内容:
用户1217611
2023-04-23
6940
常用spark优化参数
常用spark优化参数 强制使用spark engine set tqs.query.engine.type = sparkCli; set spark.yarn.priority = 4; 双写HDFS开启: set spark.shuffle.hdfs.enable=true; set spark.shuffle.io.maxRetries=1; set spark.shuffle.io.retryWait=0s; set spark.network.timeout=120s; ## 双写HDFS开启
用户1217611
2023-03-31
6290
clickhouse 实现同环比
背景 我们知道clickhouse一般都是处理单表的数据,经常需要实现同环比等分析场景,这里提供两种方式: 首先计算公式:
用户1217611
2023-03-31
9590
安装 Superset 和ClickHouse
如果想正确显示 mapbox 地图,需要注册mapbox[1],并在 superset 里配置 MAPBOX_API_KEY
用户1217611
2023-03-24
5400
因果推断
Judea Pearl是图灵奖得主,因果推断的奠基人之一。由于阅读的论文中涉及到反事实推断中Total Effect(TE), Natural Direct Effect(NDE), Total Indirect Effect(TIE)等概念,涉及到反事实推断方法的核心,因此前来拜读一下Pearl老爷子二十年前发表的这篇论文。
用户1217611
2023-03-19
3900
windows部署superset
解决的问题 在WIN10环境下,安装并正常运行Superset 建议使用Python虚拟环境,减少库依赖冲突 不需要安装VC啦! 注意 本教程安装的版本是1.5 Superset在2022年7月发布了2.0的大版本更新 如python的版本要求变为3.9+,同时增加了更多的库依赖等 以下教程未为对2.0版本进行完整更新,现阶段1.5版本的安装仍有一定的通用性,可跳跃性浏览 通常出现问题的地方在于包依赖,是安装Superset时对方的requirement没有指定依赖库版本号的坑,暂未有更好的应对策略 考虑重
用户1217611
2023-03-19
1.6K0
DBeaver 导入csv到myql发现的时间问题
最近工作使用了一段时间的的数据库客户端 DBeaver,发现客户端显示时间不正确。时间保存之后发现日期经常自动-1。
用户1217611
2023-03-07
9630
hive 的order by ,sort by,distribute by,cluster by
order by会对输入做全局排序,因此只有一个Reducer(多个Reducer无法保证全局有序),然而只有一个Reducer,会导致当输入规模较大时,消耗较长的计算时间,在生产环境中遇到数据量较大的情况,一般无法成功。
用户1217611
2023-03-06
4300
K-means分箱
各行各业的打工人,经常会面对一种令人尴尬的质疑:为什么你把15-25归为一类,10-20不行吗?13-23不行吗?
用户1217611
2023-03-06
6860
hive自增ID
自增列的生成 over()里不带排序或order by 1是一样的效果 select row_number() over() as id,a1.id,relationwords,relation_words from ods.ods_wpt_management_search_relation_words_full_1d a1 lateral view explode(split(relationwords,';')) relationwords as relation_words where dt='20
用户1217611
2023-03-06
2.1K0
hivesql和prestosql对比
  最近很多时候需要将hivesql转化为prestosql ,这里面有很多不能直接复用需要调整func甚至改用其他逻辑。
用户1217611
2023-03-06
7120
Doris rollup介绍
由于Unique是Aggregate中的一种特殊的形式且底层也是使用Aggregate中的替换函数实现的,所以这里只看Aggregate模型。
用户1217611
2022-10-04
6310
HBase常用的Filter总结
简介:         根据技术调研的过程可以明显的体会到hbase的存储方式和数据库的存储有着明显的区别,查询的方式也有着很大不同,HBase主要是通过这种filter来对数据进行筛选。同时对于数据的体量较大(10亿级别以上的数据数据量),检索和修改的场景较多时是比较适合使用hbase。      HBase过滤器可以根据分为:列簇与列类型过滤器,行键过滤器,其他过滤器 HBase Filter 概览 查询hbase支持的filter 列表
用户1217611
2022-07-29
1K0
数据库角色
为了帮助管理数据库级别的安全性,SQL Server具有数据库角色。就像服务器角色一样,也有两种不同类型的数据库角色:固定的和用户定义的。固定的数据库角色就像固定的服务器角色一样,这意味着它们拥有一组特定的权限,这些权限不能被更改。
用户1217611
2022-05-06
7250
什么是基于角色的安全?
安全角色可以简化SQL Server中的权限。在本文中,解释了固定的服务器和数据库角色
用户1217611
2022-05-06
1.2K0
利用powershell 生成sqlserver 对象脚本
首先,创建一个server 对象实例,然后连接它。我只需要引入Script() 方法,脚本如下:
用户1217611
2022-05-06
8410
如何利用powershell 访问sqlserver
你是否需要连接数据库?这里有一段代码演示如何查询和获取SQL数据,只需非常简单正确的配置你的账户信息、服务器地址及SQL语句就行:
用户1217611
2022-05-06
6790
介绍一种使用poweshell 监控的方式
本篇将使用PowerShell脚本对SQL Server 的关键指标进行监控. 以下,用数据库空间容量为例,实现一下逻辑: 一、建表 为每台服务器创建一个表,用于记录服务器各个数据库的容量,以服务器名作为表名。
用户1217611
2022-05-06
2820
mysql8.0的5个新特性介绍
你可能已经知道 MySQL 从版本 5.7 开始提供了 NoSQL 存储的功能,在 8.0 中这部分功能也得到了一些改进(MySQL 5.7 vs 8.0,哪个性能更牛?),但鉴于这个在实际当中用得极少,本人也是没用过,所以本文不会介绍这方面的东西,而是关注其关系数据库方面。
用户1217611
2022-05-06
7390
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档