发布

datartisan

专栏成员
162
文章
346639
阅读量
29
订阅数
DuckDB 复杂关联
现实工作中,有一些场景需要关联,然而却不能直接进行关联,因为关联键并不直接存在,只有经过处理后才可以进行关联,今天,我们通过一个例子来学习一下。
披头
2024-11-21
720
PowerBI 连续天数通用计算模型
业务过程中,经常遇到需要计算连续天数的场景,比如:连续打卡天数、连续评优的同学、连续下单的客户等。
披头
2024-11-21
700
DuckDB 正则这么玩
DuckDB 中的正则表达式,基本上遵循了正则表达式的一些通用的规则,比如元字符、转义序列等,但是也有自己的特色(方言),在某些方面可以更好的实现需求。
披头
2024-11-21
1430
Excel 正则 REGEXEXTRACT
Excel 于今年推出了一系列正则函数,给文本处理带来的极大的便捷性,今天咱们就来看看最常用的 REGEXEXTRACT 是怎么使用的。
披头
2024-11-21
2240
DuckDB 读取数据
读取数据是操作数据的第一步。本文将详细介绍如何使用 DuckDB 进行数据读取,包括各种文件格式数据的读取方法及其适用场景。
披头
2024-11-21
2260
1 分钟安装 DuckDB
DuckDB 的安装过程可以说非常简单,一般情况下,1 分钟即可搞定,与其他数据库几个小时的安装过程相比,简直不要太爽,今天咱们就来看看具体怎么安装。
披头
2024-11-21
3690
Why DuckDB
目前世面上已经存在很多种数据库管理系统,但没有一种可以适合所有场景。数据库管理系统的选取应该基于其应用场景及其实施成本。
披头
2024-11-21
1120
Vertica:如何计算下个月的第一天
今天在问题排查问题过程中,无意中搜索到了数据库领域泰斗级人物 Mike Stonebraker。
披头
2024-11-21
620
如何在 Power BI 中使用字段参数创建动态轴
在数据可视化的世界里,灵活性和交互性常常决定了报告的成功。Power BI 中的动态轴 提供了这一点——允许用户动态地从不同角度探索数据。这个特性增强了用户的参与度和洞察力的发现。今天,我将带你一步步地实现在 Power BI 中使用字段参数创建动态轴,包括测试数据。让我们深入到一个实际的例子中,了解一下如何将动态轴集成到报告中。
披头
2024-11-21
1240
SQL面试题003-行与行的比较
分别将近两个学期的得分情况构造为子查询,然后将两个子查询相关联( JOIN ),便可以对两次得分情况进行比较,这是一种比较简单的解题思路,具体的解题过程留给你思考。
披头
2024-04-24
830
SQL每日一题-Q001
复兴集团公司中有一份组织架构信息,包括部门信息及部分具有领导职务的雇员信息,详见下图示例:
披头
2024-01-10
2050
Atlas Hook 导入 Hive 元数据
Atlas 部署之后就可以导入 Hive 元数据,这部分工作由 Atlas 组件 Hook 来完成。初次导入 Hive 元数据需要通过执行 shell 脚本来完成,然后,Atlas 就可以自动同步增量元数据信息了。下面我介绍一下如何完成这些工作。
披头
2023-12-26
4180
无监督or有监督?
无监督数据挖掘算法和有监督数据挖掘算法的主要区别在于数据集的标签信息。 有监督数据挖掘算法: 1. 特点:有监督数据挖掘算法适用于已知数据集的输入和输出关系的情况。 2. 过程:算法通过已知的输入和输出数据,学习建立映射关系,然后用这个映射关系对新数据进行预测。 3. 例子:分类算法(如决策树、朴素贝叶斯、SVM 等)和回归算法(如线性回归、逻辑回归等)。 无监督数据挖掘算法: 1. 特点:无监督数据挖掘算法适用于没有标签信息的情况。算法的主要目标是发现数据内部的结构和规律,而不是建立输入和输出之间的映射关系。 2. 过程:无监督算法通过聚类、降维、关联规则挖掘等方法,对数据进行内部组织,从而找出数据之间的关联性或相似性。 3. 例子:聚类算法(如 K-Means、DBSCAN 等)、关联规则挖掘(如 Apriori、FP-growth 等)和降维算法(如 PCA、t-SNE 等)。 总结: 有监督数据挖掘算法关注于建立输入和输出之间的映射关系,用于预测未知数据的输出。而无监督数据挖掘算法关注于发现数据内部的结构和规律,用于挖掘数据之间的关联性或相似性。这两种算法在实际应用中可以根据具体问题和需求进行选择和组合,以达到更好的挖掘效果。
披头
2023-10-29
2810
Hive 删库跑路
“删库跑路”作为一种历史悠久、后果严重的公司资产损坏事故,一旦发生,后果难以估量,轻则业务短时间不可用,重则公司倒闭关门,甚至有人为此坐牢。已经发生的事件历历在目,希望大家引以为戒。
披头
2023-09-23
2540
Hive 性能优化
Hive 性能优化,可以从三个方面来考虑,即存储优化、执行过程优化和作业调度流程优化。
披头
2023-09-10
5550
利用 Canal 将 MySQL 数据实时同步至 Kafka 极简教程
笔者使用 Canal 将 MySQL 数据同步至 Kafka 时遇到了不少坑,还好最后终于成功了,这里分享一下极简教程,希望能帮到你。
披头
2023-09-10
2.2K0
BI和报表的区别,终于有人说清楚了!
其实这是相当错误的理解,但有这种错误观念也不怪大家,因为这两者都是大数据时代下的数据工具,两者的功能确实也有所重合,但两者在本质上还是存在较大差异。
披头
2023-08-17
4360
Linux 三板斧之:awk
awk 是 Linux 三板斧之一,是一种强大的文本解析和处理语言。它可以对文本文件进行复杂的模式匹配、条件测试、循环与算术运算等。awk 的基本语法是:
披头
2023-08-17
2500
Linux三板斧之:sed
sed 是 Linux三板斧之一,是一种非常强大的文本编辑器。它可以对文本文件进行添加、删除、替换、注释等操作。sed 的基本语法是:
披头
2023-08-17
1840
Linux 三板斧之一:grep
grep 是 Linux 三板斧之一,是一种强大的文本搜索工具。它可以快速搜索文件的内容,寻找包含某个字符串或正则表达式的文本行。grep 的基本语法是:
披头
2023-08-17
3060
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档