首页
学习
活动
专区
工具
TVP
发布

datartisan

专栏作者
153
文章
299836
阅读量
29
订阅数
SQL面试题003-行与行的比较
分别将近两个学期的得分情况构造为子查询,然后将两个子查询相关联( JOIN ),便可以对两次得分情况进行比较,这是一种比较简单的解题思路,具体的解题过程留给你思考。
披头
2024-04-24
320
SQL每日一题-Q001
复兴集团公司中有一份组织架构信息,包括部门信息及部分具有领导职务的雇员信息,详见下图示例:
披头
2024-01-10
1690
Atlas Hook 导入 Hive 元数据
Atlas 部署之后就可以导入 Hive 元数据,这部分工作由 Atlas 组件 Hook 来完成。初次导入 Hive 元数据需要通过执行 shell 脚本来完成,然后,Atlas 就可以自动同步增量元数据信息了。下面我介绍一下如何完成这些工作。
披头
2023-12-26
2160
无监督or有监督?
无监督数据挖掘算法和有监督数据挖掘算法的主要区别在于数据集的标签信息。 有监督数据挖掘算法: 1. 特点:有监督数据挖掘算法适用于已知数据集的输入和输出关系的情况。 2. 过程:算法通过已知的输入和输出数据,学习建立映射关系,然后用这个映射关系对新数据进行预测。 3. 例子:分类算法(如决策树、朴素贝叶斯、SVM 等)和回归算法(如线性回归、逻辑回归等)。 无监督数据挖掘算法: 1. 特点:无监督数据挖掘算法适用于没有标签信息的情况。算法的主要目标是发现数据内部的结构和规律,而不是建立输入和输出之间的映射关系。 2. 过程:无监督算法通过聚类、降维、关联规则挖掘等方法,对数据进行内部组织,从而找出数据之间的关联性或相似性。 3. 例子:聚类算法(如 K-Means、DBSCAN 等)、关联规则挖掘(如 Apriori、FP-growth 等)和降维算法(如 PCA、t-SNE 等)。 总结: 有监督数据挖掘算法关注于建立输入和输出之间的映射关系,用于预测未知数据的输出。而无监督数据挖掘算法关注于发现数据内部的结构和规律,用于挖掘数据之间的关联性或相似性。这两种算法在实际应用中可以根据具体问题和需求进行选择和组合,以达到更好的挖掘效果。
披头
2023-10-29
1310
Hive 删库跑路
“删库跑路”作为一种历史悠久、后果严重的公司资产损坏事故,一旦发生,后果难以估量,轻则业务短时间不可用,重则公司倒闭关门,甚至有人为此坐牢。已经发生的事件历历在目,希望大家引以为戒。
披头
2023-09-23
1740
Hive 性能优化
Hive 性能优化,可以从三个方面来考虑,即存储优化、执行过程优化和作业调度流程优化。
披头
2023-09-10
3540
利用 Canal 将 MySQL 数据实时同步至 Kafka 极简教程
笔者使用 Canal 将 MySQL 数据同步至 Kafka 时遇到了不少坑,还好最后终于成功了,这里分享一下极简教程,希望能帮到你。
披头
2023-09-10
8100
BI和报表的区别,终于有人说清楚了!
其实这是相当错误的理解,但有这种错误观念也不怪大家,因为这两者都是大数据时代下的数据工具,两者的功能确实也有所重合,但两者在本质上还是存在较大差异。
披头
2023-08-17
3200
Linux 三板斧之:awk
awk 是 Linux 三板斧之一,是一种强大的文本解析和处理语言。它可以对文本文件进行复杂的模式匹配、条件测试、循环与算术运算等。awk 的基本语法是:
披头
2023-08-17
2030
Linux三板斧之:sed
sed 是 Linux三板斧之一,是一种非常强大的文本编辑器。它可以对文本文件进行添加、删除、替换、注释等操作。sed 的基本语法是:
披头
2023-08-17
1270
Linux 三板斧之一:grep
grep 是 Linux 三板斧之一,是一种强大的文本搜索工具。它可以快速搜索文件的内容,寻找包含某个字符串或正则表达式的文本行。grep 的基本语法是:
披头
2023-08-17
2080
Hive 如何修改分区列?
Hive 分区就是将数据按照数据表的某列或者某几列分为多个区域进行存储,这里的区域是指 hdfs 上的文件夹。按照某几列进行分区,就是说按照某列分区后的数据,继续按照不同的分区列进行分区。创建分区后,指定分区值即可直接查询该分区的数据,能够有效提高查询性能。
披头
2022-12-19
2.1K0
PAD流程定时启动的三种方式
PAD 流程可应用于自动化办公场景,个人账户无法定时启动是其一大限制,这应该跟微软的销售策略有关,毕竟放开了这个口子,微软可能会损失一大笔订单。虽然但是,微软并没有完全关闭个人体验高阶功能的通道,个人体验高阶功能的渠道就是申请微软 E5 开发者账户,详情可参考如下两篇文章申请微软 E5 开发者账户。
披头
2022-12-19
1.4K0
PAD 操控 pbi-tools 玩转 PBI 文件
昨天看到焦老师发的 pbi-utils 文章(pbi-utils 使用文档),给人眼前一亮的感觉,通过体验其各项功能,发现该工具非常有助于快速开发 PBI 项目,强烈推荐。另外,还了解到了 pbi-tools 工具,该工具能实现模型与数据的解耦,感觉很精妙,好像命中了脑海中曾经的梦幻,没想到真有这种工具,我便迫不及待的学习了一番。
披头
2022-12-19
3590
搞定了!Power Automate云端调用PAD
自从学习 PAD 以来,一直想通过 Power Automate 云端来调用 Power Automate Desktop (PAD),碍于其高级许可证的限制,好久都没搞定。
披头
2022-12-19
7580
看完这篇,还不会pandas时间数据处理,请你吃瓜
pandas 可以说是 python 中数据处理的中流砥柱,不会点 pandas ,你都不敢说自己了解 python。pandas 是数据处理神器,时间数据处理自然也是不在话下,今天咱们就来聊一聊 pandas 处理时间数据的应用。
披头
2022-12-19
1.7K0
微软官方PPT插件,海量优质模板免费用
汇集工作总结/述职报告/学术答辩/营销策划/岗位竞聘等多样化模板,随拿随用,卓越助力,帮你从容应对职场挑战,成为职场 MVP。
披头
2022-12-19
1.2K0
hive beeline基本命令详解
Beeline 是一个 Hive 客户端,使用 JDBC 连接到 HiveServer2,是集群上的服务。可以在集群上执行 Beeline 命令获取查询结果,而无需进入 hive 数据库。使用 beeline 命令时,需要首先启动 metastore 元数据服务和 hiveserver2 服务,其应用场景广泛,比如:优化查询结果展示效果、告警监控、查询结果导出等。
披头
2022-12-19
7.2K0
ssh: connect to host localhost port 22: Connection refused
百度搜索了好多文章都没能搞定,最后还是通过 bing 搜索(国际版) 搞定的,这里分享一下解决方案。
披头
2022-08-22
1.1K0
Python办公自动化 | word 文本转 excel
近日有工作上的需求,需要梳理数据元目录中的多个数据项,数据项条目可能达到1000多个,可以说这个工作量非常巨大,源文件是 word 版本的,无法进行筛选和标记(即使用颜色或者字体去标记之后,每次也需要肉眼去看某一项到底有没有梳理过),如果是 excel 版本就不一样了,已梳理和未梳理的可以很简单的完成分类,并且和其他文件进行比对,用以核实是否已经梳理过。
披头
2022-08-22
9960
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档