源哥的专栏-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

源哥的专栏

专栏成员

93

文章

128376

阅读量

11

订阅数

Flink 任务远程调用Dubbo接口

大数据 flink dubbo spring 分布式

在大数据中，Flink任务一般都不是基于Spring框架和Dubbo框架的，但很多业务系统采用Dubbo架构，当需要调用业务系统的接口获取数据时，就出现Flink调用Dubbo的情况了。

2021-09-10

1.4K0

HBase填坑记1：报错WAL system stuck

大数据 hbase TDSQL MySQL 版存储迁移

出现这种异常，基本可以确定是HDFS不可读写了，一般情况下是IO被打满，或者HDFS存储被打满。

2021-01-04

8110

Kettle（PDI）的坑，有点大

大数据 linux mongodb 云数据库 MongoDB 数据库

网络上有不少Kettle的文章，但实际上都大同小异，都是些非常基础的文章，实际上在使用过程中还有遇到不少的坑，这部分在网上资料比较少，这里主要讲一下我们在使用过程中遇到的各种问题，属于难得的实践经验。

2020-06-07

8.2K1

oracle中如何删除重复数据

oracle 大数据数据库

我们可能会出现这种情况，某个表原来设计不周全，导致表里面的数据数据重复，那么，如何对重复的数据进行删除呢？重复的数据可能有这样两种情况，第一种时表中只有某些字段一样，第二种是两行记录完全一样。一、对于部分字段重复数据的删除先来谈谈如何查询重复的数据吧。下面语句可以查询出那些数据是重复的： select 字段1,字段2,count(*) from 表名 group by 字段1,字段2 having count(*) > 1 将上面的>号改为=号就可以查询出没有重复的数据了。想要删除这些重复的数据，可以使用下面语句进行删除 delete from 表名 a where 字段1,字段2 in (select 字段1,字段2,count(*) from 表名 group by 字段1,字段2 having count(*) > 1) 上面的语句非常简单，就是将查询到的数据删除掉。不过这种删除执行的效率非常低，对于大数据量来说，可能会将数据库吊死。所以我建议先将查询到的重复的数据插入到一个临时表中，然后对进行删除，这样，执行删除的时候就不用再进行一次查询了。如下： CREATE TABLE 临时表 AS (select 字段1,字段2,count(*) from 表名 group by 字段1,字段2 having count(*) > 1) 上面这句话就是建立了临时表，并将查询到的数据插入其中。下面就可以进行这样的删除操作了： delete from 表名 a where 字段1,字段2 in (select 字段1，字段2 from 临时表); 这种先建临时表再进行删除的操作要比直接用一条语句进行删除要高效得多。这个时候，大家可能会跳出来说，什么？你叫我们执行这种语句，那不是把所有重复的全都删除吗？而我们想保留重复数据中最新的一条记录啊！大家不要急，下面我就讲一下如何进行这种操作。在oracle中，有个隐藏了自动rowid，里面给每条记录一个唯一的rowid，我们如果想保留最新的一条记录，我们就可以利用这个字段，保留重复数据中rowid最大的一条记录就可以了。下面是查询重复数据的一个例子： select a.rowid,a.* from 表名 a where a.rowid != ( select max(b.rowid) from 表名 b where a.字段1 = b.字段1 and a.字段2 = b.字段2 ) 下面我就来讲解一下，上面括号中的语句是查询出重复数据中rowid最大的一条记录。而外面就是查询出除了rowid最大之外的其他重复的数据了。由此，我们要删除重复数据，只保留最新的一条数据，就可以这样写了： delete from 表名 a where a.rowid != ( select max(b.rowid) from 表名 b where a.字段1 = b.字段1 and a.字段2 = b.字段2 ) 随便说一下，上面语句的执行效率是很低的，可以考虑建立临时表，讲需要判断重复的字段、rowid插入临时表中，然后删除的时候在进行比较。 create table 临时表 as select a.字段1,a.字段2,MAX(a.ROWID) dataid from 正式表 a GROUP BY a.字段1,a.字段2; delete from 表名 a where a.rowid != ( select b.dataid from 临时表 b where a.字段1 = b.字段1 and a.字段2 = b.字段2 ); commit; 二、对于完全重复记录的删除对于表中两行记录完全一样的情况，可以用下面语句获取到去掉重复数据后的记录： select distinct * from 表名可以将查询的记录放到临时表中，然后再将原来的表记录删除，最后将临时表的数据导回原来的表中。如下： CREATE TABLE 临时表 AS (select distinct * from 表名); truncate table 正式表; --注：原先由于笔误写成了drop table 正式表;，现在已经改正过来 insert into 正式表 (select * from 临时表); drop table 临时表;

2018-08-28

2.4K0

拥抱大数据

大数据存储

马云：大家还没搞清PC时代的时候，移动互联网来了，还没搞清移动互联网的时候，大数据时代来了。

2018-08-28

4540

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态