首页
学习
活动
专区
工具
TVP
发布

大数据成神之路

专注大数据领域的一切技术~
专栏作者
635
文章
1277188
阅读量
315
订阅数
那些年我们一起优化的SQL
如果没有using index condtion,field1会走索引查询,匹配到对应的数据后,回表查出剩余字段信息,再去匹配。
王知无-import_bigdata
2022-06-05
5230
数据同步工具之FlinkCDC/Canal/Debezium对比
数据准实时复制(CDC)是目前行内实时数据需求大量使用的技术,随着国产化的需求,我们也逐步考虑基于开源产品进行准实时数据同步工具的相关开发,逐步实现对商业产品的替代。本文把市面上常见的几种开源产品,Canal、Debezium、Flink CDC 从原理和适用做了对比,供大家参考。
王知无-import_bigdata
2021-10-27
7.8K0
Flink从1.7到1.12版本升级汇总
最进再看官方flink提供的视频教程,发现入门版本因为时间关系都是基于1.7.x讲解的. 在实际操作中跟1.12.x版本还是有差距的, 所以整理一下从1.7 版本到1.12版本之间的相对大的变动. 做到在学习的过程中可以做到心里有数.
王知无-import_bigdata
2021-09-22
2.4K0
Flink CDC我吃定了耶稣也留不住他!| Flink CDC线上问题小盘点
如果你对Flink CDC 还没有什么概念,可以参考这里:Flink CDC 原理及生产实践。
王知无-import_bigdata
2021-07-30
2.3K0
Presto原理&调优&面试&实战全面升级版
很久之前,曾经写过一篇 《Presto在大数据领域的实践和探索》 。文中详细讲解了Presto的原理和应用。
王知无-import_bigdata
2021-07-12
2K0
硬刚Hive | 4万字基础调优面试小总结
Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行。
王知无-import_bigdata
2021-06-01
1.8K0
后起之秀 | MySQL Binlog增量同步工具go-mysql-transfer实现详解
工作需要研究了下阿里开源的MySQL Binlog增量订阅消费组件canal,其功能强大、运行稳定,但是有些方面不是太符合需求,主要有如下三点:
王知无-import_bigdata
2021-01-20
7.9K0
Flink CDC 原理及生产实践
MySQL CDC连接器允许从MySQL数据库读取快照数据和增量数据。本文档根据官网翻译了如何设置MySQL CDC连接器以对MySQL数据库运行SQL查询。
王知无-import_bigdata
2021-01-06
3.3K0
Flink实战 - Binlog日志并对接Kafka实战
对于 Flink 数据流的处理,一般都是去直接监控 xxx.log 日志的数据,至于如何实现关系型数据库数据的同步的话网上基本没啥多少可用性的文章,基于项目的需求,经过一段时间的研究终于还是弄出来了,写这篇文章主要是以中介的方式记录下来,也希望能帮助到在做关系型数据库的实时计算处理流的初学者。
王知无-import_bigdata
2021-01-06
1.6K0
MySQL和Lucene(Elasticsearch)索引对比分析
相比于大多数人熟悉的 MySQL 数据库的索引,Elasticsearch 的索引机制是完全不同于 MySQL 的 B+Tree 结构。索引会被压缩放入内存用于加速搜索过程,这一点在效率上是完爆 MySQL 数据库的。但是 Elasticsearch 会对全部 text 字段进行索引,必然会消耗巨大的内存,为此 Elasticsearch 针对索引进行了深度的优化。在保证执行效率的同时,尽量缩减内存空间的占用。这篇文章就深度解析了 Elasticsearch 索引原理,揭开搜索的神秘面纱。
王知无-import_bigdata
2020-12-18
1.1K0
MySQL数据库性能优化史诗级大总结
•超高的QPS(每秒钟处理的查询量)和TPS导致SQL处理效率下降。•大量的并发导致的数据库连接数被占满和超高的CPU占用率导致资源耗尽服务器宕机。•磁盘IO性能瓶颈导致数据传输效率下降,计划任务导致磁盘IO下降。•网卡IO性能瓶颈,要减少从服务器数量,缓存要分级,避免使用 select * 这样的查询。
王知无-import_bigdata
2020-12-18
1.4K0
MySQL 亿级数据导入导出/数据迁移笔记
数据迁移,工作原理和技术支持数据导出、BI报表之类的相似,差异较大的地方是导入和导出数据量区别,一般报表数据量不会超过几百万,而做数据迁移,如果是互联网企业经常会涉及到千万级、亿级以上的数据量。
王知无-import_bigdata
2020-12-08
2K0
MySQL千万大表优化实践
前段时间笔者遇到一个复杂的慢查询,今天有空便进行了整理,以便日后回顾。举一个相似的业务场景的例子。以文章评论为例,查询20191201~20191231日期间发表的经济科技类别的文章,同时需要显示这些文章的热评数目
王知无-import_bigdata
2020-09-25
1.8K0
MySQL慢查询优化 | 联结原理
前段时间笔者开发某个项目遇到了MySQL性能问题,每张表的数据量都在五千万以上,个别表数据量甚至在一个亿以上,在开发的过程中遇到了非常多的数据库性能优化难点,笔者在开发过程中查询了很多资料,很多查询语句也在优化过程中取得了比较好的效果。笔者也将开发过程中遇到的sql优化问题总结为文章,以便日后回顾。这篇文章主要讲解mysql执行联结运算的原理。为了避免泄露公司业务及数据,在文章中涉及的sql语句都和公司业务无关。
王知无-import_bigdata
2020-09-25
9920
Kafka运维小贴士 | Kafka 消息监控
笔者经常遇到一些无法优化的慢查询,面对这样的慢查询,笔者会将其进行预先计算存储到mongodb或者elasticsearch中。这个业务场景需要将mysql的binlog数据发送到kafka,然后订阅kafka并消费其中的binlog数据以实现实时加速查询。但是消费binlog就可能会有很多意外发生,比如mysql数据库发生死锁,或者消费发生并发问题,网络长时间阻塞,这些状况都会导致kafka消费发生阻塞,一旦发生阻塞,用户从mongodb或者elasticsearch中就会查询不到最新的mysql数据,所以笔者需要监控kafka中消息的消费情况,监控的方案有很多,笔者进行了整理,以便日后回顾。
王知无-import_bigdata
2020-09-25
2.2K0
循环查询数据的性能问题及优化
糟糕的代码,对代码维护、性能、团队协作都会造成负面影响,所以,先设计再实现,谋而后动。
王知无-import_bigdata
2020-06-06
3.2K0
创业公司数据仓库的建设
本文将重点探讨数据处理层中数据仓库的建设。早期的数据服务中存在不少问题,虽然在做运营Dashboard系统时,对后台数据服务进行了梳理,构建了数据处理的底层公共库等,但是仍然存在一些问题:
王知无-import_bigdata
2020-06-05
8060
来看看一个大二学生的Spark练习题
23. 总成绩大于150分,且数学大于等于70,且年龄大于等于19岁的学生的平均成绩是多少?
王知无-import_bigdata
2020-05-07
2.3K0
基于Canal和Kafka实现MySQL的Binlog近实时同步
近段时间,业务系统架构基本完备,数据层面的建设比较薄弱,因为笔者目前工作重心在于搭建一个小型的数据平台。优先级比较高的一个任务就是需要近实时同步业务系统的数据(包括保存、更新或者软删除)到一个另一个数据源,持久化之前需要清洗数据并且构建一个相对合理的便于后续业务数据统计、标签系统构建等扩展功能的数据模型。基于当前团队的资源和能力,优先调研了Alibaba开源中间件Canal的使用。
王知无-import_bigdata
2020-03-19
1.8K0
我来组成头部 - RDBMS和NoSQL的最佳组合TiDB
TiDB 是 PingCAP 公司设计的开源分布式 HTAP (Hybrid Transactional and Analytical Processing) 数据库,结合了传统的 RDBMS 和 NoSQL 的最佳特性。TiDB 兼容 MySQL,支持无限的水平扩展,具备强一致性和高可用性。TiDB 的目标是为 OLTP (Online Transactional Processing) 和 OLAP (Online Analytical Processing) 场景提供一站式的解决方案。
王知无-import_bigdata
2020-03-04
7280
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档