首页
学习
活动
专区
工具
TVP
发布

SmartSi

专栏作者
270
文章
583737
阅读量
53
订阅数
Apache SeaTunnel 分布式数据集成平台
随着互联网流量爆发式增长,越来越多的公司业务需要支撑海量数据存储,对高并发、高可用、高可扩展性等特性提出了更高的要求,这促使各种类型的数据库快速发展,至今常见数据库已经达到 200 多个。与之相伴的便是,各种数据库之间的同步与转换需求激增,数据集成便成了大数据领域的一个亟需优秀解决方案的方向。当前市面上没有一个简单易用且支持每天数百亿条海量数据同步的开源软件,于是 SeaTunnel 应运而生。
smartsi
2022-04-01
4.2K0
Redis 深入了解键的过期时间
在实际开发中经常会遇到一些有时效的数据,比如,限时优惠活动,缓存或验证码等,过了一定时间就需要删除这些数据。在关系性数据库中一般需要额外的一个字段记录到期时间,然后定期检测删除过期数据。在 Redis 中提供了键的过期时间这个功能来解决这个问题。通过这个功能,可以让特定的键在指定的时间之后自动删除,而不需要手动执行删除操作。
smartsi
2021-11-18
1.7K0
Kafka Connect JDBC Source MySQL 全量同步
从数据库获取数据到 Apache Kafka 无疑是 Kafka Connect 最流行的用例。Kafka Connect 提供了将数据导入和导出 Kafka 的可扩展且可靠的方式。由于只用到了 Connector 的特定 Plugin 以及一些配置(无需编写代码),因此这是一个比较简单的数据集成方案。下面我们会介绍如何使用 Kafka Connect 将 MySQL 中的数据流式导入到 Kafka Topic。
smartsi
2021-09-26
3.7K2
Debezium 初了解
在研究 Flink CDC 时,其中涉及了 Debezium,便决定研究一下 Debezium。这篇文章简单介绍了 Debezium 是什么,以及它的架构和特性。后续文章中会后续介绍其功能特性以及如何使用。
smartsi
2021-08-13
5.3K0
<转>Calcite SQL 形式化语言:关系代数
关系代数是一种过程化查询语言。它包括一个运算的集合,这些运算以一个或两个关系为输入,产生一个新的关系作为结果。关系代数的基本运算有:
smartsi
2021-06-21
8870
Hive元数据服务MetaStore
MetaSore 是 Hive 元数据存储的地方。Hive 数据库、表、函数等的定义都存储在 Metastore 中。根据系统配置方式,统计信息和授权记录也可以存储在此处。Hive 或者其他执行引擎在运行时使用此数据来确定如何解析,授权以及有效执行用户查询。
smartsi
2020-09-21
8.9K0
Hive 安装与配置
可以从 http://hive.apache.org/downloads.html 下载你想要的版本,在这我们使用的是2.3.7版本
smartsi
2020-08-31
6540
Bitmap用户分群在贝壳DMP的实践和应用
DMP数据管理平台是实现用户精细化运营和和全生命周期运营的的基础平台之一。贝壳找房从2018年5月开始建设自己的DMP平台,提供了用户分群、消息推送、人群洞察等能力。关于贝壳DMP架构的介绍可参考文章:DMP平台在贝壳的实践和应用。
smartsi
2020-08-24
4.8K1
HBase Shell 命令
HBase 提供了一个非常方便的命令行交互工具 HBase Shell。通过 HBase Shell 可以创建表,也可以增删查数据,同时集群的管理、状态查看等也可以通过 HBase shell 实现。
smartsi
2019-12-31
5K0
Redis中Scan命令的基本用法
SCAN 命令以及比较相近的 SSCAN、HSCAN 和 ZSCAN 命令都用于增量迭代数据集元素:
smartsi
2019-12-17
5.5K0
了解HBase与BigTable
在学习HBase(Google BigTable 的开源实现)的时候,我们面临的最为困难的地方就是需要你重构你的思路来理解 BigTable 的概念。
smartsi
2019-11-27
1.8K0
HBase Schema 设计
HBase 与传统关系数据库(例如MySQL,PostgreSQL,Oracle等)在架构的设计以及为应用程序提供的功能方面有很大的不同。HBase 权衡了其中一些功能,以实现更好的可扩展性以及更灵活的模式。与关系数据库相比,HBase 表的设计有很大的不同。下面将通过解释数据模型向您介绍 HBase 表设计的基础知识,并通过一个例子深入探讨 HBase 表的设计。
smartsi
2019-11-26
2.2K0
SQL查询并不总是以SELECT开始
很多 SQL 查询确实以 SELECT 开始(本文仅涉及 SELECT 查询,而不涉及 INSERT 或其他内容)。不过,我在网上搜索 ‘是否可以对窗口函数返回的结果进行过滤’ 这个问题,或者说可以在 WHERE、HAVING 或其他中过滤窗口函数的结果吗?最终我得出的结论是:窗口函数必须在 WHERE 和 GROUP BY 发生之后才能运行,所以答案是我们这样做。于是又引出了另一个问题:SQL 查询的执行顺序是什么样的?
smartsi
2019-11-26
1.1K0
OLAP vs OLTP
OLTP 是 Online Transaction Processing 的简称,是一个联机事务处理系统,主要目标是数据处理而不是数据分析。OLTP 系统的主要关注点是记录事务当前的更新,插入以及删除操作。OLTP 的查询比较简短,因此需要比较少的处理时间以及比较少的空间。
smartsi
2019-11-26
1.7K0
HBase RowKey 设计
HBase中 RowKey 用来唯一标识一行记录。在 HBase 中检索数据有以下三种方式:
smartsi
2019-11-26
1.6K0
Flink1.4 用于外部数据访问的异步IO
当与外部系统交互时(例如,使用存储在数据库中数据丰富流事件),需要注意与外部系统的通信延迟并不决定流应用程序的整体工作。访问外部数据库中的数据(例如在 MapFunction 中)通常意味着同步交互:将请求发送到数据库,MapFunction 会等待直到收到响应。在许多情况下,这个等待时间占了该函数绝大部分时间。
smartsi
2019-08-07
8800
Python 数据库操作
Python使用数据库驱动模块与MySQL通信。诸如pymysql等许多数据库驱动都是免费的。这里我们将使用pymysql,它是Anaconda的一部分。驱动程序经过激活后与数据库服务器相连,然后将Python的函数调用转换为数据库查询,反过来,将数据库结果转换为Python数据结构。
smartsi
2019-08-07
1.1K0
ElasticSearch 索引
假设我们刚好在一家工作,这时人力资源部门出于某种目的需要让我们创建一个员工目录,它有以下不同的需求:
smartsi
2019-08-07
4920
Grafana安装与启动
如果要使用 homebrew 服务启动 Grafana,首先要确保安装了 homebrew/services:
smartsi
2019-08-07
11K0
案例-ClickHouse在头条的技术演进
ClickHouse 是由号称“俄罗斯 Google”的 Yandex 开发而来,在 2016 年开源,在计算引擎里算是一个后起之秀,在内存数据库领域号称是最快的。大家从网上也能够看到,它有几倍于 GreenPlum 等引擎的性能优势。
smartsi
2019-08-07
4K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档