学习
实践
活动
专区
工具
TVP
写文章

从大数据到人工智能

LV2
举报
发表了文章

Apache Hudi 0.12.2发布

我们的目标是维护 0.12 更长时间,并通过最新的 0.12.x 版本提供稳定版本供用户迁移。 此版本 (0.12.2) 是最新的 0.12 版本。

从大数据到人工智能
文件存储Flink大数据SQL迁移
发表了文章

Flink写hudi报datanode异常以及解决办法

这几天在使用tpcds数据对hudi 0.12.0写入性能进行压测,发现在数据写入半小时后,即出现异常,并且程序不断重启,任务异常日志如下:

从大数据到人工智能
https网络安全Linux
发表了文章

基于kcat将TPC-DS数据快速导入kafka集群

在大数据领域,TPC-DS是一个常用的基准测试框架。基准测试结果测量单用户模式下的查询响应时间、多用户模式下的查询吞吐量以及给定硬件、操作系统和数据处理系统配置...

从大数据到人工智能
Kafka大数据https网络安全打包
发表了文章

如何更好地使用Kafka?

引言| 要确保Kafka在使用过程中的稳定性,需要从kafka在业务中的使用周期进行依次保障。主要可以分为:事先预防(通过规范的使用、开发,预防问题产生)、运行...

从大数据到人工智能
Kafka消息队列 CKafka数据库大数据SQL
发表了文章

这可能是最好的开源ssh客户端软件

刚毕业那会,拿着学生证注册了github学生包,然后用github学生包薅Termius羊毛,免费用了两年Termius的同步服务。随着前不久github学生包...

从大数据到人工智能
GitHubGit开源https网络安全
发表了文章

干货 | 深度学习在携程搜索词义解析中的应用

携程旅游研发部大数据与AI研发团队,为旅游事业部提供丰富的AI技术产品和技术能力。

从大数据到人工智能
自然语言处理深度学习
发表了文章

分布式sql引擎原理分析-逻辑执行计划生成

不管是传统数据库或者基于sql的分布式大数据分析工具,基本原理都是把一个sql转换成sql语法树(AST),通过对语法树的分析转换成执行计划。传统数据库会根据执...

从大数据到人工智能
分布式大数据https网络安全编程算法
发表了文章

基于Flink+Hudi在兴盛优选营销域实时数仓的实践

什么是流处理?引用Streaming101[1]里面的一句话:一种数据处理引擎,设计时考虑了无限数据集。(为了完整性,这个定义包括真正的流式传输系统(Apach...

从大数据到人工智能
编程算法实时数仓Kafka大数据Flink
发表了文章

Apache Drill基本介绍

Drill 是一个用于大数据探索的 Apache 开源 SQL 查询引擎。 Drill 的设计初衷是支持对来自现代大数据应用程序的半结构化和快速发展的数据进行高...

从大数据到人工智能
HiveSQLApache大数据JSON
发表了文章

数据仓库与商业智能宝典第2版

 作为数据仓库和商业智能(DW/BI)行业中有影响力的领军人物,RalphKimball、MargyRoss得到了世界范围内的认可和尊重,他们在《数据仓库与商业...

从大数据到人工智能
发表了文章

实时湖仓一体规模化实践:腾讯广告日志平台

本文为从大数据到人工智能博主「bajiebajie2333」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

从大数据到人工智能
spark日志数据数据湖文件存储存储
发表了文章

k8s快速部署kafka 3.3.1

在平常开发测试中,使用docker或者k8s快速部署某个组件会是一个不错的选择。kafka 3.3.1作为kraft第一个生产可用版本,本文介绍使用k8s快速部...

从大数据到人工智能
KafkaKubernetesJavaDocker
发表了文章

Kafka基础与核心概念

Kafka 由一个或多个节点组成的工作集群,这些节点可以位于不同的数据中心,我们可以在 Kafka 集群的不同节点之间分布数据/负载,并且它天生具有可扩展性、可...

从大数据到人工智能
消息队列 CMQ 版数据库SQLJSON编程算法
发表了文章

数据湖技术在抖音近实时场景的实践

首先,数据湖可存储海量、低加工的原始数据。在数据湖中开发成本较低,可以支持灵活的构建,构建出来的数据的复用性也比较强。

从大数据到人工智能
数据湖数据库SQL云计算存储
发表了文章

顺丰科技数据治理实践

导读:本文介绍顺丰科技在数据治理方面的实践。分享分为两个部分,第一部分总体介绍顺丰科技在整个数据治理过程中的心路历程:我们做了哪些工作,在数据治理各个领域,分别...

从大数据到人工智能
大数据数据安全
发表了文章

RAFT算法详解

Raft是一个用于管理日志一致性的协议。它将分布式一致性分解为多个子问题:Leader选举(Leader election)、日志复制(Log replica...

从大数据到人工智能
raftRPC编程算法
发表了文章

RoaringBitmap介绍(中文翻译)

原地址:https://github.com/RoaringBitmap/RoaringBitmap

从大数据到人工智能
Apache文件存储Java
发表了文章

解决spark sql读取hudi表出现偶然读不出来数据问题

用beeline连接spark thriftserver或者kyuubi(spark 3.3.0)查询hudi mor表,发现对于同一个spark SQL在同一...

从大数据到人工智能
sparkSQL
发表了文章

k8s部署nexus maven仓库指南

本文为从大数据到人工智能博主「xiaozhch5」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

从大数据到人工智能
发表了文章

解决hudi hms catalog中flink建表,spark无法写入问题

在hudi 0.12.0版本,flink和spark都可以基于hive metastore进行元数据管理,更多信息可参考:hudi HMS Catalog指南。...

从大数据到人工智能
sparkFlink大数据HiveSQL

个人简介

个人成就

扫码关注腾讯云开发者

领取腾讯云代金券