about云-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

about云

专栏成员

216

文章

329341

阅读量

58

订阅数

2021年最新鲜的面试题整理：亿信华辰

spark kafka hive 存储 hadoop

我们VIP成员很多在2021年春节年前、后，拿到了offer。而且不止一个，有的两个，有的四个，有的六个。这里给我们分享其中一位成员，整理的一家公司的面试题，后续将会陆续发布。

2021-03-22

1.1K0

工作经验分享：Spark调优【优化后性能提升1200%】

spark bash bash 指令 hive 分布式

问题导读 1.本文遇到了什么问题？ 2.遇到问题后，做了哪些分析？ 3.本文解决倾斜使用哪些方法？ 4.本次数据倾斜那种方法更有效？ 5.解决性能优化问题的原理是什么？优化后效果 1.业务处理中存在复杂的多表关联和计算逻辑（原始数据达百亿数量级） 2.优化后，spark计算性能提升了约12倍(6h-->30min) 3.最终，业务的性能瓶颈存在于ES写入（计算结果，ES索引document数约为21亿 pri.store.size约 300gb）

2021-03-03

1.7K0

彻底打通实时数据仓库该如何实现及多种技术架构解析

云计算 hive 数据库 sql flink

问题导读 1.实时数据仓库有哪些特点？ 2.公司构建实时数据仓库有哪些好处？ 3.如何构建实时数据仓库？ 4.实时数据仓库本文解析了哪些架构？越来越多的实时数据需求，需要更多的实时数据来做业务决策，例如需要依据销售情况做一个资源位的调整；同时有些活动也需要实时数据来增强与用户的互动。如果数据有实时和离线两种方案，优先考虑实时的，如果实时实现不了再考虑离线的方式。实时数据仓库，已经被很多公司所接受，而且接触很多About云社区会员，都在筹备搭建实时数据仓库。 1.那么实时数据仓库有哪些特点：

2021-01-05

1.3K0

大数据实用组件Hudi--实现管理大型分析数据集在HDFS上的存储

大数据 spark hive hbase TDSQL MySQL 版

问题导读 1.什么是Hudi？ 2.Hudi对HDFS可以实现哪些操作？ 3.Hudi与其它组件对比有哪些特点？前两天我们About云群大佬公司想了解Hudi ，并上线使用。Hudi 或许大家了解的比较少，这里给大家介绍下Hudi这个非常实用和有潜力的组件。 Hudi是在HDFS的基础上，对HDFS的管理和操作。支持在Hadoop上执行upserts/insert/delete操作。这里大家可能觉得比较抽象，那么它到底解决了哪些问题？ Hudi解决了我们那些痛点 1.实时获取新增数据你是否遇到过这样的问题，使用Sqoop获取Mysql日志或则数据，然后将新增数据迁移到Hive或则HDFS。对于新增的数据，有不少公司确实是这么做的，比较高级点的，通过Shell调用Sqoop迁移数据实现自动化，但是这里面有很多的坑和难点，相对来说工作量也不少，那么有没有更好的解决办法那？---Hudi可以解决。Hudi可以实时获取新数据。 2.实时查询、分析对于HDFS数据，我们要查询数据，是需要使用MapReduce的，我们使用MapReduce查询，这几乎是让我们难以接受的，有没有近实时的方案，有没有更好的解决方案--Hudi。什么是Hudi Apache Hudi代表Hadoop Upserts anD Incrementals，管理大型分析数据集在HDFS上的存储。Hudi的主要目的是高效减少摄取过程中的数据延迟。由Uber开发并开源，HDFS上的分析数据集通过两种类型的表提供服务：读优化表（Read Optimized Table）和近实时表（Near-Real-Time Table）。读优化表的主要目的是通过列式存储提供查询性能，而近实时表则提供实时（基于行的存储和列式存储的组合）查询。 Hudi是一个开源Spark库（基于Spark2.x），用于在Hadoop上执行诸如更新，插入和删除之类的操作。它还允许用户仅摄取更改的数据，从而提高查询效率。它可以像任何作业一样进一步水平扩展，并将数据集直接存储在HDFS上。 Hudi的作用上面还是比较抽象的话，接着我们来看下图，更形象的来了解Hudi

2020-01-14

4.9K0

比Hive快279倍的数据库-ClickHouse到底是怎样的

hive 数据库存储云数据库 SQL Server sql

1.什么是ClickHouse？ 2.ClickHouse适合哪些场景？ 3.为什么面向列的数据库查询如此快？ 1.什么是ClickHouse ClickHouse是一个面向列的数据库管理系统（DBMS），用于在线分析处理查询（OLAP）。在“传统”面向行的DBMS中，数据按以下顺序存储：

2018-12-11

7.7K0

hadoop,hbase,hive，zookeeper版本整合兼容性最全，最详细说明【适用于任何版本】

问题导读 1.hadoop与hbase哪些版本兼容？ 2.hadoop与hive哪些版本兼容？ 3.hbase与hive哪些版本兼容？ 4.hbase与zookeeper哪些版本兼容？前言之

2018-03-27

2.9K0

hadoop，hbase，hive，zookeeper整合可行性分析及版本确定【续篇】

zookeeper hbase TDSQL MySQL 版 hadoop hive

问题导读 1.如何确定什么版本是稳定版本？ 2.本文是如何确定各个版本的？ 3.hbase1.x与hive1.x什么情况下是兼容的？前面一篇写过 hadoop,hbase,hive，zooke

2018-03-27

1.4K0

如何通过官网查找hadoop、hbase、hive版本兼容信息

hadoop hbase http TDSQL MySQL 版 hive

问题导读 1.如何查看hbase与hadoop的兼容？ 2.hive是否与所有hadoop兼容？ 3.hadoop2.7.1 hbase1.2.x hive1.2.0是否兼容？打算做一个比较新的版本兼容，版本的兼容是一个问题。那么如何来看是否兼容。最简单的办法： hadoop、hbase、hive、zookeeper版本对应关系续(最新版) 那么我们该如何查看hadoop、hbase、hive他们之间的兼容关系这时候，我们就要去官网了：首先查看hbase: 进入官网 http://h

2018-03-27

6K0

让你真正理解什么是SparkContext, SQLContext 和HiveContext

spark sql hive yarn

问题导读 1.你认为SparkContext的作用是什么？ 2.SQLContext 和HiveContext的区别是什么？ 3.SQLContext、HiveContext与SparkContext的区别是什么？第一步spark driver 应用程序创建SparkContext，SparkContext 允许spark driver 应用程序通过资源管理器访问集群。资源管理器可以是Yarn，或则spark集群管理器。为了创建SparkContext，你可以第一步创建SparkConf，Spa

2018-03-27

3.2K0

discuz论坛apache日志hadoop大数据分析项目：hive以及hbase是如何入库以及代码实现

hive 编程算法 hbase apache hadoop

about云discuz论坛apache日志hadoop大数据分析项目：数据时如何导入hbase与hive的到了这里项目的基本核心功能已经完成。这里介绍一下hive以及hbase是如何入库以及代码实现。首先我们将hbase与hive整合，详细参考 about云分析discuz论坛apache日志hadoop大数据项目：hive与hbase是如何整合使用的 about云分析discuz论坛apache日志hadoop大数据项目：hive与hbase是如何整合使用的整合完毕，我们就可以通过map

2018-03-27

8530

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态