最新最全的大数据技术体系-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

最新最全的大数据技术体系

专栏成员

751

文章

644593

阅读量

35

订阅数

Apache Impala(demo)

数据分析 mapreduce hive 数据库大数据

一、Apache Impala 1．Impala基本介绍 impala是cloudera提供的一款高效率的sql查询工具，提供实时的查询效果，官方测试性能比hive快10到100倍，其sql查询比sparkSQL还要更加快速，号称是当前大数据领域最快的查询sql工具， impala是参照谷歌的新三篇论文（Caffeine–网络搜索引擎、Pregel–分布式图计算、Dremel–交互式分析工具）当中的Dremel实现而来，其中旧三篇论文分别是（BigTable，GFS，MapReduce）分别对应我们即将学的HBase和已经学过的HDFS以及MapReduce。 impala是基于hive并使用内存进行计算，兼顾数据仓库，具有实时，批处理，多并发等优点。

2022-11-30

4060

工作常用之Hive 调优【四】HQL 语法优化

mapreduce jquery sql 编程算法 hive

列裁剪就是在查询时只读取需要的列，分区裁剪就是只读取需要的分区。当列很多或者

2022-10-04

9780

hadoop必知必会的基本知识

大数据数据处理 mapreduce

这种架构主要由四个部分组成，分别为HDFS Client、NameNode、DataNode和Secondary NameNode。下面我们分别介绍这四个组成部分。 1）Client：就是客户端。（1）文件切分。文件上传HDFS的时候，Client将文件切分成一个一个的Block，然后进行存储；（2）与NameNode交互，获取文件的位置信息；（3）与DataNode交互，读取或者写入数据；（4）Client提供一些命令来管理HDFS，比如启动或者关闭HDFS；（5）Client可以通过一些命令来访问HDFS； 2）NameNode：就是Master，它是一个主管、管理者。（1）管理HDFS的名称空间；（2）管理数据块（Block）映射信息；（3）配置副本策略；（4）处理客户端读写请求。 3）DataNode：就是Slave。NameNode下达命令，DataNode执行实际的操作。（1）存储实际的数据块；（2）执行数据块的读/写操作。 4）Secondary NameNode：并非NameNode的热备。当NameNode挂掉的时候，它并不能马上替换NameNode并提供服务。（1）辅助NameNode，分担其工作量；（2）定期合并Fsimage和Edits，并推送给NameNode；（3）在紧急情况下，可辅助恢复NameNode。

2022-05-08

4170

❤️hadoop常用命令总结及百万调优❤️

hadoop 大数据 mapreduce yarn bash

以下参数是在用户自己的MR应用程序中配置就可以生效（mapred-default.xml）

2022-05-08

3100

对给定的数据利用MapReduce编程实现数据的清洗和预处理，编程实现数据存储到HBase数据库，实现数据的增删改查操作接口

数据集: 链接：https://pan.baidu.com/s/1rnUJn5ld45HpLhzbwYIM1A

2022-04-14

3500

对给定的数据利用MapReduce编程实现数据的清洗和预处理

数据集: 链接：https://pan.baidu.com/s/1rnUJn5ld45HpLhzbwYIM1A 提取码：7bsd

2021-12-20

7090

hadoop必知必会的基本知识

大数据数据处理 mapreduce

这种架构主要由四个部分组成，分别为HDFS Client、NameNode、DataNode和Secondary NameNode。下面我们分别介绍这四个组成部分。 1）Client：就是客户端。（1）文件切分。文件上传HDFS的时候，Client将文件切分成一个一个的Block，然后进行存储；（2）与NameNode交互，获取文件的位置信息；（3）与DataNode交互，读取或者写入数据；（4）Client提供一些命令来管理HDFS，比如启动或者关闭HDFS；（5）Client可以通过一些命令来访问HDFS； 2）NameNode：就是Master，它是一个主管、管理者。（1）管理HDFS的名称空间；（2）管理数据块（Block）映射信息；（3）配置副本策略；（4）处理客户端读写请求。 3）DataNode：就是Slave。NameNode下达命令，DataNode执行实际的操作。（1）存储实际的数据块；（2）执行数据块的读/写操作。 4）Secondary NameNode：并非NameNode的热备。当NameNode挂掉的时候，它并不能马上替换NameNode并提供服务。（1）辅助NameNode，分担其工作量；（2）定期合并Fsimage和Edits，并推送给NameNode；（3）在紧急情况下，可辅助恢复NameNode。

2021-12-07

3970

hadoop常用命令总结及百万调优

hadoop 大数据 mapreduce yarn bash

以下参数是在用户自己的MR应用程序中配置就可以生效（mapred-default.xml）

2021-12-07

3420

【秋招面试】货拉拉面试（1面过程）

hive hbase TDSQL MySQL 版大数据 mapreduce

下面是面试题：由于我准备面试时大部分的项目准备是围绕数据仓库开发准备的，而我面试的是货拉拉的大数据开发岗，所以整个面试过程面试官也在反复和我确认到底是面试应用开发还是数仓开发。。。

2021-12-07

5440

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day12】——Hbase6

hbase TDSQL MySQL 版大数据 mapreduce javascript

•step1：数据写入的时候，只写入内存 •step2：将数据在内存构建有序，当数据量大的时候，将有序的数据写入磁盘，变成一个有序的数据文件 •step3：基于所有有序的小文件进行合并，合并为一个整体有序的大文件

2021-12-07

1730

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day13】——Hbase7

hbase TDSQL MySQL 版 kafka mapreduce 大数据

•MapReduce写入Hbase原理：封装了一个TableOutputFormat来实现写入Hbase的数据 •要求 –写入Hbase的数据的V的类型必须为Put类型

2021-12-07

2860

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day10】——Hbase4

hbase TDSQL MySQL 版 hive mapreduce sql

•个数原则：如果列的个数比较多，建议2 ~ 3个，如果列的个数比较少，建议1个 –列族个数多了，导致比较次数变多，降低性能 –列族个数少了，导致列的比较次数变多，降低性能 •长度原则：能满足业务需求的情况下，越短越好

2021-12-07

2170

最新大数据集群安装方法CentOS7.6__大数据环境安装和配置

hadoop mapreduce 大数据 hive https

大数据环境安装和配置（Hadoop2.7.7，Hive2.3.4，Zookeeper3.4.10，Kafka2.1.0，Flume1.8.0，Hbase2.1.1，Spark2.4.0等）

2021-12-07

4740

【Spark】Spark Core Day04

缓存 python css spark mapreduce

官方文档：http://spark.apache.org/docs/latest/rdd-programming-guide.html#rdd-operations

2021-12-07

4420

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day26】——Spark13

spark mapreduce yarn node.js 编程算法

5）计算各分区时优先的位置列表（可选），比如从HDFS上的文件生成RDD时，RDD分区的位置优先选择数据所在的节点，这样可以避免数据移动带来的开销。

2021-12-07

2320

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day25】——Spark12

文件存储 spark mapreduce tcp/ip

1）原理：计算能力调度器支持多个队列，每个队列可配置一定的资源量，每个队列采用 FIFO 调度策略，为了防止同一个用户的作业独占队列中的资源，该调度器会对同一用户提交的作业所占资源量进行限定。调度时，首先按以下策略选择一个合适队列：计算每个队列中正在运行的任务数与其应该分得的计算资源之间的比值(即比较空闲的队列)，选择一个该比值最小的队列；然后按以下策略选择该队列中一个作业：按照作业优先级和提交时间顺序选择，同时考虑用户资源量限制和内存限制 2）优点：（1）计算能力保证。支持多个队列，某个作业可被提交到某一个队列中。每个队列会配置一定比例的计算资源，且所有提交到队列中的作业共享该队列中的资源；（2）灵活性。空闲资源会被分配给那些未达到资源使用上限的队列，当某个未达到资源的队列需要资源时，一旦出现空闲资源资源，便会分配给他们；（3）支持优先级。队列支持作业优先级调度（默认是FIFO）；（4）多重租赁。综合考虑多种约束防止单个作业、用户或者队列独占队列或者集群中的资源；（5）基于资源的调度。支持资源密集型作业，允许作业使用的资源量高于默认值，进而可容纳不同资源需求的作业。不过，当前仅支持内存资源的调度。

2021-12-07

2180

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day23】——Spark10

spark mapreduce hadoop

不一定，除了一对一的窄依赖，还包含一对固定个数的窄依赖（就是对父RDD的依赖的Partition的数量不会随着RDD数量规模的改变而改变），比如join操作的每个partiion仅仅和已知的partition进行join，这个join操作是窄依赖，依赖固定数量的父rdd，因为是确定的partition关系。

2021-12-07

2760

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day14】——Spark1

yarn node.js spark mapreduce

为什么要进行持久化？ spark所有复杂一点的算法都会有persist身影，spark默认数据放在内存，spark很多内容都是放在内存的，非常适合高速迭代，1000个步骤只有第一个输入数据，中间不产生临时数据，但分布式系统风险很高，所以容易出错，就要容错，rdd出错或者分片可以根据血统算出来，如果没有对父rdd进行persist 或者cache优化，就需要重头做。以下场景会使用persist 1）某个步骤计算非常耗时，需要进行persist持久化 2）计算链条非常长，重新恢复要算很多步骤，很好使，persist 3）checkpoint所在的rdd要持久化persist。checkpoint前，要持久化，写个rdd.cache或者rdd.persist，将结果保存起来，再写checkpoint操作，这样执行起来会非常快，不需要重新计算rdd链条了。checkpoint之前一定会进行persist。 4）shuffle之后要persist，shuffle要进性网络传输，风险很大，数据丢失重来，恢复代价很大 5）shuffle之前进行persist，框架默认将数据持久化到磁盘，这个是框架自动做的。

2021-12-07

2250

11月大数据面试题复习

spark 大数据编程算法对象存储 mapreduce

2 为什么要前后端分离开发？前后端分离开发的优势和劣势？让专业的人做专业的事情优势：分工明确，各司其职劣质：前后端联调需要消耗比较多的时间

2021-12-06

7070

MapReduce:出租车数据案例

链接： https://pan.baidu.com/s/1cFbcj5tz5Gy6AljgpPBTyg

2021-12-06

4.1K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态