Hadoop数据仓库-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Hadoop数据仓库

专栏成员

531

文章

774670

阅读量

110

订阅数

Zeppelin 安装部署实验

hadoop spark http hive 数据库

一、实验目的 1. 使用Zeppelin运行SparkSQL访问Hive表 2. 动态表单SQL 二、实验环境： 12个节点的Spark集群，以standalone方式部署，各个节点运行的进程如表1所示。

2022-05-07

4200

Spark on YARN 部署实验

spark 数据库 sql yarn hadoop

以前的Spark部署都是使用的standalone方式，集群中的每台机器都安装部署Spark，然后启动Master和Worker进程运行Spark。今天尝试一下Spark on YARN的部署方式。一、实验目的 1. 只在一台机器上安装Spark，基于已有的Hadoop集群，使用YARN调度资源。 2. 不启动Master和Worker进程提交Spark作业。 3. 通过YARN的WebUI查看Spark作业的执行情况。二、实验环境： 4台CentOS release 6.4虚拟机，IP地址为 192.168.56.101 192.168.56.102 192.168.56.103 192.168.56.104 192.168.56.101是Hadoop集群的主，运行NameNode和ResourceManager进程。 192.168.56.102、192.168.56.103是Hadoop的从，运行DataNode和NodeManager进程。 192.168.56.104安装Pentaho的PDI，安装目录为/home/grid/data-integration。 Hadoop版本：2.7.2 Spark版本：1.5.0 PDI版本：6.0 Hadoop集群的安装配置参考 http://blog.csdn.net/wzy0623/article/details/50681554 三、安装Spark 只在192.168.56.101一台机器上上安装Spark，具体安装步骤参考 http://blog.csdn.net/wzy0623/article/details/50946766 四、配置步骤 1. 启动Hadoop集群 # 启动hdfs /home/grid/hadoop-2.7.2/sbin/start-dfs.sh # 启动yarn /home/grid/hadoop-2.7.2/sbin/start-yarn.sh 2. 将spark自带的与Hadoop集成的jar包上传到hdfs hadoop fs -put /home/grid/spark/lib/spark-assembly-1.5.0-hadoop2.6.0.jar /user/ 3. 编辑spark-defaults.conf文件，添加如下一行 spark.yarn.jar=hdfs://master:9000/user/spark-assembly-1.5.0-hadoop2.6.0.jar 修改后的spark-defaults.conf文件如图1所示

2022-05-07

4200

Pentaho Work with Big Data（二）—— Kettle提交Spark作业

spark hadoop http bash bash 指令

实验目的：配置Kettle向Spark集群提交作业。实验环境： 4台CentOS release 6.4虚拟机，IP地址为 192.168.56.101 192.168.56.102 192.168.56.103 192.168.56.104 192.168.56.101是Spark集群的主，运行Master进程。 192.168.56.102、192.168.56.103是Spark的从，运行Worker进程。 192.168.56.104安装Pentaho的PDI，安装目录为/home/grid/data-integration。 Hadoop版本：2.7.2 Spark版本：1.5.0 PDI版本：6.0 Spark集群的安装配置参考 http://blog.csdn.net/wzy0623/article/details/50946766 配置步骤： 1. 在PDI主机上安装Spark客户端将Spark的安装目录和相关系统环境设置文件拷贝到PDI所在主机在192.168.56.101上执行以下命令 scp -r /home/grid/spark 192.168.56.104:/home/grid/ scp /etc/profile.d/spark.sh 192.168.56.104:/etc/profile.d/ 下面的配置均在192.168.56.104上执行 2. 编辑相关配置文件（1）在/etc/hosts文件中加如下两行 192.168.56.101 master 192.168.56.104 kettle master和kettle为各自主机的hostname （2）编辑spark-env.sh文件，写如下两行，如图1所示 export HADOOP_CONF_DIR=/home/grid/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54 export SPARK_HOME=/home/grid/spark

2022-05-07

4980

用beeline连接SparkSQL

hive spark http html jdbc

1. 在$SPARK_HOME/conf/hive-site.xml文件中添加下面的属性

2022-05-07

9770

Spark 安装配置实验

spark hive http sql yarn

http://blog.csdn.net/wzy0623/article/details/50681554

2022-05-07

2670

Hive/Spark小文件解决方案(企业级实战)

spark linux mapreduce sql 数据库

原文链接：https://mp.weixin.qq.com/s/m4NPnZaKJMXKrTwtZoOQeQ

2021-01-20

5.2K0

Kettle构建Hadoop ETL实践（三）：Kettle对Hadoop的支持

hadoop hive mapreduce 大数据 spark

本篇演示使用Kettle操作Hadoop上的数据。首先概要介绍Kettle对大数据的支持，然后用示例说明Kettle如何连接Hadoop，如何导入导出Hadoop集群上的数据，如何用Kettle执行Hive的HiveQL语句，还会用一个典型的MapReduce转换，说明Kettle在实际应用中是怎样利用Hadoop分布式计算框架的。本篇最后介绍如何在Kettle中提交Spark作业。

2020-09-02

5.9K0

Kettle与Hadoop（九）提交Spark作业

大数据 https 网络安全专用宿主机 spark

实验环境： Spark History Server： 172.16.1.126

2020-06-11

1.6K0

CDH 6.3.1整合Zeppelin 0.8.2

专用宿主机 hive 云数据库 SQL Server spark 数据可视化

Zeppelin是一个基于Web的笔记本，可以直接在浏览器中编写代码，对数据进行查询分析并生成报表或图表，做出数据驱动的、交互、协作的文档，并且可以共享笔记。Zeppelin提供了内置的Apache Spark集成，提供的功能有：

2020-03-18

2.3K0

spark应用程序的运行架构

（1）job：包含多个task组成的并行计算，往往由action催生。（2）stage：job的调度单位。（3）task：被送到某个executor上的工作单元。（4）taskSet：一组关联的，相互之间没有shuffle依赖关系的任务组成的任务集。

2019-05-25

9210

PageRank算法在spark上的简单实现

编程算法大数据 spark

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/51383232

2019-05-25

1.4K0

基于hadoop生态圈的数据仓库实践 —— OLAP与数据可视化（五）

spark git github hive 开源

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/52370045

2019-05-25

1.1K0

基于hadoop生态圈的数据仓库实践 —— OLAP与数据可视化（二）

sql spark 数据库 hive api

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/52249187

2019-05-25

1.1K0

HAWQ取代传统数仓实践（十九）——OLAP

数据处理 spark apache

本文介绍了 Zeppelin 是什么、能做什么，以及 Zeppelin 的特性、组件和扩展。主要内容包括：Zeppelin 是基于 Apache Spark 的开源大数据可视化分析平台，支持交互式查询、实时数据可视化和机器学习等功能。Zeppelin 的特性包括支持多种数据源、提供交互式查询、支持实时数据可视化、提供机器学习接口等。Zeppelin 的组件包括： Notebook：交互式查询工具，支持多种编程语言； Interpreter：解释器，支持多种编程语言； Notebook Server：服务端，支持交互式查询； Shell：命令行工具，支持交互式查询； Spark：基于 Spark 的数据科学平台，支持交互式查询； ML：机器学习平台，支持交互式查询； Gallery：数据可视化模块，支持数据可视化； Extensions：扩展模块，支持自定义功能。

2018-01-03

1.8K0

HAWQ取代传统数仓实践（一）——为什么选择HAWQ

本文介绍了大数据处理框架Apache HAWQ的源起、设计目标、主要特性、系统架构、性能、适用场景以及与其他大数据处理框架的对比。HAWQ适用于需要高性能、低延迟、类似SQL的查询语言来处理大规模数据集的场景。HAWQ基于Apache Hadoop构建，并提供了类似于Hive的SQL查询语言。与Hive、SparkSQL、Impala等大数据处理框架相比，HAWQ在查询性能、运行时延迟、支持的数据类型、内置函数等方面都有显著的优势。

2018-01-03

1.9K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态