首页
学习
活动
专区
工具
TVP
发布

大数据学习笔记

专栏作者
533
文章
740043
阅读量
72
订阅数
spark-shell --master yarn-client(异常已经解决)
可能是spark-shell --master yarn-client过时了,但是换成spark-shell --master yarn --deploy-mode client,依然报错。
程裕强
2022-05-06
1.1K0
单机运行Spark Shell
1 下载Spark-2.1.0-bin-hadoop2.7.tgz http://spark.apache.org/downloads.html 📷 2 解压缩 [root@sk1 ~]tar -zxvf spark-2.1.0-bin-hadoop2.7.tgz -C /opt 3 进入spark根目录 [root@sk1 ~]# cd /opt/spark-2.1.0-bin-hadoop2.7/ [root@sk1 spark-2.1.0-bin-hadoop2.7]# ls bin derby
程裕强
2022-05-06
3430
单机运行Spark Shell遇到的一个低级错误
下载spark-2.1.0-bin-hadoop2.7.tgz,解压缩直接进入spark根目录,然后运行bin/spark-shell即可进入。 但是今天遇到了一个低级错误: java.net.BindException: Cannot assign requested address: Service ‘sparkDriver’ failed after 16 retries (starting from 0)! Consider explicitly setting the appropriate port for the service ‘sparkDriver’ (for example spark.ui.port for SparkUI) to an available port or increasing spark.port.maxRetries.
程裕强
2022-05-06
1.1K0
Spark Doris Connector试错
(1)官网文档 http://doris.apache.org/master/zh-CN/extending-doris/spark-doris-connector.html#%E7%89%88%E6%9C%AC%E5%85%BC%E5%AE%B9 (2)将doris-spark-1.0.0-SNAPSHOT.jar复制到Spark的jars目录
程裕强
2021-08-18
1.4K0
Spark 3.1 Standalone集群搭建
https://www.apache.org/dyn/closer.lua/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz
程裕强
2021-08-13
5910
Flink学习笔记:2、Flink介绍
程裕强
2018-01-02
1.9K0
Spark2.x学习笔记:18、Spark Streaming程序解读
本文介绍了Spark 2.x中Spark Streaming的原理、DStream的转换操作、程序模板以及流式数据输入和输出。主要内容包括:将流式计算转化为一批批很小的、确定的批处理作业(micro-batch),以数秒为单位将数据流切分成离散的作业;使用RDD相关操作处理每批数据;以RDD为单位返回结果;以及编写Spark Streaming程序的流程和样例程序。
程裕强
2018-01-02
9510
Spark2.x学习笔记:16、Spark Streaming入门实例NetworkWordCount
程裕强
2018-01-02
1.1K0
Spark2.x学习笔记:9、 Spark编程实例
程裕强
2018-01-02
1K0
Spark2.x学习笔记:17、Spark Streaming之HdfsWordCount 学习
程裕强
2018-01-02
6430
Spark2.x学习笔记:12、Shuffle机制
本文介绍了Spark2.x中的Shuffle机制,包括HashShuffleManager和SortShuffleManager两种类型。HashShuffleManager会产生大量中间文件,影响性能,而SortShuffleManager则将中间文件合并成一个文件,减少文件数量,从而提高性能。通过使用SortShuffleManager,Spark可以更好地处理大数据集并提高性能。
程裕强
2018-01-02
1.1K1
Kafka基本架构介绍
该文介绍了如何使用Kafka进行分布式消息处理系统。文章首先介绍了Kafka的基本概念,然后详细描述了Kafka的架构和组件。接着,文章深入探讨了Kafka的复制和分布式协调功能,以及如何使用Kafka进行消息处理。最后,文章介绍了Kafka的性能优化和常见问题解决方案。
程裕强
2018-01-02
3.3K0
Spark2.x学习笔记:3、 Spark核心概念RDD
程裕强
2018-01-02
1.3K0
Spark2.x学习笔记:8、 Spark应用程打包与提交
程裕强
2018-01-02
2.4K0
Spark2.x学习笔记:4、Spark程序架构与运行模式
本文介绍了Spark2.x的集群部署方案,包括本地模式、独立模式、Spark on YARN/Mesos模式。其中,本地模式适用于小规模的开发环境,独立模式适用于独立部署的集群环境,Spark on YARN/Mesos模式则适用于大规模集群环境。
程裕强
2018-01-02
8840
Spark2.x学习笔记:14、Spark SQL程序设计
程裕强
2018-01-02
5K0
Spark2.x学习笔记:7、Spark应用程序设计
本文介绍了Spark编程的一些基础概念和常用操作,包括RDD、DataFrame、DataSet、Transformations、Actions、Spark Streaming、GraphX和Machine Learning。同时,文章还探讨了Spark在不同领域的应用,包括互联网广告、推荐系统、数据挖掘和自然语言处理等。文章还介绍了Spark的生态系统,包括Spark SQL、MLlib、GraphX和Structured Streaming。
程裕强
2018-01-02
1.1K0
Spark2.x学习笔记:2、Scala简单例子
2、 Scala简单例子 参考教程:https://yq.aliyun.com/topic/69 2.1 交互式编程 spark-shell是Spark交互式运行模式,提供了交互式编程,边敲代码边执
程裕强
2018-01-02
3K0
Spark2.x学习笔记:13、Spark SQL快速入门
本文介绍了如何使用Spark SQL来读取和写入Hive数据表,并介绍了Spark SQL对Hive元数据的操作。
程裕强
2018-01-02
2.6K0
Spark2.x学习笔记:10、简易电影受众系统
该文介绍了计算模型在处理用户评分数据中的实用性和有效性。文章首先介绍了用户评分数据的特点,然后详细阐述了计算模型在处理用户评分数据中的重要作用。最后,文章探讨了如何通过计算模型来提高用户评分数据的处理效率。
程裕强
2018-01-02
1.2K0
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战,赢鹅厂证书、公仔好礼!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档