大数据学习笔记-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据学习笔记

专栏成员

533

文章

781872

阅读量

73

订阅数

spark-shell --master yarn-client(异常已经解决)

spark shell hadoop http 面向对象编程

可能是spark-shell --master yarn-client过时了，但是换成spark-shell --master yarn --deploy-mode client，依然报错。

2022-05-06

1.2K0

单机运行Spark Shell

1 下载Spark-2.1.0-bin-hadoop2.7.tgz http://spark.apache.org/downloads.html 📷 2 解压缩 [root@sk1 ~]tar -zxvf spark-2.1.0-bin-hadoop2.7.tgz -C /opt 3 进入spark根目录 [root@sk1 ~]# cd /opt/spark-2.1.0-bin-hadoop2.7/ [root@sk1 spark-2.1.0-bin-hadoop2.7]# ls bin derby

2022-05-06

3570

单机运行Spark Shell遇到的一个低级错误

spark shell tcp/ip

下载spark-2.1.0-bin-hadoop2.7.tgz，解压缩直接进入spark根目录，然后运行bin/spark-shell即可进入。但是今天遇到了一个低级错误： java.net.BindException: Cannot assign requested address: Service ‘sparkDriver’ failed after 16 retries (starting from 0)! Consider explicitly setting the appropriate port for the service ‘sparkDriver’ (for example spark.ui.port for SparkUI) to an available port or increasing spark.port.maxRetries.

2022-05-06

1.2K0

Spark Doris Connector试错

腾讯云测试服务 spark java

（1）官网文档 http://doris.apache.org/master/zh-CN/extending-doris/spark-doris-connector.html#%E7%89%88%E6%9C%AC%E5%85%BC%E5%AE%B9 （2）将doris-spark-1.0.0-SNAPSHOT.jar复制到Spark的jars目录

2021-08-18

1.5K0

Spark 3.1 Standalone集群搭建

https://www.apache.org/dyn/closer.lua/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz

2021-08-13

6350

Flink学习笔记：2、Flink介绍

spark 分布式

2018-01-02

1.9K0

Spark2.x学习笔记：18、Spark Streaming程序解读

本文介绍了Spark 2.x中Spark Streaming的原理、DStream的转换操作、程序模板以及流式数据输入和输出。主要内容包括：将流式计算转化为一批批很小的、确定的批处理作业（micro-batch），以数秒为单位将数据流切分成离散的作业；使用RDD相关操作处理每批数据；以RDD为单位返回结果；以及编写Spark Streaming程序的流程和样例程序。

2018-01-02

9840

Spark2.x学习笔记：16、Spark Streaming入门实例NetworkWordCount

机器学习 spark 大数据

2018-01-02

1.1K0

Spark2.x学习笔记：9、 Spark编程实例

spark 机器学习

2018-01-02

1.1K0

Spark2.x学习笔记：17、Spark Streaming之HdfsWordCount 学习

spark 机器学习大数据

2018-01-02

6680

Spark2.x学习笔记：12、Shuffle机制

spark 数据库大数据人工智能

本文介绍了Spark2.x中的Shuffle机制，包括HashShuffleManager和SortShuffleManager两种类型。HashShuffleManager会产生大量中间文件，影响性能，而SortShuffleManager则将中间文件合并成一个文件，减少文件数量，从而提高性能。通过使用SortShuffleManager，Spark可以更好地处理大数据集并提高性能。

2018-01-02

1.1K1

Kafka基本架构介绍

该文介绍了如何使用Kafka进行分布式消息处理系统。文章首先介绍了Kafka的基本概念，然后详细描述了Kafka的架构和组件。接着，文章深入探讨了Kafka的复制和分布式协调功能，以及如何使用Kafka进行消息处理。最后，文章介绍了Kafka的性能优化和常见问题解决方案。

2018-01-02

3.4K0

Spark2.x学习笔记：3、 Spark核心概念RDD

spark 机器学习数据库

2018-01-02

1.4K0

Spark2.x学习笔记：8、 Spark应用程打包与提交

2018-01-02

2.5K0

Spark2.x学习笔记：4、Spark程序架构与运行模式

spark 大数据数据库 apache

本文介绍了Spark2.x的集群部署方案，包括本地模式、独立模式、Spark on YARN/Mesos模式。其中，本地模式适用于小规模的开发环境，独立模式适用于独立部署的集群环境，Spark on YARN/Mesos模式则适用于大规模集群环境。

2018-01-02

9180

Spark2.x学习笔记：14、Spark SQL程序设计

spark 数据库大数据 javascript

2018-01-02

5.1K0

Spark2.x学习笔记：7、Spark应用程序设计

spark 机器学习 hadoop

本文介绍了Spark编程的一些基础概念和常用操作，包括RDD、DataFrame、DataSet、Transformations、Actions、Spark Streaming、GraphX和Machine Learning。同时，文章还探讨了Spark在不同领域的应用，包括互联网广告、推荐系统、数据挖掘和自然语言处理等。文章还介绍了Spark的生态系统，包括Spark SQL、MLlib、GraphX和Structured Streaming。

2018-01-02

1.1K0

Spark2.x学习笔记：2、Scala简单例子

spark 云数据库 SQL Server 数据库 java

2、 Scala简单例子参考教程:https://yq.aliyun.com/topic/69 2.1 交互式编程 spark-shell是Spark交互式运行模式，提供了交互式编程，边敲代码边执

2018-01-02

3.1K0

Spark2.x学习笔记：13、Spark SQL快速入门

spark 大数据数据库

本文介绍了如何使用Spark SQL来读取和写入Hive数据表，并介绍了Spark SQL对Hive元数据的操作。

2018-01-02

2.7K0

Spark2.x学习笔记：10、简易电影受众系统

spark 机器学习

该文介绍了计算模型在处理用户评分数据中的实用性和有效性。文章首先介绍了用户评分数据的特点，然后详细阐述了计算模型在处理用户评分数据中的重要作用。最后，文章探讨了如何通过计算模型来提高用户评分数据的处理效率。

2018-01-02

1.2K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态