大数据-Hadoop、Spark-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据-Hadoop、Spark

专栏成员

88

文章

145537

阅读量

39

订阅数

spark hive sql 负载均衡负载均衡缓存

网易在Spark多租户方面的工作，这个项目叫做Kyuubi(该项目的开源地址： https://github.com/netease-bigdata/kyuubi https://github.com/yaooqinn/kyuubi)，实际上是类似于HiveSever2的程序。

2021-03-03

1.5K0

EMR Remote Shuffle Service

ESS（EMR Remote Shuffle Service）是EMR在优化计算引擎的Shuffle操作上，推出的扩展组件。

2021-03-03

1.4K0

spark python kubernetes kerberos 大数据

Spark Standalone on Kubernetes (via k8s community) SPIP: SPARK-18278 https://github.com/apache-spark-on-k8s/spark (fork)

2021-01-26

6250

Spark任务日志

sql spark linux

SparkListenerLogStart SparkListenerBlockManagerAdded SparkListenerEnvironmentUpdate SparkListenerApplicationStart //N个 SparkListenerExecutorAdded //N个 SparkListenerBlockManagerAdded org.apache.spark.sql.execution.ui.SparkListenerSQLExecutionStart SparkListenerJobStart //N个 SparkListenerStageSubmitted //N个 SparkListenerTaskStart SparkListenerTaskEnd //N个

2021-01-13

4560

Spark History Server自动删除日志文件

spark node.js hadoop 面向对象编程

公司的计算平台上，写入spark-history目录日志文件数超过设定阈值（1048576），导致任务失败。

2021-01-04

2.7K0

Spark on YARN基础

yarn spark node.js

不管使用哪种模式，Spark应用程序的代码是一模一样的，只需要在提交的时候通过--master参数来指定我们的运行模式即可

2020-11-24

6350

头条大数据实践

大数据日志数据数据库数据分析 spark

一、除了日志数据，关系数据库中的数据也是数据分析的重要来源。在数据的采集方式上，用Spark实现类 Sqoop 的分布式抓取替代了早期定期用单机全量抓取 MySQL 数据表的方式，有效的提升了抓取速度，突破了单机瓶颈。

2018-12-06

6850

spark jvm 存储

1、spark程序停-启，实时数据量一下子太多，如何处理 2、spark程序数据丢失，如何处理？duration是多少？

2018-08-15

3290

Linux解决方案：No space left on device

字面上理解，磁盘上没有多余的空间了。 1/先用df命令查看当前计算器磁盘空闲情况 df -a image.png /dev/mapper/vg_spark01-lv_root文件系统占用了95%

2018-06-19

2.4K0

Flume + Kafka + Spark Streaming整合

参考： http://archive.cloudera.com/cdh5/cdh/5/flume-ng-1.6.0-cdh5.5.0/FlumeUserGuide.html Logger-->Flume 1/配置Flume配置文件streaming.conf agent1.sources=avro-source agent1.channels=logger-channel agent1.sinks=log-sink #define source agent1.sources.avro-source

2018-06-14

1.3K0

Spark Streaming + Kafka整合

参考官网 http://spark.apache.org/docs/2.1.0/streaming-kafka-0-8-integration.html 之前先确保以下操作： 1、先启动ZK：./zkServer.sh start 2、启动Kafka：./kafka-server-start.sh -daemon $KAFKA_HOME/config/server.properties 3、创建topic： ./kafka-topics.sh --create --zookeeper hadoo

2018-06-14

7100

第3章 Spark性能优化

spark 数据结构

3.2、诊断内存的消耗 image.png image.png 3.3、高性能序列化类库 image.png image.png image.png image.png image.png 3.4、优

2018-06-06

4100

Spark local mode 报Input path does not exist: hdfs://

写了个spark任务， cd C:\Users\Administrator\IdeaProjects\SparkSQLProject> mvn clean package -DskipTests 打成jar包-rz上传至spark服务器home/hadoop/Downloads/目录下， local mode,执行提交任务: spark-submit \ --class com.xxx.cn.SQLContextApp \ --master local[2] \ home/hadoop

2018-04-26

2.2K0

DataFrame与RDD的互操作

DataFrame Interoperating with RDDs 参考官网 http://spark.apache.org/docs/2.2.0/sql-programming-guide.html#interoperating-with-rdds DataFrame和RDD互操作的两种方式比较： 1）反射推导式：case class 前提：事先需要知道字段、字段类型 2）编程式：Row 如果第一种情况不能满足要求（事先不知道列等schema信息）选型：优先考虑第一种，使用

2018-04-26

8720

Spark远程调试

spark apache ssh java

start-all.sh -> start-master.sh -> start-slaves.sh 1.Master启动的脚本 start-master.sh -> spark-daemon.sh start org.apache.spark.deploy.master.Master 2.Worer的启动过程 salves.sh -> 通过读取slaves，通过ssh的方式启动远端的worker spark-daemon.sh start org.apache.spark.deploy.w

2018-04-26

1.8K0

Spark源码编译

前置条件: CentOS6.7 JDK1.7+ Maven 3.3.9 Spark2.1.0 1.到spark官网上下载spark2.1.0的源码 📷 spark-download.png 2.执行mkdir source新建目录，在此目录下通过wget下载源代码 wget https://archive.apache.org/dist/spark/spark-2.1.0/spark-2.1.0.tgz 3.在source目录下执行tar -zxvf spark-2.1.0.tg

2018-04-26

1.1K0

SparkSQL执行错误run at ThreadPoolExecutor.java:1149

为了窥视SparkSQL执行SQL时的内在机制，新建一个测试表test， create table test(key string,value string) 基于这个测试表，执行下面的sql语句

2018-04-26

1.4K0

SparkSQL操作外部数据源

spark 云数据库 SQL Server 数据库 sql

parquet数据 hive表数据 mysql表数据 hive与mysql结合 1.处理parquet数据启动spark-shell: spark-shell --master local[2] --jars ~/software/mysql-connector-java-5.1.27-bin.jar 在spark-shell模式下，执行标准的加载方法 : val path = "file:///home/hadoop/app/xxx.parquet"//处理的parquet文件的路径 val us

2018-04-26

1.1K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态