首页
学习
活动
专区
工具
TVP
发布

大数据-Hadoop、Spark

专栏作者
88
文章
141150
阅读量
39
订阅数
网易Kyuubi
网易在Spark多租户方面的工作,这个项目叫做Kyuubi(该项目的开源地址: https://github.com/netease-bigdata/kyuubi https://github.com/yaooqinn/kyuubi),实际上是类似于HiveSever2的程序。
sparkle123
2021-03-03
1.5K0
EMR Remote Shuffle Service
ESS(EMR Remote Shuffle Service)是EMR在优化计算引擎的Shuffle操作上,推出的扩展组件。
sparkle123
2021-03-03
1.4K0
Spark on K8S
Spark Standalone on Kubernetes (via k8s community) SPIP: SPARK-18278 https://github.com/apache-spark-on-k8s/spark (fork)
sparkle123
2021-01-26
5870
Spark任务日志
SparkListenerLogStart SparkListenerBlockManagerAdded SparkListenerEnvironmentUpdate SparkListenerApplicationStart //N个 SparkListenerExecutorAdded //N个 SparkListenerBlockManagerAdded org.apache.spark.sql.execution.ui.SparkListenerSQLExecutionStart SparkListenerJobStart //N个 SparkListenerStageSubmitted //N个 SparkListenerTaskStart SparkListenerTaskEnd //N个
sparkle123
2021-01-13
4340
Spark History Server自动删除日志文件
公司的计算平台上,写入spark-history目录日志文件数超过设定阈值(1048576),导致任务失败。
sparkle123
2021-01-04
2.5K0
Spark on YARN基础
不管使用哪种模式,Spark应用程序的代码是一模一样的,只需要在提交的时候通过--master参数来指定我们的运行模式即可
sparkle123
2020-11-24
6170
头条大数据实践
一、 除了日志数据,关系数据库中的数据也是数据分析的重要来源。在数据的采集方式上,用Spark实现类 Sqoop 的分布式抓取替代了早期定期用单机全量抓取 MySQL 数据表的方式,有效的提升了抓取速度,突破了单机瓶颈。
sparkle123
2018-12-06
6640
2018-08-08
1、spark程序停-启,实时数据量一下子太多,如何处理 2、spark程序数据丢失,如何处理?duration是多少?
sparkle123
2018-08-15
3160
Linux解决方案:No space left on device
字面上理解,磁盘上没有多余的空间了。 1/先用df命令查看当前计算器磁盘空闲情况 df -a image.png /dev/mapper/vg_spark01-lv_root文件系统占用了95%
sparkle123
2018-06-19
2.3K0
Flume + Kafka + Spark Streaming整合
参考: http://archive.cloudera.com/cdh5/cdh/5/flume-ng-1.6.0-cdh5.5.0/FlumeUserGuide.html Logger-->Flume 1/配置Flume配置文件streaming.conf agent1.sources=avro-source agent1.channels=logger-channel agent1.sinks=log-sink #define source agent1.sources.avro-source
sparkle123
2018-06-14
1.3K0
Spark Streaming + Kafka整合
参考官网 http://spark.apache.org/docs/2.1.0/streaming-kafka-0-8-integration.html 之前先确保以下操作: 1、先启动ZK:./zkServer.sh start 2、启动Kafka:./kafka-server-start.sh -daemon $KAFKA_HOME/config/server.properties 3、创建topic: ./kafka-topics.sh --create --zookeeper hadoo
sparkle123
2018-06-14
6910
第3章 Spark性能优化
3.2、诊断内存的消耗 image.png image.png 3.3、高性能序列化类库 image.png image.png image.png image.png image.png 3.4、优
sparkle123
2018-06-06
3980
Spark local mode 报Input path does not exist: hdfs://
写了个spark任务, cd C:\Users\Administrator\IdeaProjects\SparkSQLProject> mvn clean package -DskipTests 打成jar包-rz上传至spark服务器home/hadoop/Downloads/目录下, local mode,执行提交任务: spark-submit \ --class com.xxx.cn.SQLContextApp \ --master local[2] \ home/hadoop
sparkle123
2018-04-26
2.1K0
DataFrame与RDD的互操作
DataFrame Interoperating with RDDs 参考官网 http://spark.apache.org/docs/2.2.0/sql-programming-guide.html#interoperating-with-rdds DataFrame和RDD互操作的两种方式比较: 1)反射推导式:case class 前提:事先需要知道字段、字段类型 2)编程式:Row 如果第一种情况不能满足要求(事先不知道列等schema信息) 选型:优先考虑第一种,使用
sparkle123
2018-04-26
8490
Spark远程调试
start-all.sh -> start-master.sh -> start-slaves.sh 1.Master启动的脚本 start-master.sh -> spark-daemon.sh start org.apache.spark.deploy.master.Master 2.Worer的启动过程 salves.sh -> 通过读取slaves, 通过ssh的方式启动远端的worker spark-daemon.sh start org.apache.spark.deploy.w
sparkle123
2018-04-26
1.7K0
Spark源码编译
前置条件: CentOS6.7 JDK1.7+ Maven 3.3.9 Spark2.1.0 1.到spark官网上下载spark2.1.0的源码 📷 spark-download.png 2.执行mkdir source新建目录,在此目录下通过wget下载源代码 wget https://archive.apache.org/dist/spark/spark-2.1.0/spark-2.1.0.tgz 3.在source目录下执行tar -zxvf spark-2.1.0.tg
sparkle123
2018-04-26
1.1K0
SparkSQL执行错误run at ThreadPoolExecutor.java:1149
为了窥视SparkSQL执行SQL时的内在机制,新建一个测试表test, create table test(key string,value string) 基于这个测试表,执行下面的sql语句
sparkle123
2018-04-26
1.3K0
SparkSQL操作外部数据源
parquet数据 hive表数据 mysql表数据 hive与mysql结合 1.处理parquet数据 启动spark-shell: spark-shell --master local[2] --jars ~/software/mysql-connector-java-5.1.27-bin.jar 在spark-shell模式下,执行 标准的加载方法 : val path = "file:///home/hadoop/app/xxx.parquet"//处理的parquet文件的路径 val us
sparkle123
2018-04-26
1.1K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档