首页
学习
活动
专区
工具
TVP
发布

肖力涛的专栏

专栏作者
10
文章
36653
阅读量
38
订阅数
Spark 踩坑记:从 RDD 看集群调度
本文介绍了分布式数据集(RDD)的数学定义和原理,并详细讲解了 Apache Spark 的 RDD 实现。作者通过举例介绍了 RDD 的三种主要转换操作,并探讨了在 Spark 集群环境下,如何通过 RDD 进行分布式计算。最后,本文介绍了在 PySpark 中如何使用 RDD 进行分布式流处理。
肖力涛
2017-08-15
2.1K0
Spark踩坑记:共享变量
本文主要介绍了如何在Spark中通过共享变量和广播变量来提高数据处理效率和处理速度。作者通过实例介绍了共享变量和广播变量的使用方法,包括使用方式、注意事项以及示例代码。同时,作者还针对广播变量的更新难易程度提出了一种解决方案。该方案可以有效地解决广播变量更新困难的问题,在每天千万级的数据实时流统计中表现稳定。
肖力涛
2017-04-19
3.4K0
Spark 踩坑记:数据库(Hbase+Mysql)
肖力涛
2017-04-17
3.8K0
Spark踩坑记:初试
本文主要介绍了如何通过Apache Spark和Scala在Hadoop集群上实现基于文本的流式处理。首先介绍了Apache Spark和Scala的基本概念,然后详细讲解了如何利用Spark和Scala实现WordCount和FizzBuzz的示例。最后,介绍了一些实践经验,包括如何配置Hadoop和Spark环境、使用Eclipse和Maven构建Scala应用程序以及使用Kafka进行数据流处理等。
肖力涛
2017-04-14
2.5K0
Spark踩坑记:Spark Streaming+kafka应用及调优
该文介绍了如何利用Spark Streaming进行实时数据处理,包括批处理和流处理。文章首先介绍了Spark Streaming的基本概念、适用场景、工作原理和关键概念,然后详细讲解了如何利用Spark Streaming进行批处理和流处理,以及如何处理Kafka等分布式消息队列。最后,作者提供了一些优化建议,以提升Spark Streaming的性能和稳定性。
肖力涛
2017-04-10
8.9K1
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档