首页
学习
活动
专区
工具
TVP
发布

Spark学习技巧

本公众号主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到hadoop家族。
专栏作者
810
文章
1229221
阅读量
247
订阅数
《稀缺:我们是如何陷入贫穷与忙碌的》读后感
容易被忽略的稀缺状态? 当你拆东墙补西墙,不停地还贷款,最后发现自己还是在原地兜圈子,捉肘见襟的状况根本没有改变? 如果出现这种情况,说明你已经陷入了“稀缺陷阱”。这时候,你就像在玩儿杂耍,从一个紧
Spark学习技巧
2021-07-27
5040
美团面试题:JVM堆内存溢出后,其他线程是否可继续工作?
最近网上出现一个美团面试题:“一个线程OOM后,其他线程还能运行吗?”。我看网上出现了很多不靠谱的答案。这道题其实很有难度,涉及的知识点有jvm内存分配、作用域、gc等,不是简单的是与否的问题。
Spark学习技巧
2019-06-28
5330
程序员们~笑抽了别怪我
前方高能,每一个程序员看完,你不笑死个人,你来找我,我自己看了好几遍,反正笑的停不下来,太特么有才了。
Spark学习技巧
2018-12-28
5150
Ant Design 圣诞彩蛋变炸弹:蚂蚁金服开源项目遭开发者炮轰
Ant Design是一套由蚂蚁金服开发的企业级开发UI组件库,并已经开源。今天,由于在该框架中设置了一个未事先告知的圣诞彩蛋,且无法手动禁用,开发者社区对该项目发起了连番指责。
Spark学习技巧
2018-12-28
2.4K0
为什么程序员对旧代码深恶痛绝?
最近有人问我,为什么软件开发者非常痛恨维护别人的代码?我思考了很久怎样回答这个问题,最后决定做一个简单的比喻。
Spark学习技巧
2018-12-19
3520
一组漫画完美总结互联网人生
1991年,万维网(World Wide Web)向公众开放,标志着互联网的诞生。如今人类的生活被互联网极大地改变,以至于没有网络的生活几乎是难以想象的...
Spark学习技巧
2018-12-18
3370
Apache Kafka:优化部署的 10 种最佳实践
Apache Kafka 肯定会像它的同名小说家一样不负众望,因为它能激奋新来者、挑战深度,若能更全面的理解它还会产生丰厚的回报。抛开文学,书归正传。遵循 kafka 最新的最佳实践,一定可以让这个强大的数据流平台的管理变得非常、非常容易,而且还会相当有效。
Spark学习技巧
2018-12-18
1.2K0
Spark SQL的几个里程碑!
官方版本是spark 1.0.0引入的Spark SQL模块。当时这个模块的核心实际上就是一种新类型的RDD,叫做SchemaRDD。SchemaRDD就是类型为ROW的RDD,但同时又包含了一个描述每一列数据类型的schema信息。SchemRDD也可类似于传统数据库的一张表。SchemaRDD可以从已有的RDD创建,可以是Parquet文件,json数据集或则HiveQL生成。该版本引入是在2014年五月30日。
Spark学习技巧
2018-12-13
7790
知乎数据埋点方案
从业务过程中采集埋点,是数据驱动型公司的必要条件。知乎的产品功能评审环节,不仅有 PRD (Product requirement document),还加入了对应的 DRD ( Data requirement document)。对于埋点而言,DRD 需要明确业务目标与埋点缺口之间的关系以及需求的优先级。埋点的需求大多来自于 DRD,整个过程会涉及多个角色,主要包括产品经理、业务数据负责人、开发工程师、测试工程师。
Spark学习技巧
2018-12-11
6.3K0
如何成为一个优秀的工程师?
这是一篇旧文,是陆奇还在百度时候的演讲:如何成为一个优秀的工程师。道出了一个工程师应有的追求,如此,未来才能属于工程师。
Spark学习技巧
2018-12-07
6490
案例简介flink CEP
随着无处不在的传感器网络和智能设备不断收集越来越多的数据,我们面临着以近实时的方式分析不断增长的数据流的挑战。 能够快速响应不断变化的趋势或提供最新的商业智能可能是公司成功或失败的决定性因素。 实时处理中的关键问题是检测数据流中的事件模式。
Spark学习技巧
2018-12-06
3.6K0
IT职场新人碰到的几个常见误区
我工作10+年了,大概五年前从技术转管理后,多少还是发现一些职场新人职业发展的问题。
Spark学习技巧
2018-12-04
7920
偏好:个人习惯的局限与反思
经过长时间的工作实践,我们会逐步养成一些做事的个人喜好或习惯,并且会自我感觉这种个人习惯会是很好的方法。
Spark学习技巧
2018-12-04
5840
RDD的join和Dstream的join有什么区别?
Dstream这个类实际上支持的只是Spark Streaming的基础操作算子,比如: map, filter 和window.PairDStreamFunctions 这个支持key-valued类型的流数据
Spark学习技巧
2018-11-22
1.3K0
Redis 的各项功能解决了哪些问题?
综上所述,Redis提供了丰富的功能,初次见到可能会感觉眼花缭乱,这些功能都是干嘛用的?都解决了什么问题?什么情况下才会用到相应的功能?那么下面从零开始,一步一步的演进来粗略的解释下。
Spark学习技巧
2018-11-08
3620
如何成为一名优秀的架构师?
想一下软件架构的评审过程:一位架构师参与进来,俯视一切然后指指点点,高谈阔论。他发表的评论要么过于粗浅,要么严重脱离实际。
Spark学习技巧
2018-11-08
1.2K0
Structured Streaming实现超低延迟
浪院长,最近忙死了,写文章的时间都没了。但是,都说时间就像海绵里的水,挤挤就有了。所以,今晚十点半开始整理这篇Structured streaming 相关的文章。
Spark学习技巧
2018-11-05
1.3K0
Flink高效的内存管理
如今,大数据领域的开源框架(Hadoop,Spark,Storm)都使用的 JVM,当然也包括 Flink。基于 JVM 的数据分析引擎都需要面对将大量数据存到内存中,这就不得不面对 JVM 存在的几个问题:
Spark学习技巧
2018-10-25
1.4K0
Hive学习之Lateral View
Lateral view与UDTF函数如explode()一起使用,UDTF对每个输入行产生0或者多个输出行。Lateral view首先在基表的每个输入行应用UDTF,然后连接结果输出行与输入行组成拥有指定表别名的虚拟表。Lateralview的语法如下:
Spark学习技巧
2018-10-25
2.9K0
Rowkey(行键)设计
HBase 中的行按行键按顺序排序。这种设计优化了扫描(scan),允许您将相关的行或彼此靠近的行一起读取。但是,设计不佳的行键是 hotspotting 的常见来源。当大量客户端通信针对群集中的一个节点或仅少数几个节点时,会发生 Hotspotting。此通信量可能表示读取、写入或其他操作。通信量压倒负责托管该区域的单个机器,从而导致性能下降并可能导致区域不可用性。这也会对由同一台区域服务器托管的其他区域产生不利影响,因为该主机无法为请求的负载提供服务。设计数据访问模式以使群集得到充分和均匀利用非常重要。
Spark学习技巧
2018-10-25
6750
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档