首页
学习
活动
专区
工具
TVP
发布

SAMshare

专栏作者
271
文章
290790
阅读量
38
订阅数
一起揭开 PySpark 编程的神秘面纱
Spark 是 UC Berkeley AMP lab 开发的一个集群计算的框架,类似于 Hadoop,但有很多的区别。最大的优化是让计算任务的中间结果可以存储在内存中,不需要每次都写入 HDFS,更适用于需要迭代的 MapReduce 算法场景中,可以获得更好的性能提升。例如一次排序测试中,对 100TB 数据进行排序,Spark 比 Hadoop 快三倍,并且只需要十分之一的机器。Spark 集群目前最大的可以达到 8000 节点,处理的数据达到 PB 级别,在互联网企业中应用非常广泛。
Sam Gor
2021-09-29
2K0
一起揭开 Hive 编程的神秘面纱
Hadoop实现了一个特别的计算模型,就是MapReduce,可以将我们的计算任务分拆成多个小的计算单元,然后分配到家用或者服务器级别的硬件机器上,从而达到降低成本以及可扩展的问题,在这个MapReduce计算模型底下,有一个分布式文件系统(HDFS),在支持分布式计算上极其重要。
Sam Gor
2021-09-29
4790
PySpark入门级学习教程,框架思维(中)
在讲Spark SQL前,先解释下这个模块。这个模块是Spark中用来处理结构化数据的,提供一个叫SparkDataFrame的东西并且自动解析为分布式SQL查询数据。我们之前用过Python的Pandas库,也大致了解了DataFrame,这个其实和它没有太大的区别,只是调用的API可能有些不同罢了。
Sam Gor
2021-04-26
4.3K0
[008] 数据清洗不知如何着手?强力推荐这份清单
It was before the Stack Overflow era, so not much help was available online. Some people would print out cheatsheets of different kinds and hang on the walls around their workstations. Having a couple of pages of frequently used codes in front of the desk was an efficient way of correcting syntax errors.
Sam Gor
2020-12-02
4040
[004] 使用SQL时,千万别犯这5种错误!
SQL and Machine Learning have a few things in common. It’s easy to start with one as it doesn’t require a lot of coding. Also, code rarely crashes.
Sam Gor
2020-11-19
5800
想学习Spark?先带你了解一些基础的知识
之前也学习过一阵子的Spark了,是时候先输出一些知识内容了,一来加深印象,二来也可以分享知识,一举多得,今天这篇主要是在学习实验楼的一门课程中自己记下来的笔记,简单梳理了一下,当做是需要了解得基础知识,让不熟悉Spark的同学也有一些简单的认识,里面若有写错的地方也希望大伙们指出哈。
Sam Gor
2020-07-28
2.1K0
数据质量问题剖析与解决锦囊
数据质量的问题影响业务是十分常见的,比如某个数据应用(报表A)的数据出现了异常,使用方就会因为出了异常不会使用,这样子会很影响业务的开展。一个好的数据服务应该是需要对这些质量问题有一个“预知”能力,简单来说就是需要先于业务知道问题,从而提前解决。
Sam Gor
2020-05-09
5050
最近面了十多个数据分析师,聊一聊我发现的一些问题
这里的技能包括编程语言、应用软件、常用工具包的api。有朋友会问:我是搞数据分析的,思路最重要,什么工具其实不重要,为什么面试非要问我这些工具熟练度?
Sam Gor
2020-02-26
4050
BDK | 资源如何进行分配才高效?
使用者在使用我们提供的接口获取数据,会进行很多的数据聚合工作,比如统计过去1年的销量、过去1周销量TopK的商品之类的,也有涉及很多更加复杂的指标计算。
Sam Gor
2020-01-22
4430
数据库查询,你还在 SELECT * 吗?
应用程序慢如牛,原因多多,可能是网络的原因、可能是系统架构的原因,还有可能是数据库的原因。
Sam Gor
2019-11-20
7180
如何去写一手好 SQL?
博主负责的项目主要采用阿里云数据库MySQL,最近频繁出现慢SQL告警,执行时间最长的竟然高达5分钟。导出日志后分析,主要原因竟然是没有命中索引和没有分页处理。其实这是非常低级的错误,我不禁后背一凉,团队成员的技术水平亟待提高啊。改造这些SQL的过程中,总结了一些经验分享给大家,如果有错误欢迎批评指正。
Sam Gor
2019-11-14
3550
一文总结BI、数据仓库、数据湖和数据中台内涵与差异
随着大数据技术的不断更新和迭代,数据管理工具得到了飞速的发展,相关概念如雨后春笋一般应运而生,如从最初决策支持系统(DSS)到商业智能(BI)、数据仓库、数据湖、数据中台等,这些概念特别容易混淆,本文对这些名词术语及内涵进行系统的解析,便于读者对数据平台相关的概念有全面的认识。
Sam Gor
2019-10-12
9190
BigData | 一文带你搞清楚"数据倾斜"(上)
我们在用hive取数的时候,有的时候只是跑一个简单的join语句,但是却跑了很长的时间,有的时候我们会觉得是集群资源不够导致的,但是很大情况下就是出现了"数据倾斜"的情况。
Sam Gor
2019-08-21
8160
【推荐收藏】7个小练习帮你打通SparkCore和SparkSQL编程任督二脉
本文将通过7个简单的小练习,对比示范SparkCore和SparkSQL编程的方法。除了WordCount词频统计这个典型的处理非结构数据的例子外,本文示范的大部分例子中,使用SparkSQL的编程接口都会更加简洁易懂。
Sam Gor
2019-07-15
1.2K0
Big Data | 流处理?Structured Streaming了解一下
上一篇文章里,总结了Spark 的两个常用的库(Spark SQL和Spark Streaming),可以点击这里进行回顾。其中,SparkSQL提供了两个API:DataFrame API和DataSet API,我们对比了它们和RDD:
Sam Gor
2019-07-08
1.1K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档