Sam Gor

LV1
发表了文章

一起揭开 YARN 的神秘面纱

我们知道MapReduce1.0,是把计算框架和资源调度框架都弄在一起了,所以Master端的JobTracker会大包大揽去执行任务,存在很多问题,比如资源分...

Sam Gor
发表了文章

一起揭开 Kafka 的神秘面纱

Kafka是由Servers(服务器)和Clients(客户端)组成的高吞吐量分布式发布订阅消息系统,可以部署在裸机、虚拟机以及云环境上。在我们接触的很多业务场...

Sam Gor
发表了文章

用随机梯度下降来优化人生!

1.要有目标。你需要有目标。短的也好,长的也好。认真定下的也好,别人那里捡的也好。就跟随机梯度下降需要有个目标函数一样。

Sam Gor
发表了文章

一起揭开 PySpark 编程的神秘面纱

Spark 是 UC Berkeley AMP lab 开发的一个集群计算的框架,类似于 Hadoop,但有很多的区别。最大的优化是让计算任务的中间结果可以存储...

Sam Gor
发表了文章

一起揭开 Hive 编程的神秘面纱

Hadoop实现了一个特别的计算模型,就是MapReduce,可以将我们的计算任务分拆成多个小的计算单元,然后分配到家用或者服务器级别的硬件机器上,从而达到降低...

Sam Gor
发表了文章

3万字长文,PySpark入门级学习教程,框架思维

关于PySpark,我们知道它是Python调用Spark的接口,我们可以通过调用Python API的方式来编写Spark程序,它支持了大多数的Spark功能...

Sam Gor
发表了文章

用PySpark开发时的调优思路(下)

下面我们就来讲解一些常用的Spark资源配置的参数吧,了解其参数原理便于我们依据实际的数据情况进行配置。

Sam Gor
发表了文章

用PySpark开发时的调优思路(上)

这一小节的内容算是对pyspark入门的一个ending了,全文主要是参考学习了美团Spark性能优化指南的基础篇和高级篇内容,主体脉络和这两篇文章是一样的,只...

Sam Gor
发表了文章

在PySpark上使用XGBoost

我这里提供一个pyspark的版本,参考了大家公开的版本。同时因为官网没有查看特征重要性的方法,所以自己写了一个方法。本方法没有保存模型,相信大家应该会。

Sam Gor
发表了文章

PySpark入门级学习教程,框架思维(中)

在讲Spark SQL前,先解释下这个模块。这个模块是Spark中用来处理结构化数据的,提供一个叫SparkDataFrame的东西并且自动解析为分布式SQL查...

Sam Gor
发表了文章

PySpark入门级学习教程,框架思维(上)

为什么要学习Spark?作为数据从业者多年,个人觉得Spark已经越来越走进我们的日常工作了,无论是使用哪种编程语言,Python、Scala还是Java,都会...

Sam Gor
发表了文章

如何量化样本偏差对信贷风控模型的影响?

风控是信贷业务的核心,业务实践中经常会出现样本选择性偏差(sample bias),从而影响模型效果,影响信贷业务。而很多风控模型也都只能基于有偏样本建立。对于...

Sam Gor
发表了文章

[013] 7种常见数据结构的图画解读

Data structures are fundamental constructs that are used to build programs. Each...

Sam Gor
发表了文章

[012] 不同数据集划分与验证方法的实现与比较

Model evaluation is a set of procedures allowing you to pick the best possible s...

Sam Gor
发表了文章

金色传说,开源教程!属于算法的大数据工具-pyspark

spark是目前大数据领域的核心技术栈,许多从事数据相关工作的小伙伴都想驯服它,变成"驯龙高手",以便能够驾驭成百上千台机器组成的集群之龙来驰骋于大数据之海。

Sam Gor
发表了文章

我用特征工程+LR超过了xDeepFM!

之前对于特征工程的了解知之甚少,后来和杰少,峰少等朋友聊完之后,也自己跑了一些竞赛,深受启发,之前一直认为特征工程是艺术,但现在我个人更倾向于认为它是一门技术,...

Sam Gor
发表了文章

用户行为序列的特征设计和挖掘思路分享

金融风控,可以是对于信贷类金融风控(银行贷款,花呗,信用卡等),也可以是现金支出(刷微信支付余额和支付宝余额)。

Sam Gor
发表了文章

怎么用matplotlib画出漂亮的分析图表

关于用matplotlib画图,先前的锦囊里有提及到,不过那些图都是比较简陋的(《特征锦囊:常用的统计图在Python里怎么画?》),难登大雅之堂,作为一名优秀...

Sam Gor
发表了文章

真香!Python十大文件骚操作!!

日常对于批量处理文件的需求非常多,用Python写脚本可以非常方便地实现,但在这过程中难免会和文件打交道,第一次做会有很多文件的操作无从下手,只能找度娘。

Sam Gor
发表了文章

这份数据清洗checklist,让开发过程更加高效

当我们拿到一批原始数据的时候,有一些我们是必须要执行的套路,也就是一些典型的数据初步分析工作流程,如果有这么一份Checklist,就好像飞机员要起飞前的各项设...

Sam Gor

个人简介

个人成就

扫码关注云+社区

领取腾讯云代金券