Sam Gor

LV1

技术专栏

SAMshareTA创建的

259 文章30 关注者

全部文章

  • 风控ML[3] | 风控建模的WOE与IV

    「风控ML」系列文章,主要是分享一下自己多年以来做金融风控的一些事一些情,当然也包括风控建模、机器学习、大数据风控等相关技术分享,欢迎同行交流与新同学的加入,共...

    Sam Gor
  • 风控ML[2] | 机器学习模型如何做业务解释?

    「风控ML」系列文章,主要是分享一下自己多年以来做金融风控的一些事一些情,当然也包括风控建模、机器学习、大数据风控等相关技术分享,欢迎同行交流与新同学的加入,共...

    Sam Gor
  • 风控ML[1] | 风控建模老司机的几点思考与总结

    「风控ML」系列文章,主要是分享一下自己多年以来做金融风控的一些事一些情,当然也包括风控建模、机器学习、大数据风控等相关技术分享,欢迎同行交流与新同学的加入,共...

    Sam Gor
  • 一起揭开 YARN 的神秘面纱

    我们知道MapReduce1.0,是把计算框架和资源调度框架都弄在一起了,所以Master端的JobTracker会大包大揽去执行任务,存在很多问题,比如资源分...

    Sam Gor
  • 一起揭开 Kafka 的神秘面纱

    Kafka是由Servers(服务器)和Clients(客户端)组成的高吞吐量分布式发布订阅消息系统,可以部署在裸机、虚拟机以及云环境上。在我们接触的很多业务场...

    Sam Gor
  • 用随机梯度下降来优化人生!

    1.要有目标。你需要有目标。短的也好,长的也好。认真定下的也好,别人那里捡的也好。就跟随机梯度下降需要有个目标函数一样。

    Sam Gor
  • 一起揭开 PySpark 编程的神秘面纱

    Spark 是 UC Berkeley AMP lab 开发的一个集群计算的框架,类似于 Hadoop,但有很多的区别。最大的优化是让计算任务的中间结果可以存储...

    Sam Gor
  • 一起揭开 Hive 编程的神秘面纱

    Hadoop实现了一个特别的计算模型,就是MapReduce,可以将我们的计算任务分拆成多个小的计算单元,然后分配到家用或者服务器级别的硬件机器上,从而达到降低...

    Sam Gor
  • 3万字长文,PySpark入门级学习教程,框架思维

    关于PySpark,我们知道它是Python调用Spark的接口,我们可以通过调用Python API的方式来编写Spark程序,它支持了大多数的Spark功能...

    Sam Gor
  • 用PySpark开发时的调优思路(下)

    下面我们就来讲解一些常用的Spark资源配置的参数吧,了解其参数原理便于我们依据实际的数据情况进行配置。

    Sam Gor
  • 用PySpark开发时的调优思路(上)

    这一小节的内容算是对pyspark入门的一个ending了,全文主要是参考学习了美团Spark性能优化指南的基础篇和高级篇内容,主体脉络和这两篇文章是一样的,只...

    Sam Gor
  • 在PySpark上使用XGBoost

    我这里提供一个pyspark的版本,参考了大家公开的版本。同时因为官网没有查看特征重要性的方法,所以自己写了一个方法。本方法没有保存模型,相信大家应该会。

    Sam Gor
  • PySpark入门级学习教程,框架思维(中)

    在讲Spark SQL前,先解释下这个模块。这个模块是Spark中用来处理结构化数据的,提供一个叫SparkDataFrame的东西并且自动解析为分布式SQL查...

    Sam Gor
  • PySpark入门级学习教程,框架思维(上)

    为什么要学习Spark?作为数据从业者多年,个人觉得Spark已经越来越走进我们的日常工作了,无论是使用哪种编程语言,Python、Scala还是Java,都会...

    Sam Gor
  • 如何量化样本偏差对信贷风控模型的影响?

    风控是信贷业务的核心,业务实践中经常会出现样本选择性偏差(sample bias),从而影响模型效果,影响信贷业务。而很多风控模型也都只能基于有偏样本建立。对于...

    Sam Gor
  • [013] 7种常见数据结构的图画解读

    Data structures are fundamental constructs that are used to build programs. Each...

    Sam Gor
  • [012] 不同数据集划分与验证方法的实现与比较

    Model evaluation is a set of procedures allowing you to pick the best possible s...

    Sam Gor
  • 金色传说,开源教程!属于算法的大数据工具-pyspark

    spark是目前大数据领域的核心技术栈,许多从事数据相关工作的小伙伴都想驯服它,变成"驯龙高手",以便能够驾驭成百上千台机器组成的集群之龙来驰骋于大数据之海。

    Sam Gor
  • 我用特征工程+LR超过了xDeepFM!

    之前对于特征工程的了解知之甚少,后来和杰少,峰少等朋友聊完之后,也自己跑了一些竞赛,深受启发,之前一直认为特征工程是艺术,但现在我个人更倾向于认为它是一门技术,...

    Sam Gor
  • 用户行为序列的特征设计和挖掘思路分享

    金融风控,可以是对于信贷类金融风控(银行贷款,花呗,信用卡等),也可以是现金支出(刷微信支付余额和支付宝余额)。

    Sam Gor

个人简介

个人成就

扫码关注云+社区

领取腾讯云代金券