逐步回归(Stepwise Regression)是一种逐步选择变量的回归方法,用于确定最佳的预测模型。它通过逐步添加和删除变量来优化模型的预测能力。
对于分类模型,在建立好模型后,我们想对模型进行评价,常见的指标有混淆矩阵、KS曲线、ROC曲线、AUC面积等。也可以自己定义函数,把模型结果分割成n(100)份,计算top1的准确率、覆盖率。
PSI这个指标我们在风控建模前后都是需要密切关注的,这个指标直接反映了模型的稳定性,对于我们评估模型是否需要迭代有着直接的参考意义。今天我将从下面几方面来介绍一下这个指标。
对于分类模型,在建立好模型后,我们想对模型进行评价,常见的指标有混淆矩阵、F1值、KS曲线、ROC曲线、AUC面积等。
比如:两个样本方差比服从F分布,区间估计就采用F分布计算临界值(从而得出置信区间),最终采用F检验。
Ansible部署完之后会发现一直无法通过自动化启动Tomcat, 这是要将环境变量添加到系统文件 /root/.bashrc 与/root/.bash_profile。
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36',
KS-检验与t-检验等方法不同的是KS检验不需要知道数据的分布情况,可以算是一种非参数检验方法。当然这样方便的代价就是当检验的数据分布符合特定的分布时,KS-检验的灵敏度没有相应的检验来的高。在样本量比较小的时候,KS-检验作为非参数检验,在分析两组数据之间是否存在异常时相当常用。
最近我们被客户要求撰写关于时间序列进行聚类研究报告,包括一些图形和统计输出。 时序数据的聚类方法,该算法按照以下流程执行。
本文选自《Python用KShape对时间序列进行聚类和肘方法确定最优聚类数k可视化》。
最近在参赛时也发现了一个问题,就是算法在训练集上完全拟合(KS=1),但是到测试集上衰退得比较多,即出现了过拟合的现象。
大家好呀!在上一篇我们介绍了3种业界常用的自动最优分箱方法。 1)基于CART算法的连续变量最优分箱 2)基于卡方检验的连续变量最优分箱 3)基于最优KS的连续变量最优分箱 今天这篇文章就来分享一下这3种方法的Python实现。
这周因为一些原因需要整理一些风控建模的知识点,顺便在这里整理一下,一起来回顾回顾。
信用风险计量模型可以包括跟个人信用评级,企业信用评级和国家信用评级。人信用评级有一系列评级模型组成,常见是A卡(申请评分卡)、B卡(行为模型)、C卡(催收模型)和F卡(反欺诈模型)。 今天我们展示的是个人信用评级模型的开发过程,数据采用kaggle上知名的give me some credit数据集。
有一些五六年前的学生们都成长为了各个生物信息学相关公司的小领导,而且他们都有了自己的公众号,知乎号,也算是一番人物。最近他们跟我反馈面试找不到或者说很难直接考核筛选到认真干活的生信工程师,挺有意思的。让我想起来了早在生信技能树论坛创立之初我为了引流,而规划的200个生信工程师面试题。值得继续分享:
无论是在TianChi,还是在Kaggle上,通常会出现类似0-1分类,多分类这样的问题,比如:
用到的相关模块 scipy numpy matplotlib mayavi 模块安装 主要就是这四个模块,如果要安装的话,前三个可以直接使用sudo pip install xxx来安装。对于mayavi,安装起来比较复杂,主要是vtk的安装,我安装了几次都没有成功,不管是使用ccmake还是使用independent installer都没法用,在尝试了一个下午之后,发现了python科学计算的神器Canopy。 Canopy是Python科学计算的集成环境,里面集成了你所知道,你所需要的所有pytho
17/12/30-update :很多朋友私密我想要代码,甚至利用金钱诱惑我,好吧,我沦陷了。因为原始代码涉及到公司的特征工程及一些利益trick,所以我构造了一个数据集后复现了部分算法流程,需要看详细代码实现朋友可以移步Ensemble_Github
前言 看完 gcForest 这篇 paper 有一段时间了,但是一直没有去网上搜集相关的实现代码,去把它调试跑通,并将之应用到实际的项目中。这两天终于抽空做了实现,并和自己项目中常用的集成算法(TreeNet、XGBoost)做了简单对比。下面总结一下整个算法的 Python 实现过程,以及将它应用到自己的数据集上出现的问题和解决办法。 一、运行环境要求 Python 版本:3.6.0 以上; numpy 版本:1.12.0 以上; jupyter 版本:1.0.0 以上; scikit-learn 版本
大家在做渗透测试的时候,遇到linux的服务器,想反弹shell回来本地溢出提权,怎么办?上传反弹脚本?当然可以,简单来说就是A主机可以通过执行B主机上的命令并且把返回值都返回到A上。今天再告诉大家几种方法
括号中的解析语法也可以用来创建产生所需结果的生成器(例如,内置的sum函数,按一种顺序汇总各项):
发布于 2014-08-25 23:12:16 | 595 次阅读 | 评论: 0 | 来源: 网友投递
K-means 算法是典型的基于距离的聚类算法,采用距离作为相似性的评价指标,两个对象的距离越近,其相似度就越大。而簇是由距离靠近的对象组成的,因此算法目的是得到紧凑并且独立的簇。
Kolmogorov–Smirnov 检验,简称KS检验,是统计学中的一种非参数假设检验,用来检测单样本是否服从某一分布,或者两样本是否服从相同分布。在单样本的情况下,我们想检验这个样本是否服从某一分布函数,记是该样本的经验分布函数。 我们有假设:为此,我们构造KS统计量:
之前阐述了模型本身的评价指标:混淆矩阵、F1值、KS曲线、count_table和ROC曲线AUC面积,本文介绍模型稳定性指标PSI。
cobbler的网址为https://IP/cobbler_web 账户名和密码都为默认的cobbler
在前面的文章中讲过,很多模型的假设条件都是数据是服从正态分布的。这篇文章主要讲讲如何判断数据是否符合正态分布。主要分为两种方法:描述统计方法和统计检验方法。
泛基因组分析中通常会使用orthofinder去分析基因家族,将这些基因家族分为核心和可变、私有等,然后会算不同类别的基因家族的Ka/Ks的值,主要说明的问题就是核心基因家族相对比较保守
1. 一台Windows电脑 2. 下载下方两个文件 1.zip 密码:ai3o 2.zip密码:9qqu
Linux 习题练习01 在用户家目录下创建 Video/Watched [root@localhost ~]# mkdir -p Video/Watched 新建 a.txt, b.txt, c.txt 文件,将这三个文件连接为一个文件 [root@localhost ~]# echo "A" > a.txt && echo "B" > b.txt && echo "C" > c.txt [root@localhost ~]# cat a.txt b.txt c.txt > /tmp/bound.t
聚类分析(Cluster Analysis)是一类经典的无监督学习算法。在给定样本的情况下,聚类分析通过特征相似性或者距离的度量方法,将其自动划分到若干个类别中。常用的聚类分析方法包括层次聚类法(Hierarchical Clustering)、k均值聚类(K-means Clustering)、模糊聚类(Fuzzy Clustering)以及密度聚类(Density Clustering)等。本节我们仅对最常用的kmeans算法进行讲解。
我们需要一个用于WebAssembly的Python实现,这已经不是什么秘密了。它不仅将Python引入到浏览器中,而且由于iOS和Android都支持将JavaScript作为应用的一部分运行,它也将Python引入到移动端。这一切都让我兴奋。
环境: [root@kickstart ~]# cat /etc/redhat-release CentOS Linux release 7.4.1708 (Core) [root@kickstart ~]# uname -r 3.10.0-693.el7.x86_64 [root@kickstart ~]# getenforce Disabled [root@kickstart ~]# systemctl status firewalld.service ● firewalld.service - fi
已然安装完毕,root密码为 “123456”,就是之前用ssl加密的那个 登陆web管理 https://192.168.1.111/cobbler_web #中间IP换成你自己的
我们这做风控模型的时候,经常是会用KS值来衡量模型的效果,这个指标也是很多领导会直接关注的指标。今天写一篇文章来全面地剖析一下这个指标,了解当中的原理以及实现,因为这些知识是必备的基本功。我将会从下面几个方面来展开讲解一下KS:
如果服务器数量较少,我们可以通过idrac或现场安装,但是服务器几十台甚至上百台可能就不适用了,此时我们就需要无人值守安装。不管数量多少,彻底和人工说88,在此推荐Cobbler;
大数据时代的到来,使得很多工作都需要进行数据挖掘,从而发现更多有利的规律,或规避风险,或发现商业价值。
http://gk.link/a/108GK ,内容挺全面,学了应该对算法有帮助。
在金融领域中,我们的y值和预测得到的违约概率刚好是两个分布未知的两个分布。好的信用风控模型一般从准确性、稳定性和可解释性来评估模型。
Cobbler 快速入门指南 ---- 由于Cobbler涉及各种各样的技术,Cobbler可能是一个稍微复杂的系统,但它在安装后几乎不需要任何配置就支持大量功能。在开始使用Cobbler之前,您应该具备PXE相关知识以及所选发行版的自动化安装方法。 本快速入门指南将重点介绍红帽kickstart流程,该流程非常成熟并经过了充分测试。未来我们将为其他发行版(如Ubuntu和SuSE)添加快速入门指南。下面的步骤将集中在Fedora上,但它们应该适用于任何基于Red Hat的发行版,例如RHEL,CentOS
我们从近10000个python开源框架中评价整理的34个最为好用的开源框架,它们细分可以分为Python Toolkit、Web、Terminal、Code Editor、Debugging、complier、Data Related、Chart8类,分布情况如下图:
[root@s141 ~]# python Python 2.7.5 (default, Sep 15 2016, 22:37:39) [GCC 4.8.5 20150623 (Red Hat 4.8.5-4)] on linux2 Type "help", "copyright", "credits" or "license" for more information. >>> import os #加载模块 >>> r=os.system >>> r("ls /root")
人工智能和深度学习的热潮极大的带动了Python的发展,迅速在Python生态圈中催生了大批的涉及各个方面的优秀Python开源框架,今天小编就带你回顾下2018年度最优秀好用的Python开源框架。
一般来说,监督学习的目标函数由损失函数和正则化项组成。(Objective = Loss + Regularization)
Python自身作为一门编程语言,它有多种实现。这里的实现指的是符合Python语言规范的Python解释程序以及标准库等。这些实现虽然实现的是同一种语言,但是彼此之间,特别是与CPython之间还是有些差别的。
领取专属 10元无门槛券
手把手带您无忧上云