python数值等距_等距抽样python_mysql 等距设置 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

【干货】风控建模中把原始变量转成WOE实现

很多刚开始建模的同学，对原始变量转WOE都是一知半解，弄不清楚为什么要转WOE，也不清楚要怎么把变量转成WOE。

03

行为科学统计第一章知识点总结

1、什么是总体？什么是样本？总体是一个研究的所有研究对象的个体的集合。样本是被选择出来的参与研究的特定的个体集合。样本被期望能够代表总体。

01

您找到你想要的搜索结果了吗？

是的

没有找到

爱数科案例 | 青少年社交网络数据的清洗和预处理

本案例使用一份包含30000个样本的美国高中生社交网络信息数据集，进行了缺失值和异常值处理，并对连续变量进行标准化、离散化，对非数值离散变量进行编码。

03

Python3 四舍五入问题详解

“就本质来说，浮点算术是不精确的，而且程序员们很容易滥用它，从而使计算的结果几乎全部由噪声组成”

03

一日一学--如何对数值型特征进行分桶

当数值特征跨越不同的数量级的时候，模型可能会只对大的特征值敏感，这种情况可以考虑分桶操作。

03

评分卡模型开发-定性指标筛选

本文介绍了评分卡模型开发过程中，定性指标筛选的常用方法，包括基于信息增益、基于互信息、基于基尼指数的方法，以及基于决策树、随机森林、支持向量机等机器学习算法的方法。同时，介绍了在R语言中，如何使用informationvalue包和klaR包实现定性指标的筛选。最后，本文总结了入模指标筛选的原则和步骤，以及定量和定性指标的筛选方法，包括基于分段的方法和基于机器学习算法的方法。

数据分析之数据处理

数据处理是根据数据分析目的，将收集到的数据，用适当的处理方法进行加工、整理，形成适合数据分析的要求样式，它是数据分析前必不可少的工作，并且在整个数据分析工作量中占据了大部分比例。数据处理包括数据清洗、数据抽取、数据合并、数据计算、数据分组等操作。在进行数据处理之前，先要了解数据变量。

02

绘图技巧 | 超详细的Colorbar定制化绘制教程

本节提要：关于一些不常见的colorbar的仿制：弯曲与环形的colorbar、两端分离的colorbar、收缩colorbar的主副刻度、双刻度列colorbar、截取与拼接cmap、外部颜色引入cmaps与palettable库包、特别的格式定制、levels等距而colorbar刻度距离不等距、其他类型的伪colorbar、使刻度侧的框线与colorbar柱体分离。

04

深度学习与统计力学(IV) ：深层网络的信号传播和初始化

有趣的是，这种输入几何形状的信息传播的发散深度尺度与训练极深的临界网络的能力相吻合[31]（如图3所示）。此外，在远离临界点时，可靠的前向信息传播的深度尺度决定了神经网络可以训练的深度。这种临界相变、发散的深度尺度和临界状态下的深度可训练性不仅在全连接网络中观察到[31]，而且还在卷积网络[63]，自编码器[64]和循环网络[65,66]中观察到。

03

利用sklearn做特征工程详细教程

说明：参数degree代表次数，默认为2。当输入为两个特征时，输出结果会对两个特征进行组合，结果特征的次数小于等于2。比如输入为特征[a,b] [a,b][a,b]，则输出为[1,a,b,a2,ab,b2] [1,a,b,a^2, ab,b^2][1,a,b,a^2 ,ab,b^2 ]

04

评分法模型开发-WOE值计算

本文介绍了信用风险计量模型开发的一个关键步骤，即如何确定信用风险计量的指标体系和权重。作者详细解释了信用风险计量模型的开发过程，包括数据清洗、特征选择、模型训练和模型验证。在模型开发过程中，作者使用了多个定量和定性指标，并采用了基于逻辑回归的WOE编码来处理定性指标。最终，作者构建了一个信用风险计量模型，并提供了该模型的详细解释。

06

数据分析01-数据分箱

样例数据：我们创建一张hive表 t_box，包含两列（id,val), 其中id为1~1000，val 为随机数浮点数。

01

在Python中使用Matplotlib画多个绘图，so easy！

Python的Matplotlib库是使用最广泛的数据可视化库之一。使用Matplotlib，可以使用各种图表类型（包括折线图、条形图、饼图和散点图）绘制数据。

01

数值计算系列之牛顿插值原理及实现

本文介绍了插值概念和一般的计算方法，介绍了用于简化插值函数计算的牛顿插值方法。最后给出牛顿向前插值算法的python实现。

07

数据挖掘

---- 概述最近一直在学习数据挖掘和机器学习，无论是是服务端开发人员还是web开发人员，个人觉得最起码都要都一些最基本的数据挖掘和机器学习知识。废话少说，我们先来学习一下数据挖掘的是什么意思？个人的理解是从业务数据中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势。也就是说我们从数据中挖掘到符合我们所需的目标。数据挖掘的分解目标定义-》数据采样-》数据整理-》模型评价-》模型发布。所谓目标定义即定义我们到底需要做什么，目标的定义往往来源于需求，这里不去具体的阐述。为了确保数据完整、各项属

05

一文弄懂卡方分箱的原理和应用

其中有监督分箱主要包括：卡方分箱和决策树分箱。无监督分箱主要包括：等距分箱、等频分箱和聚类分箱等。

01

Python中的分布分析cut+groupby

分布分析（cut+groupby）根据分析目的，将数据（定量数据）进行等距或者不等距的分组，进行研究各组分布规律的一种分析方法。 import numpy import pandas data = pandas.read_csv( 'C:/Users/ZL/Desktop/Python/5.3/data.csv' ) aggResult = data.groupby( by=['年龄'] )['年龄'].agg({ '人数': numpy.size }) data

05

R语言如何用潜类别混合效应模型（LCMM）分析抑郁症状|附代码数据

最近我们被客户要求撰写关于潜类别混合效应模型（LCMM）的研究报告，包括一些图形和统计输出。

00

边框检测在 Python 中的应用

在游戏开发中，我们经常会回使用到边框检测。我们知道，边框检测是计算机视觉中常用的技术，用于检测图像中的边界和轮廓。在Python中，可以使用OpenCV库来实现边框检测。具体是怎么实现的？以下是一个简单的示例代码，演示如何在Python中使用OpenCV进行边框检测：

01

【商务智能】数据预处理

在进行数据分析之前 , 先要对数据进行预处理操作 , 本篇博客简要介绍常用的数据预处理方法 ;

03

用SPSS做数据分析？先弄懂SPSS的基础知识吧

1、SPSS数据分析的流程 2、SPSS特性： 3、数据的编辑： 1 常量数值型常量：除了普通写法外还可以用科学计数法，如：1.3E18；字符型常量：用单引号或双引号括起来如果字符中包含单引号，则

用鱼眼相机拍出全景视频

我们要干什么对于全景视频大家已经不陌生了，图1就是标准的全景视频截图。通过佩戴VR眼镜和利用VR视频播放器能够体验沉浸式感觉（上下左右前后观看视频），当然，观众看到的画面依赖于摄影机拍摄的点，不能随心移动，这是和VR视频的最大区别。图1 VR视频截图如何生成全景视频，大家可能很少关注过。本文将会介绍一种简单的生成全景视频的方法，基本能够满足爱好者的摄影和观影需求。鱼眼相机快速介绍人的双眼视角能够达到188度，而一般的手机拍照视角大概只能能达到90度左右，鱼眼相机一般在200度以上所以生成全景视

03

深度学习与统计力学(IV) ：深层网络的信号传播和初始化

在对公式(3)的误差曲面运行梯度下降之前，我们必须要选择参数的初始配置。对应公式(1)神经网络中所有层中的权重和偏置。通常，这些参数的初始值是随机选择的。权重从一个零均值方差为的高斯分布中独立同分布采样，其中为突触前层的神经元数量。偏置则是从一个零均值方差为的高斯分布中独立同分布采样。权重和偏置的相对尺度确保两者在同等的基础上影响突触后活动，即使对于大的。

03

从零开始学统计 09 | 对数转换

在左侧数值虽然是分别大8倍，小8倍的差别，但是在数轴上并不对称。但是经过转换后，这两个倍数差异离中心0是等距的，倍数变化就被明显的展示出来了。这可以使正负倍数的变化出现在一个对称的尺度上。

03

数据挖掘建模过程全公开

数据挖掘的基本任务包括利用分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法，帮助企业提取数据中蕴含的商业价值，提高企业的竞争力。

02

一文说清图表定制流程！

本文以光大证券2021年8月发布的《碳中和行业（电新+环保）周报20210801》中的图表为例，简述图表定制的基本流程。

02

初学指南：贝叶斯统计

什么是Bayesian Statistics？ Bayesian statistics is a particular approach to applying probability to statistical problems。在statistical inference上，主要有两派：频率学派和贝叶斯学派。 Frequentist statistics tries to eliminate uncertainty by providing estimates. Bayesian statistic

06

干货收藏！Python完整代码带你一文看懂抽样

导读：抽样是从整体样本中通过一定的方法选择一部分样本。抽样是数据处理的基本步骤之一，也是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。

02

KDD'21「华为」数值型特征embedding方法

这类方法不做embedding，而是直接用原始的数值作为特征，或者在数值上面做一些改进，例如youtube对于数值型特征分别做平方和平方根得到

02

贝叶斯统计：初学指南

在statistical inference上，主要有两派：频率学派和贝叶斯学派。

03

一文说清图表定制流程！

👆点击“博文视点Broadview”，获取更多书讯不管是生活还是工作中，定制都很常见。一谈到定制，会油然而生出一种专业感和高级感。定制代表着量体裁衣，定制代表着充分适配，定制代表着专属设计。图表也可以进行量身定制，定制后的图表标识性更强、更适合传播，能更好地为工作服务。本文以光大证券2021年8月发布的《碳中和行业（电新+环保）周报20210801》中的图表为例，简述图表定制的基本流程。 01. 光大证券的图表优势 ---- 光大证券报告的图表格式统一、配色统一、区域划分统一，巧妙地运用线条、文字

01

发明专利公开 -- CSS动画精准实现时钟

上一篇【setTimeout不准时，CSS精准实现计时器功能】的博文，最后提到了通过 CSS 动画实现计时器的方式。

04

有了这个项目，我也可以预测天气了

今年的冬天真是个寒冷的冬天，北方频降大雪，很多城市的气温都创了新低。虽然现在的天气预报也非常准确，但是了不起就想，我们有什么方式可以自己了解一下天气的变化呢？也许这个开源项目——earth 能够解决我们的问题。

01

Python实现基于客观事实的RFM模型（CDA持证人分享）

RFM（Recency Frequency Monetary）模型是衡量客户价值和客户创利能力的重要工具和手段。在众多的客户关系管理(CRM)的分析模式中，RFM模型是被广泛提到的。

00

WWW 2020 | 用于图像检索的等距离等分布三元组损失函数

本文对WWW2020 论文《Metric Learning with Equidistant and Equidistributed Triplet-based Loss for Product Image Search》（用于图像检索的等距离等分布三元组损失函数）进行解读。

02

python 珍藏函数实现随机/分层/系统抽样

抽样调查在统计学与 Python数据分析/数据挖掘/数据科学中非常常用，在实际业务中更是高频刚需，而 Python 并没有专有的抽样方法库，所以笔者将自己以前的笔记汇总到自写库中，用到时直接调用函数即可，快速且精确。

01

Python如何画函数图像

通过图像可以直观地学习函数变化，在学习函数等方面效果显著。下面我们尝试用Python的2D绘图库matplotlib来绘制函数图像。实现 y=x*x 图象。

01

python插值（scipy.interpolate模块的griddata和Rbf）

SciPy的interpolate模块提供了许多对数据进行插值运算的函数，范围涵盖简单的一维插值到复杂多维插值求解。

02

流形学习的基本方法

自从2000年以后，流形学习被认为属于非线性降维的一个分支。众所周知，引导这一领域迅速发展的是2000年Science杂志上的两篇文章: Isomap and LLE (Locally Linear Embedding)。

02

结构建模设计——Solidworks软件之草图几何关系绘制与草图编辑功能总结（裁剪实体、转换实体引用、等距实体）

上一博文练习了使用草图工具绘制常见如矩形、圆、槽、圆弧、倒角等，都是单独的个体，那么，本次博文学习下草图几何关系的绘制，包括：重合、中点、平行、相等、共线、相切、对称，草图编辑功能包括：裁剪实体、转换实体引用、等距实体。同样伴随实战练习，一起熟悉了解下这些功能。

03

数据竞赛之常见数据抽样方式

该抽样方法是按等概率原则直接从总中抽取n个样本，这种随机样本方法简单，易于操作；但是它并不能保证样本能完美的代表总体，这种抽样的基本前提是所有样本个体都是等概率分布，但真实情况却是很多数样本都不是或无法判断是否等概率分布。在简单随机抽样中，得到的结果是不重复的样本集，还可以使用有放回的简单随机抽样，这样得到的样本集中会存在重复数据。该方法适用于个体分布均匀的场景。

02

积分梯形法则

梯形法则是采用梯形来估计曲线下方面积，这等同将被积函数近似为直线函数，被积的部分近似为梯形，要求得较准确的数值，可以将要求积的区间分成多个小区间。

01

【Excel系列】Excel数据分析：抽样设计

一、随机数发生器 1. 随机数发生器主要功能 “随机数发生器”分析工具可用几个分布之一产生的独立随机数来填充某个区域。可以通过概率分布来表示总体中的主体特征。例如，可以使用正态分布来表示人体身高的总

08

使用FitHiC评估染色质交互作用的显著性

通过Hi-C技术可以得到全基因组范围内的染色质交互信息, 在不同的分辨率下，首先得到bin之间的交互矩阵contact matrix, 通过热图的形式来展示该交互矩阵，即得到了contact map。在完整的contac matrix的基础上，可以进行A/B隔室，拓扑结构域，染色质环等不同层级空间结构单元的分析。

04

干货 | 鱼眼镜头模型和校正方法详解

相机镜头大致上可以分为变焦镜头和定焦镜头两种。顾名思义，变焦镜头可以在一定范围内变换焦距，随之得到不同大小的视野；而定焦镜头只有一个固定的焦距，视野大小是固定的。鱼眼镜头是定焦镜头中的一种视野范围较大的镜头，视角通常大于180°。如下图所示，在获取更大视野范围的同时，鱼眼镜头成像的畸形变也更大。

01

【Python数据挖掘】应用toad包中的KS_bucket函数统计好坏样本率、KS值

大数据时代的到来，使得很多工作都需要进行数据挖掘，从而发现更多有利的规律，或规避风险，或发现商业价值。

01

08.基本统计&分组&分布分析1.基本统计分析2.分组分析3.分布分析

描述性统计分析，用来概括事物整体状况以及事物间联系，即事物的基本特征，以发现内在规律的统计分析方法。

02

为什么不同焦距的鱼眼镜头可以达到同样的视角？

假设某个点在视野中与光轴的夹角是 \theta，这个点在底片上成的像距离底片中心为 y 那么，对普通镜头来说，y = f * tan(\theta)，这里 f 是焦距。由于底片大小是一定的，也就是 y 的最大值是定死的，所以 \theta 的最大值就和焦距 f 是对应的，f 越短，\theta 的最大值就越大，也就是视野越广。

01

一看就会，效率翻倍！在线设计必会技能（基础篇）

摹客在线设计作为2020年国内设计工具新秀，一经推出就斩获了一大批产品经理和设计师的青睐。

04

setTimeout不准时，CSS精准实现计时器功能

实际开发过程中，我们会经常遇到，首次进入页面进行相应提示，然后指定时间后自动消失或者前端时钟展示等需求。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭