以下文章来源于尤而小屋 ,作者尤而小屋 最近整理了pandas中20个常用统计函数和用法,建议收藏学习~ 模拟数据 为了解释每个函数的使用,模拟了一份带有空值的数据: import pandas...标准差std 最小值min 最大值max 25%、50%、75%分位数 df.describe() 添加了参数后的情况,我们发现: sex字段的相关信息也被显示出来 显示的信息更丰富,多了unique...最小值索引idxmin 返回最小值所在的索引 In [20]: df["age"].idxmin() Out[20]: 0 In [21]: df["math"].idxmin() Out[21...]: 3 In [22]: df["sex"].idxmin() 不能字符类型的字段使用该函数,Pandas不支持: 方差var 计算一组数据的方差,需要注意的是:numpy中的方差叫总体方差,pandas...中的方差叫样本方差 标准差(或方差)分为 总体标准差(方差)和 样本标准差(方差) 前者分母为n,右偏的;后者分母为n-1,是无偏的 pandas里是算无偏的;numpy里是有偏的 In [23]: df.var
基尼系数实现决策树 基尼指数 \operatorname{Gini}(D)=1-\sum_{k=1}^{K}\left(\frac{\left|C_{k}\right|}{|D|}\right)^{2}...特征 A 条件下集合 D 的基尼指数: \operatorname{Gini}(D, A)=\frac{\left|D_{1}\right|}{|D|} \operatorname{Gini}\left...(D_{1}\right)+\frac{\left|D_{2}\right|}{|D|} \operatorname{Gini}\left(D_{2}\right) import numpy as np...def calculate_gini(labels): # 计算标签的基尼系数 _, counts = np.unique(labels, return_counts=True)...left_gini = calculate_gini(left_labels) right_gini = calculate_gini(right_labels) # 计算基尼指数
; 4、只保留最大值和最小值的标记,让对比更加明显; 5、去掉图例,直接在线条的附近标注,避免观察者在图例和数据之间来回移动; 6、去掉平均值线,让图表显得更加简洁; 7、更加谨慎而且有策略地使用颜色,...,以便提高阅读的体验,有研究表明,阅读 90 度角倾斜的文字,速度比阅读正常方向的文字平均慢 205%; 10、去掉最大值和最小值的具体数字,因为这里更加关心的是数据背后的事件,而不是数字本身; 11、...import numpy as np import pandas as pd import matplotlib as mpl import matplotlib.pyplot as plt from...4.2, y.max()), arrowprops=dict(arrowstyle='->', color=colors['红色']), fontsize=16) # 标注最小值对应的事件.../data/2020年第一季度上证指数.xlsx' # 读取 Excel文件 df = pd.read_excel(filepath,1) df.date=df['date'].map(lambda
/极差(最大值减最小值) import numpy as np # 产生9个介于[10, 100)区间的随机数 a = np.random.randint(10, 100, 9) print(a) print...(np.max(a), np.min(a), np.ptp(a)) np.argmax() np.argmin() 和 pd.idxmax() pd.idxmin(): 返回一个数组中最大/最小元素的下标...(), series.idxmin()) print(dataframe.idxmax(), dataframe.idxmin()) 中位数 将多个样本按照大小排序,取中间位置的元素。...若样本数量为奇数,中位数为最中间的元素 若样本数量为偶数,中位数为最中间的两个元素的平均值 案例:分析中位数的算法,测试numpy提供位数API np.median() 中位数...import numpy as np closing_prices = np.loadtxt('../..
为了使数据简洁一点,只保留数据中的部分列和前100行,并设置“日期”为索引。 ? 读取的原始数据如上图,本文使用这些数据来介绍统计运算函数。 二、最大值和最小值 ? max(): 返回数据的最大值。...min(): 返回数据的最小值。使用DataFrame数据调用min()函数,返回结果为DataFrame中每一列的最小值,即使数据是字符串或object也可以返回最小值。...使用Series数据调用max()或min()时,返回Series中的最大值或最小值,后面介绍的其他统计运算函数同理。 ? idxmax(): 返回最大值的索引。...在numpy中,使用argmax()和argmin()获取最大值的索引和最小值的索引,在Pandas中使用idxmax()和idxmin(),实际上idxmax()和idxmin()可以理解成对argmax...idxmin(): 返回最小值的索引。 使用idxmax()和idxmin()时,一般是用Series数据调用,用DataFrame数据调用可能会报TypeError。 三、均值和中位数 ?
统计非空值数量 注意:Numpy 的 mean、std、sum 等方法默认不统计 Series 里的空值。...In [87]: np.mean(df['one']) Out[87]: 0.8110935116651192 In [88]: np.mean(df['one'].to_numpy()) Out[88...最大值与最小值对应的索引 Series 与 DataFrame 的 idxmax() 与 idxmin() 函数计算最大值与最小值对应的索引。...,idxmax() 与 idxmin() 只返回匹配到的第一个值的 Index: In [114]: df3 = pd.DataFrame([2, 1, 1, 3, np.nan], columns=[...() Out[116]: 'd' ::: tip 注意 idxmin 与 idxmax 对应 Numpy 里的 argmin 与 argmax。
想一想:在普通的折线图中,如何自动地添加一条代表平均值的横线?如何添加一条带箭头的趋势线?如何快速地标注最大值和最小值?如何标注特殊事件?如何对折线图进行数据分析?...排除周期性的因素之后,我们观察折线图中的最大值和最小值,看看它们是否在正常范围以内,如果不是的话,那么要分析背后的原因。...import numpy as np import pandas as pd import matplotlib.pyplot as plt from datetime import timedelta...y.idxmax()]+timedelta(hours=-12), y.max()+1, y.max(), color=color1, fontsize=15) # 标注最小值...ax.text(x[y.idxmin()]+timedelta(hours=-9), y.min()-2, y.min(), color=color1, fontsize
这两者的结合诞生了将训练好的随机森林模型映射为神经网络的思路。 然而现有的映射方法会为每一个结点创建一个神经元,不仅导致了神经网络随着结点数目的增加呈指数增长,还创建了非常低效、权重为0的连接。...算法也会依据事先算好的类别权重来选择接下来是要移动到左节点还是右节点。如果随机产生的输入特征数值没有办法路由到算法想要的子结点,为了移动到左节点,x会从f(n)的最小值到的范围内按照均匀分布随机产生。...神经随机森林模拟在保持甚至提高准确率的前提下可以大大减小网络结构。 为了验证神经随机森林模拟的可扩展性,作者们也尝试了模拟不同深度的随机森林。...现有方法产生的神经网络会随着森林深度的增加而指数变大,而神经随机森林模拟则不会,如图3所示。 ? 图3. 评估现有方法和神经随机森林模拟的可扩展性。...为了验证神经随机森林模拟的鲁棒性,作者们生成不同的随机森林,然后用不同的神经网络进行模拟。Caltech101数据集上的结果见图4,其中实线代表不同结构的平均表现。
当我们生成或者导入了数据之后,通过数据的探索工作能够快速了解和认识数据基本信息,比如数据中字段的类型、索引、最值、缺失值等,可以让我们对数据的全貌有一个初步了解。...--MORE--> 思维导图 [008i3skNgy1gri4v3z7j0j30u010t4f1.jpg] 模拟数据 本文中的方法介绍使用的是一份模拟数据,有字符型、数值型,还有时间类型;同时数据刻意存在了缺失值...] 查看列属性 df.columns [008i3skNgy1gri49sfxekj313y05iwf5.jpg] 查看数据 两个方法或属性查看: values to_numpy() [008i3skNgy1gri4ayageoj31480motdg.jpg...() # 返回每一列的最大值 df.min() # 返回每一列的最小值 df.median() # 返回每一列的中位数 df.std() # 返回每一列的标准差, 贝塞尔校正的样本标准偏差 df.var...每列最大的值的索引名 df.idxmin() # 最小 df.cummin() # 累积最小值 df.cummax() # 累积最大值 df.skew() # 样本偏度 (第三阶) df.kurt()
from pandas import Series,DataFrame import pandas as pd import numpy as np #Series:一种类似于一维数组的对象,它是由一组数据...(各种Numpy数据类型)以及一组与之相关的数据标签(即索引)组成。...、argmax 计算能够获取到最小值和最大值的索引位置(整数) #idxmin、idxmax 计算能够获取到最小值和最大值的索引值 #quantile 计算样本的分位数(0到1) #sum 值的总和 #...、cummax 样本值的累计最小值、最大值 #cumprod 样本值的累计积 #Pct_change 计算百分数变化 a=np.arange(1,21) b=np.linspace(0,100,20)...(整数) #print('dp.argmax()=',dp.argmax()) #计算能够获取到最小值和最大值的索引位置(整数) #AttributeError: 'DataFrame' object
numpy.clip:https://numpy.org/doc/stable/reference/generated/numpy.clip.html numpy.clip(a, a_min, a_max..., out=None, **kwargs) 下面这段示例代码使用了 Python 的 NumPy 库来实现一个简单的功能:将数组中的元素限制在指定的最小值和最大值之间。...b = np.clip(a, 1, 8) 这是本段代码中最关键的部分。np.clip 函数接受三个参数:要处理的数组(在这里是 a),最小值(在这里是 1),和最大值(在这里是 8)。...np.clip 的用法和注意事项 基本用法 np.clip(a, a_min, a_max)函数接受三个参数:第一个参数是需要处理的数组或可迭代对象;第二个参数是要限制的最小值;第三个参数是要限制的最大值...对于输入数组中的每个元素,如果它小于最小值,则会被设置为最小值;如果它大于最大值,则会被设置为最大值;否则,它保持不变。
1.906221 25% NaN -0.113774 50% NaN 0.789560 75% NaN 1.195858 max NaN 1.497193 最大/最小值的位置...idxmin()和idxmax()方法是用来查找表格当中最大/最小值的位置,返回的是值的索引 s1 = pd.Series(np.random.randn(5)) s1 output s1.idxmin...output (0, 3) 用在DataFrame上面的话,如下 df1 = pd.DataFrame(np.random.randn(5, 3), columns=["A", "B", "C"]) df1.idxmin...(axis=0) output A 4 B 2 C 1 dtype: int64 同理,我们将axis参数改成1 df1.idxmin(axis=1) output 0 C 1...,指定列有多少个不同的数据值并且计算不同值在该列当中出现的次数,先来看一个简单的例子 df = pd.DataFrame({'城市': ['北京', '广州', '上海', '上海', '杭州', '成都
图片NumPy数学函数:强大的数值计算工具简介NumPy是Python中广受欢迎的科学计算库,提供了丰富的数学函数,可用于处理数组和矩阵中的数值数据。...这些数学函数包含了许多常见的数学运算,如三角函数、指数函数、对数函数、统计函数等。本文将介绍NumPy中一些常用的数学函数及其用法,展示NumPy在数值计算方面的强大功能。...inf -0.]指数和对数函数NumPy提供了指数函数(如幂函数和指数函数)以及对数函数(如自然对数和以2为底的对数)。这些函数可用于计算数值的幂、指数和对数值。...还提供了一些常用的统计函数,如平均值、标准差、最小值、最大值等。...通过使用NumPy的数学函数,我们可以轻松地进行基本数学运算、三角函数计算、指数和对数运算以及统计分析。这些函数不仅高效,而且简化了复杂数值计算的实现过程。
3,梯度爆炸和梯度消失 对于层数很深的网络,由于指数增长或指数衰减效应,容易出现梯度爆炸和梯度消失的现象。通过选择合适的初始权重能够缓解该现象。一般会取值让各个节点值的初始方差为1。 ? ?...动量算法通过使用梯度的指数加权平均数来代替梯度,从而抑制梯度的折返。 ? ? ? ?...节点个数n[l]和层数layers的参数候选值可以平均分布,学习率参数α则应当指数分布,而动量算法的参数β的候选值则应当合适选取使得1/(1-β)呈指数分布。 ? ? ?...当我们计算资源有限时,我们可能只能同时训练一个模型,然后一天两天不断地去优化其超参数,就好像熊猫的繁殖策略,它们只有很少的幼崽,然后每一个都细心呵护。...张量即多维数组,TensorFlow中的Tensor对象和Python的numpy库的ndarray对象可以无缝对接。 ? TensorFlow的算法表达形式为计算图。
import numpy as np import pandas as pd from pandas import Series, DataFrame 主要内容 填充值处理 fill_value 翻转功能...index") b d e Utah -1.0 0.0 1.0 Ohio -1.0 0.0 1.0 Texas -1.0 0.0 1.0 Oregon -1.0 0.0 1.0 ufuncs Numpy...,打破平级关系,method参数 average:默认平均值 min:使用分组中的最小值 max:使用最大值 first:出现顺序 dense: obj.rank(ascending=False, method...=0:表示行;axis=1:表示列 skipna:排除缺失值,默认值是True idxmax()/idxmin():返回最大值或者最小值的索引 describe:返回多个统计值 df = pd.DataFrame...df.idxmax() one b two d dtype: object df one two a 1.40 NaN b 7.10 -4.5 c NaN NaN d 0.75 -1.3 df.idxmin
下面是对一个DataFrame的一个示例: import pandas as pd import numpy as np frame = pd.DataFrame([[2, np.nan], [7, -...描述性统计和汇总统计函数表 方法 描述 count 计算非NA个数 describe 计算描述性统计信息 min, max 最小值,最大值 argmin, argmax 最小值,最大值所在索引位置 idxmin..., idxmax 最小值,最大值索引标签 quantile 计算样本从0到1间的分位数 sum 加和 mean 均值 median 中位数(50%分位数) prod 所有值的积 var 值的样本方差 std...值的样本标准差 skew, kurt 样本偏度(第三时刻)、样本峰度(第四时刻)的值 cumsum 累计值 cummin, cummax 累计值的最小值和最大值 cumprod 值的累计积 pct_change...;利用corrwith来计算每一列对某一列的相关性,例如frame.corrwith(frame['two'])计算每一列对two列的的相关性,也可以传入axis='columns'逐行计算。
领取专属 10元无门槛券
手把手带您无忧上云