首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

完整数据分析流程:Python中的Pandas如何解决业务问题

与业务或运维沟通后,明确测试订单的标识是在“产品名称”中带“测试”的字样。...而min max则形成合理值区间,在此区间之外的数据,不论太高还是太低还是离群值。注意,在这里因为存在min_是负数的情况,而消费数据不可能是负数,所以补充了一个把转为0的操作。...,此时就需要计算各指标阈值,用于RFM建模。...= consume_df['休眠天数'].quantile(0.2)RFM模型计算得到RFM阈值后,即可将顾客的RFM特征进行计算,超过阈值的则为1,低于阈值的则为0,其中R值计算逻辑相反,因为R值是休眠天数...而前面各族群人数统计中,需要一行一来定位信息的就是二维表。结尾至此,我们已经通过Pandas建立了RFM模型及分组人群画像分析,完成了业务分析需求。

1.6K30
您找到你想要的搜索结果了吗?
是的
没有找到

Python数据分析笔记——Numpy、Pandas

还有abs、exp、sin、cos、log、sum、mean(算术平均数)、cumsum(所有元素的累计)、cumprod(所有元素的累计积)、sort(将元素进行排序)等函数。...(3)获取DataFrame的值(行或) 通过查找columns值获取对应的。(下面两种方法) 通过索引字段ix查找相应的行。 (4)对进行赋值处理。 对某一可以赋一个标量值也可以是一组值。...Pandas基本功能 1、重新索引 Pandas对象的一个方法就是重新索引(reindex),其作用是创建一个的索引,pandas对象将按这个索引进行排序。对于不存在的索引值,引入缺失值。...(从0开始计数) 6、汇总和计算描述统计 就是针对数组进行常用的数学统计运算。大部分都属于约简汇总统计。 其中有求和(sum)运算、累计(cumsum)运算、平均值(mean)等运算。...9、层次化索引 层次化索引是pandas的一个重要功能,它的作用是使你在一个轴上拥有两个或多个索引级别。相当于Excel中vlookup函数的多条件查找中的多条件。

6.4K80

美国确诊超100万!教你用Python画出全球疫情动态图

其中,全球累计确诊近296万例,累计死亡超20万例;美国累计确诊超100万例,西班牙意大利累计确诊均超过20万例。...01 全球疫情严峻 美国确诊超100万 根据世卫组织最新实时统计数据,截至欧洲中部时间28日10时(北京时间28日16时),全球范围内,冠确诊病例较前一日增加76026例,达到2954222例;死亡病例较前一日增加...3932例,达到202597例。...美国约翰斯·霍普金斯大学统计数据显示,在美国东部时间28日14时50分(北京时间29日2时50分)的数据显示,美国冠确诊病例升至1002498例,死亡病例为57533例,确诊病例死亡病例数都是全球最多...通过日新增确诊人数计算每日累计确诊人数 对日期进行摊平,按照国家和日期进行数据透视操作。

1.5K30

(数据科学学习手札20)主成分分析原理推导&Python自编函数实现

达到降维的目的,下面我们先对PCA算法的思想原理进行推导: 主成分即为我们通过原始变量的线性组合得到的变量,这里假设xi(i=1,2,......,xp)',求主成分就是寻找x的线性函数a'x,使得相应的方差达到最大,即var(a'x)=a'∑a,且a'a=1(使a唯一),∑为x的协方差矩阵;   推导: 基于实对称矩阵的性质(每个实对称矩阵都可以分解为单位实特征向量实特征值...包搭建自定义的PCA算法(除标准化求解特征值、特征向量外其余功能均由自定义函数实现) import numpy as np import pandas as pd from sklearn import...original_data.iloc[:,4:]) class My_PCA(): def __init__(self): print('自编PCA算法') '''根据输入的数据集指定的累计贡献率阈值...(eigvalue))] '''保存特征值排序后与之前对应的位置''' sort = np.argsort(contribute) '''根据传入的累计贡献率阈值

91070

一文介绍特征工程里的卡方分箱,附代码实现

图2:卡方累计分布函数 二、什么是卡方检验 χ2检验是以χ2分布为基础的一种假设检验方法,主要用于分类变量之间的独立性检验。...第1行1:43×53/87=26.2 第1行2:43×34/87=16.8 第2行1:44×53/87=26.8 第2行2:4×34/87=17.2 先建立原假设:A、B...它主要包括两个阶段:初始化阶段自底向上的合并阶段。 1、初始化阶段: 首先按照属性值的大小进行排序(对于非连续特征,需要先做数值转换,比如转为坏人率,然后排序),然后每个属性值单独作为一组。...(3)不断重复(1),(2)直到计算出的卡方值都不低于事先设定的阈值,或者分组数达到一定的条件(如最小分组数5,最大分组数8)。...break return cutoffs 4.生成分组后的变量 def value2group(x,cutoffs): ''' 将变量的值转换成相应的组。

3.8K20

【Python量化投资】基于技术分析研究股票市场

但是,首先需要数据才能开始工资,这里我们主要靠pandas库,因为NumPy库比较常用,所以还是把该库导入。 (PS:除NumPySciPy,pandas也是Python的重要库之一) ? ?...所以先在pandas DataFrame对象上添加一个,用于两个趋势之间的差值。 此处的趋势策略是基于两个月(42个交易日)一年(252个交易日)的趋势(也就是两种期间指数水平的移动平均数)。...Pandas数值运算通常以向量方式进行,这样可以取两的全部差值: ? 在最后一个可用交易日上,42日趋势线远远高于252趋势线。...尽管两个趋势中的项目数量不相等,pandas通过在相应的指数位置放入NaN处理这种情况: ? 现在生成我们的投资机制,此处假定信号阈值为50: ?...所以比较指数累计持续收益和我们所用策略的累积持续收益即可: ?

1.7K90

Machine Learning-特征工程之卡方分箱(Python)

., Zk 满足标准正态分布 N(0,1) , 则这k个随机变量的平方: ? 为服从自由度为k的卡方分布,记作: ? 或者记作 ? 。 图1:卡方概率密度函数 ?...图2:卡方累计分布函数 ? 二、什么是卡方检验 χ2检验是以χ2分布为基础的一种假设检验方法,主要用于分类变量之间的独立性检验。...第1行1: 43×53/87=26.2 第1行2: 43×34/87=16.8 第2行1: 44×53/87=26.8 第2行2: 4×34/87=17.2 先建立原假设...(3)不断重复(1),(2)直到计算出的卡方值都不低于事先设定的阈值,或者分组数达到一定的条件(如最小分组数5,最大分组数8)。...break return cutoffs 4.生成分组后的变量 def value2group(x,cutoffs): ''' 将变量的值转换成相应的组。

5.6K20

Pandas疫情探索性分析

每天国家卫健委各大新闻媒体都会公布疫情的数据,包括累计确诊人数、现有确诊人数等。 本案例为COVID-19疫情的数据科学实践系列的第二篇——Pandas疫情探索性分析。...本篇案例的主要内容是冠肺炎疫情数据的探索性分析,包括中国各省世界各国的实时数据,及中国世界各国的历史数据。...此外,我们还将新增病死率一,并将国家设置为索引。数据预处理之后我们将查看世界当前累计确诊人数前十名的国家,并绘制累计确诊、累计死亡病死率的水平条形图来分析各国疫情状况。...由图可知,我国累计确诊人数在2月中旬已达到拐点,现存确诊人数也已从2月15日起逐步减少。同时,累计治愈人数稳步上升,且随现存确诊人数的下降而逐渐趋于平缓状态。...这里我们单独选取了日本冠肺炎的累计确诊当日新增确诊两数据进行绘制: japan = alltime_world[alltime_world['名称']=='日本'] fig, ax = plt.subplots

3.3K41

pandas库的简单介绍(4)

---- 5 描述性统计概述与计算 5.1 描述性统计汇总统计 pandas对象有一个常用数学、统计学方法的集合,大部分属于规约汇总统计,并且还有处理缺失值的功能。...print('列上累计:\n', frame.cumsum()) print('获取描述性信息:\n', frame.describe()) #获取描述性信息 one two a 2.0...行上求均值: a NaN b 2.00 c NaN d -0.75 dtype: float64 最大值的索引: one b two d dtype: object 列上累计...值的样本标准差 skew, kurt 样本偏度(第三时刻)、样本峰度(第四时刻)的值 cumsum 累计值 cummin, cummax 累计值的最小值最大值 cumprod 值的累计积 pct_change...例如,frame['one'].corr(frame['two'])表示frame的'one''two'两的相关性;frame['one'].cov(frame['two'])表示frame两的协方差

1.4K30

PySpark SQL——SQLpd.DataFrame的结合体

以及对单列进行简单的运算变换,具体应用场景可参考pd.DataFrame中赋值的用法,例如下述例子中首先通过"*"关键字提取现有的所有,而后通过df.age+1构造了名字为(age+1)的。...,当接收列名时则仅当相应列为空时才删除;当接收阈值参数时,则根据各行空值个数是否达到指定阈值进行删除与否 dropDuplicates/drop_duplicates:删除重复行 二者为同名函数,与pandas...:withColumn是在现有DataFrame基础上增加或修改一,并返回的DataFrame(包括原有其他),适用于仅创建或修改单列;而select准确的讲是筛选,仅仅是在筛选过程中可以通过添加运算或表达式实现创建多个...,返回一个筛选的DataFrame,而且是筛选多少列就返回多少列,适用于同时创建多的情况(官方文档建议出于性能考虑防止内存溢出,在创建多时首选select) show:将DataFrame显示打印...,无需全部记忆,仅在需要时查找使用即可。

9.9K20

懂Excel轻松入门Python数据分析包pandas(二十八):二分法查找

前言 Excel 中的 vlookup 函数有一个模糊查找选项,其内在原理为二分法查找,在 pandas 中同样有一样功能的方法。...,是一种模糊匹配,比如 30 不是直接匹配 30 对应的记录,而是匹配到高于30最近的点(批次表的第一个点50) ---- Excel解决方法 首先要知道每个人取货之前已经累计被拿了多少数量: 通过简单的固定地址...这里有个前提是,右表的数值必须为升序,否则结果可能出乎意料 ---- pandas解决方法 pandas 中的做法基本上每一句代码就对应 Excel 中的一个操作: 行1、2:加载数据,不多说...这其实是很关键一步,上面 Excel 操作中省去了这2个操作 行7、8:对应 Excel 中的求出"累计列"的操作 行10:pd.cut 相当于模糊查找的 vlookup 。...这个问题留待下次探讨,大家不妨从 Excel 的操作角度想一下,可能一下子就能知道 pandas 中是如何解决 ---- 总结 本文重点: pd.cut 类比 Excel vlookup 模糊查找

52540

高效的10个Pandas函数,你都用过吗?

介绍这些函数之前,第一步先要导入pandasnumpy。 import numpy as np import pandas as pd 1....Insert Insert用于在DataFrame的指定位置中插入的数据。默认情况下是添加到末尾的,但可以更改位置参数,将添加到任何位置。...Ture表示允许的列名与已存在的列名重复 接着用前面的df: 在第三的位置插入: #的值 new_col = np.random.randn(10) #在第三位置插入,从0开始计算...我们只知道当年度的值value_1、value_2,现在求group分组下的累计值,比如A、2014之前的累计值,可以用cumsum函数来实现。...用法: DataFrame.loc[] 或者 DataFrame.iloc[] loc:按标签(columnindex)选择行 iloc:按索引位置选择行 选择df第1~3行、第1~2的数据

4.1K20

懂Excel轻松入门Python数据分析包pandas(二十八):二分法查找

后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器—— pandas 前言 Excel 中的 vlookup 函数有一个模糊查找选项,其内在原理为二分法查找,在 pandas 中同样有一样功能的方法...,是一种模糊匹配,比如 30 不是直接匹配 30 对应的记录,而是匹配到高于30最近的点(批次表的第一个点50) ---- Excel解决方法 首先要知道每个人取货之前已经累计被拿了多少数量: 通过简单的固定地址...这里有个前提是,右表的数值必须为升序,否则结果可能出乎意料 ---- pandas解决方法 pandas 中的做法基本上每一句代码就对应 Excel 中的一个操作: 行1、2:加载数据,不多说...这其实是很关键一步,上面 Excel 操作中省去了这2个操作 行7、8:对应 Excel 中的求出"累计列"的操作 行10:pd.cut 相当于模糊查找的 vlookup 。...这个问题留待下次探讨,大家不妨从 Excel 的操作角度想一下,可能一下子就能知道 pandas 中是如何解决 ---- 总结 本文重点: pd.cut 类比 Excel vlookup 模糊查找

79010
领券