首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

在Python里,用股票案例讲描述性统计分析方法(内容来自我书)

理解概念后,在如下CalAvgMore.py范例,将以股票收盘价为例,演示平均数、中位数和四分位数求法。...Pandas库DataFrame对象已经封装了求各种统计数据方法,具体而言,能通过第5行mean方法求平均值,在调用时,还可以用诸如df['Close']样式,指定针对哪数据计算。...通过第6行median方法,能计算指定位数。 在第7行到第9行代码里,是通过 quantile方法求百分位数,比如第7行参数是0.5,则求第50百分位数。...在如下BoxPlotDemo.py范例还是以股票收盘价为例,展示箱状图绘制技巧,从中大家能进一步了解分位数概念。...在如下CalAlias.py范例演示这三个值获取方式。

1.3K10

Pandas profiling 生成报告并部署一站式解决方案

它为数据集提供报告生成,并为生成报告提供许多功能和自定义。在本文中,我们探索这个库,查看提供所有功能,以及一些高级用例和集成,这些用例和集成可以对从数据框创建令人惊叹报告!...可以DataFrame对象传递给profiling函数,然后调用创建函数对象以开始生成分析文件。 无论采用哪种方式,都将获得相同输出报告。我正在使用第二种方法为导入农业数据集生成报告。...该Overview包括总体统计。这包括变量数(数据框特征或)、观察数(数据框行)、缺失单元格、缺失单元格百分比、重复行、重复行百分比和内存总大小。...统计选项卡包括: 分位数统计:Min-Max、百分位数、中位数、范围和 IQR(四分位间距)。 描述性统计:标准偏差、方差系数、峰度、均值、偏度、方差和单调性。...但是还有一些其他方法可以使你报告脱颖而出。 Jupyter 笔记本小部件 在你 Jupyter 笔记本运行panda profiling时,你仅在代码单元格呈现 HTML。

3.2K10
您找到你想要的搜索结果了吗?
是的
没有找到

Pandas进阶修炼120题|当Pandas遇上NumPy

(如标准正态分布)数 答案 tem = np.random.normal(0, 1, 20) df3 = pd.DataFrame(tem) 85 数据创建 题目:df1,df2,df3按照行合并为新...DataFrame 难度:⭐⭐ 答案 df = pd.concat([df1,df2,df3],axis=0,ignore_index=True) 86 数据创建 题目:df1,df2,df3按照并为新...答案 df = pd.concat([df1,df2,df3],axis=1,ignore_index=True) df 87 数据查看 题目:查看df所有数据最小值、25%分位数、中位数、75%分位数...75, 100])) 88 数据修改 题目:修改列名为col1,col2,col3 难度:⭐ 答案 df.columns = ['col1','col2','col3'] 89 数据提取 题目:提取第一不在第二出现数字...='valid') 98 数据修改 题目:数据按照第三大小升序排列 难度:⭐⭐ 答案 df.sort_values("col3",inplace=True) 99 数据修改 题目:第一大于50

96020

玩转数据处理120题|Pandas版本

['categories'] # 等价于 df.drop(columns=['categories'], inplace=True) 35 数据处理 题目:df第一与第二并为 难度:...⭐⭐ Python解法 df['test'] = df['education'] + df['createTime'] 36 数据处理 题目:education与salary并为 难度...:df1,df2,df3按照并为DataFrame 难度:⭐⭐ 期望结果 0 1 2 0 95 0 0.022492 1 22 5 -1.209494 2 3 10 0.876127 3 21...'col2']) # 194.29873905921264 101 数据读取 题目:从CSV文件读取指定数据 难度:⭐⭐ 备注 从数据1前10行读取positionName, salary两...Python解法 df = pd.DataFrame(np.random.random(10)**10, columns=['data']) df.round(3) 105 数据处理 题目:将上一题数据转换为百分

7.4K40

Pandas进阶修炼120题|完整版

] 35 数据处理 题目:df第一与第二并为 难度:⭐⭐ 答案 df['test'] = df['education']+df['createTime'] 36 数据处理 题目:...(如标准正态分布)数 答案 tem = np.random.normal(0, 1, 20) df3 = pd.DataFrame(tem) 85 数据创建 题目:df1,df2,df3按照行合并为新...DataFrame 难度:⭐⭐ 答案 df = pd.concat([df1,df2,df3],axis=0,ignore_index=True) 86 数据创建 题目:df1,df2,df3按照并为新...答案 df = pd.concat([df1,df2,df3],axis=1,ignore_index=True) df 87 数据查看 题目:查看df所有数据最小值、25%分位数、中位数、75%分位数...答案 df.round(3) 105 数据处理 题目:将上一题数据转换为百分数 难度:⭐⭐⭐ 期望结果 ?

11.7K106

干货:4个小技巧助你搞定缺失、混乱数据(附实例代码)

想了解更多,可访问: http://www.numpy.org .digitize(...)方法对指定每个值,都返回所属容器索引。第一个参数是要分级,第二个参数是容器数组。...使用DataFrame.value_counts()得到每个容器记录计数,counts_b = csv_read['b_price'].value_counts()。 4....更多 有时候我们不会用均匀间隔值,我们会让每个桶拥有相同数目。要达成这个目标,我们可以使用分位数。 分位数百分位数有紧密联系。...区别在于百分位数返回是给定百分值,而分位数返回是给定分位点值。...columns参数指定了代码要处理DataFrame(或某些,因为可以传入列表)。通过指定前缀,我们告诉方法生成列名以d打头;本例中生成会叫d_Condo。

1.5K30

《python数据分析与挖掘实战》笔记第3章

特别适用于指标间横纵向比较、 时间序列比较分析。在对比分析,选择合适对比标准是十分关键步骤,只有选择 适,才能做出客观评价,选择不合适,评价可能得出错误结论。...为了消除少数极端值影响, 可以使用截断均值或者中位数来度量数据集中趋势。截断均值是去掉高、低极端值之后平均数。 (2)中位数位数一组观察值按从小到大顺序排列,位于中间那个数。...所有数值由小到大排列并分成四等份,处于 第一个分割点位置数值是下四分位数,处于第二个分割点位置(中间位置)数值是位 数,处于第三个分割点位置数值是上四分位数。...代码清单3-5,计算两个向量相关系数 # -*- coding:utf-8 -*- # 釆用Spearman方法计算两个向量相关系数 import pandas as pd D = pd.DataFrame...D = pd.DataFrame([x, x+1]).T #构造两DataFrame D.plot(kind = 'box') #调用Series内置作图方法画图,用kind参数指定箱形图box

2.1K20

Python数据分析pandas之分组统计透视表

数据聚合统计 Padans里聚合统计即是应用分组方法对数据框进行聚合统计,常见有min(最小)、max(最大)、avg(平均值)、sum(求和)、var()、std(标准差)、百分位数、中位数等。...数据框概览 可以通过describe方法查看当前数据框里数值型统计信息,主要包括条数、均值、标准差、最小值、25分位数、50分位数、75分位数、最大值方面的信息。...如果是查看某统计信息,在数据框下加“.”列名即可。...print(df2.describe()) #查看age数据概况 print(df2.age.describe()) # 当然也可以指定percentiles,比如这里仅显示百分之30、50分位数...生成对象是Series,如有需要可以转换为DataFrame

1.5K30

Python-for-data-移动窗口函数

常用指定衰减因子方法:使用span(跨度) ewm算子 # 苹果公司股票价格60日均线和span=60EW移动均线进行比较 appl_px = close_px.AAPL["2006":"2007...例如,金融分析股票和基准指数关联性问题:计算时间序列百分比变化pct_change() close_px_all[:5] .dataframe tbody tr th:only-of-type...spx_px = close_px_all["SPX"] # 选择某数据 spx_rets = spx_px.pct_change() # 计算该百分比变化 returns = close_px.pct_change...() # 计算整个数据百分比变化 # 调用rolling后,corr聚合函数可以根据spx_rets计算滚动相关性 # 计算returns和spx_rets相关性 corr = returns.AAPL.rolling...唯一要求:该函数从每个数组中产生一个单值(缩聚),例如使用rolling()…quantile(q)计算样本位数 # 定值百分位数:scipy.stats.percentileofscore from

2.1K10

精品教学案例 | 金融贷款数据清洗

查看数据缺失值数量所占总数据量百分比,从而使结果更加直观,以便进一步处理缺失值。 创建一个新DataFrame数据表来存储每数据缺失值所占百分比。...,可以发现缺失值比例在(0.01%,80%),除3数据缺失值在56%以上,其余数据缺失值均小于17%,故可以简单认为在此数据集中缺失值在56%以上数据提供信息有限,故缺失百分比56%以上数据全部删除...在DataFrame求其一即Series对象均值方法为mean,众数方法为mode,中位数方法为median。 首先是对字符型填补。...,由此新DataFrame来计算得到所需位数值,再填补回原数据。...信息补完,再填补回原数据。此处使用简单字符串粘贴即可。

4.4K21

如何在Python 3安装pandas包和使用数据结构

], name='Squares') 现在,让我们打电话给系列,这样我们就可以看到pandas作用: s 我们看到以下输出,左索引,右数据值。...Python词典提供了另一种表单来在pandas设置Series。 DataFrames DataFrame是二维标记数据结构,其具有可由不同数据类型组成。...在我们示例,这两个系列都具有相同索引标签,但如果您使用具有不同标签Series,则会标记缺失值NaN。 这是以我们可以包含标签方式构造,我们将其声明为Series'变量键。...在DataFrame对数据进行排序 我们可以使用DataFrame.sort_values(by=...)函数对DataFrame数据进行排序。...,用于表示数据变化范围数值 min 集合最小或最小数字 25% 第25百分位数 50% 第50百分位数 75% 第75百分位数 max 集合最大或最大数字 让我们通过使用describe()

18.3K00

Pandas进阶修炼120题|第二期

答案 df.head() 23 数据计算 题目:salary数据转换为最大值与最小值平均值 难度:⭐⭐⭐⭐ 期望输出 ?...False) 30 数据提取 题目:取出第33行数据 难度:⭐⭐ 答案 df.loc[33] 31 数据计算 题目:计算salary位数 难度:⭐⭐ 答案 np.median(df['salary...] 35 数据处理 题目:df第一与第二并为 难度:⭐⭐ 答案 df['test'] = df['education']+df['createTime'] 36 数据处理 题目:...education与salary并为 难度:⭐⭐⭐ 备注:salary为int类型,操作与35题有所不同 答案 df["test1"] = df["salary"].map(str) +...:将上一题生成dataframe与df合并 难度:⭐⭐ 答案 df= pd.concat([df,df1],axis=1) 44 数据计算 题目:生成新new为salary减去之前生成随机数列

83400

Pandas 25 式

调用 read_csv() 函数读取生成器表达式里每个文件,把读取结果传递给 concat() 函数,然后合并为一个 DataFrame。...用多个文件建立 DataFrame ~ 按 上个技巧按行合并数据集,但是如果多个文件包含不同,该怎么办? 本例 drinks 数据集分为了两个 CSV 文件,每个文件都包含 3 。 ?...用 dropna() 删除所有缺失值。 ? 只想删除缺失值高于 10% 缺失值,可以设置 dropna() 里阈值,即 threshold. ? 16....接下来,为 DataFrame 新增一,total_price。 ? 如上所示,每一行都列出了对应订单总价。 这样一来,计算每行产品占订单总价百分比就易如反掌了。 ? 20....年龄列有 1 位小数,票价列有 4 位小数,如何这两显示小数位数标准化? 用以下代码让这两只显示 2 位小数。 ? 第一个参数是要设置选项名称,第二个参数是 Python 字符串格式。

8.4K00

pandas库简单介绍(4)

默认情况下,rank通过平均排名分配到每个组来打破平级关系。 rank常用参数如下,rank(method='', axis='')。当为DataFrame时,axis可以为columns。...sum 加和 mean 均值 median 中位数(50%分位数) prod 所有值积 var 值样本方差 std 值样本标准差 skew, kurt 样本偏度(第三时刻)、样本峰度(第四时刻)...值 cumsum 累计值 cummin, cummax 累计值最小值和最大值 cumprod 值累计积 pct_change 计算百分比 ---- 5.2 相关性和协方差 相关性和协方差分别用到了...;利用corrwith来计算每一对某一相关性,例如frame.corrwith(frame['two'])计算每一对two相关性,也可以传入axis='columns'逐行计算。...,可能要计算DataFrame多个相关直方图,使用方法如下: data = pd.DataFrame({'A':[1, 5, 4, 100, 5], 'B

1.4K30

Python分析成长之路9

1.pandas数据结构     在pandas,有两个常用数据结构:Series和Dataframe  为大多数应用提供了一个有效、易用基础。     ...:计算Series或DataFrame汇总统计集合     pct_change:计算百分比     2.类别型数据描述性统计     描述类别型特征分布状况,可以使用频数统计表     value_count...13 print(group.mean()) #返回每组均值 14 print(group.median()) #返回每组位数 15 print(group.cumcount()) #对每个分组成员进行标记...分组 View Code 2.使用agg和aggregate方法聚合,能够函数应用于每一     DataFrame.agg(func,axis=0,*args,**kwargs)     ...(group.mean()) #返回每组均值 print(group.median()) #返回每组位数 print(group.cumcount()) #对每个分组成员进行标记 print

2.1K11

Pandas进阶修炼120题|第二期

答案 df.head() 23 数据计算 题目:salary数据转换为最大值与最小值平均值 难度:⭐⭐⭐⭐ 期望输出 ?...False) 30 数据提取 题目:取出第33行数据 难度:⭐⭐ 答案 df.loc[33] 31 数据计算 题目:计算salary位数 难度:⭐⭐ 答案 np.median(df['salary...] 35 数据处理 题目:df第一与第二并为 难度:⭐⭐ 答案 df['test'] = df['education']+df['createTime'] 36 数据处理 题目:...education与salary并为 难度:⭐⭐⭐ 备注:salary为int类型,操作与35题有所不同 答案 df["test1"] = df["salary"].map(str) +...:将上一题生成dataframe与df合并 难度:⭐⭐ 答案 df= pd.concat([df,df1],axis=1) 44 数据计算 题目:生成新new为salary减去之前生成随机数列

85430
领券