首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python面试十问2

此外,你可以通过传递参数来调整df.describe()行为,例如include参数可以设置'all'来包含所有统计信息,或者设置'O'来仅包含对象统计信息。...六、pandas运算操作  如何得到⼀个数列最⼩、第25百分、中值、第75和最⼤?...七、apply() 函数使用方法 如果需要将函数⽤到DataFrame每个数据元素,可以使⽤ apply() 函数以便将函数⽤于给定dataframe每⼀⾏。...九、分组(Grouping)聚合 “group by” 指的是涵盖下列⼀项多项步骤处理流程: 分割:按条件把数据分割成多组; ⽤:每组单独⽤函数; 组合:将处理结果组合成⼀个数据结构。...先分组,再⽤ sum()函数计算每组汇总数据  多分组后,⽣成多层索引,也可以⽤ sum 函数 分组后可以使用如sum()、mean()、min()、max()等聚合函数来计算每个统计

7710

单变量分析 — 简介和实施

问题3: 创建一个名为“class_verbose”,将“class”替换为下表定义。然后确定每个类别存在多少实例,这应该与问题2结果相匹配。...让我们在下一个问题中手动生成一些以进行练习。 问题5: 返回数据集“alcohol”以下:均值、标准差、最小、第25、50和75百分数以及最大。...直方图 直方图是一种可视化工具,通过计算每个实例(观察)数量来表示一个多个变量分布。本文中,我们将专注于单变量直方图,使用seaborn“histplot”类。让我们看一个例子。...箱子显示了数据四分数(即第25百分Q1、第50百分中位数和第75百分Q3),而须(whiskers)显示了分布其余部分,除了被确定为离群部分,离群被定义超出Q1Q3以下...问题9: 创建一个名为“malic_acid_level”,将“malic_acid”分解以下三个段落: 从最小到第33百分数 从第33百分数到第66百分数 从第66百分数到最大

20810
您找到你想要的搜索结果了吗?
是的
没有找到

R in action读书笔记(6)-第七章:基本统计分析(

(formula, data) 根据一个公式和一个矩阵数据框创建一个 N 维联表 prop.table(table, margins) 依margins定义边际列表将表条目表示分数形式...CrossTable() 函数仿照SASPROC FREQSPSSCROSSTABS形式生成二维联表 > CrossTable(Arthritis$Treatment,Arthritis$Improved...残差;将缺失作为一种有效;进行行和标题标注;生成SASSPSS风格输出。...3.多维联表 table()和xtabs()都可以基于三个更多类别型变量生成多维联margin.table()、prop.table()和addmargins()函数可以自然地推广到高于二维情况...vcd包也提供了一个kappa()函数,可以计算混 淆矩阵Cohen’s kappa以及加权kappa。(举例来说,混淆矩阵可以表示两评判者对于一系列对象进行分类所得结果一致程度。)

1.5K20

7个有用Pandas显示选项

所以就需要使用Pandas一些定制功能来帮助我们自定义内容显示方式。 1、控制显示行数 查看数据时,我们希望看到比默认行数更多更少行数(默认行数10)。...如果数据行数超过此,则显示将被截断。默认设置60。 如果希望显示所有行,则需要将display.max_rows设置None。如果数据非常大,这可能会占用很多资源并且降低计算速度。...要生成具有非常大数据,可以使用以下代码。...这将重新格式化显示,使其具有不带科学记数法和最多保留小数点后3。...5、控制Float格式 某些情况下,数字可以代表百分货币价值。如果是这种情况,用正确单位来格式化它们是很方便

1.3K40

20个能够有效提高 Pandas数据分析效率常用函数,附带解释和例子

如果将整数值传递给random_state,则每次运行代码时都将生成相同采样数据。 5. Where where函数用于指定条件数据替换。如果不指定条件,则默认替换 NaN。...Melt Melt用于将维数较大 dataframe转换为维数较少 dataframe。一些dataframe包含连续度量变量。某些情况下,将这些列表示行可能更适合我们任务。...我们有三个不同城市,不同日子进行测量。我们决定将这些日子表示行。还将有一显示测量值。...我们要创建一个,该显示“person”每个得分: df['Person_point'] = df.lookup(df.index, df['Person']) df ? 14....Replace 顾名思义,它允许替换dataframe。第一个参数是要替换,第二个参数是df.replace('A', 'A_1') ? 我们也可以同一个字典多次替换。

5.6K30

数据科学 IPython 笔记本 7.15 高性能 Pandas

:通用函数”中所讨论,这比通过 Python 循环推导式执行加法要快得多: %timeit np.fromiter((xi + yi for xi, yi in zip(x, y)), dtype=...) # True 其它运算符 其他操作,如函数调用,条件语句,循环和其他更复杂结构,目前都没有pd.eval()实现。...如前所述,涉及 NumPy 数组 Pandas DataFrame每个复合表达式,都会产生隐式创建临时数组:例如,这个: x = df[(df.A < 0.5) & (df.B < 0.5)] 大致相当于这个...你可以使用以下方法检查数组大致大小(以字节单位): df.values.nbytes # 32000 性能方面,即使你没有超出你系统内存,eval()也会更快。...问题是你临时DataFrame与系统上 L1 L2 CPU 缓存大小相比(2016 年通常几兆字节)如何;如果它们更大,那么eval()可以避免不同内存缓存之间某些移动,它们可能很慢。

65910

高效10个Pandas函数,你都用过吗?

Insert Insert用于DataFrame指定位置插入数据。默认情况下是添加到末尾,但可以更改位置参数,将添加到任何位置。...Ture表示允许列名与已存在列名重复 接着用前面的df第三位置插入: # new_col = np.random.randn(10) #第三位置插入,从0开始计算...Where Where用来根据条件替换行。如果满足条件,保持原来,不满足条件则替换为其他。默认替换为NaN,也可以指定特殊。...,保持原来,否则替换为other other:替换特殊 inplace:inplace真则在原数据上操作,False则在原数据copy上操作 axis:行dfvalue_1里小于...1名,下一个人是第 2 名 method=first: 相同会按照其序列相对位置定 ascending:正序和倒序 对dfvalue_1进行排名: df['rank_1'] = df['value

4.1K20

Pandas教程

Fare 0.000000 Cabin 77.104377 Embarked 0.224467 dtype: float64 m) 四舍五入(示例...e) 别忘了通过末尾添加.T来转置数据帧。这也是一个非常有用技巧 data.describe(include='all').T ? f) 百分数1%、5%、95%、99%。...正如预期那样,它将只显示数值数据统计信息。 data.corr()默认情况下皮尔逊相关性 ? J) 所选变量(示例“Survived”)与其他变量之间相关性。...在这种情况下,从第4行到第10行选择年龄大于等于10岁乘客。 data.loc[4:10, ['Age']] >= 10 ? g) 某些条件下使用loc选择特定。...new_df = data.copy() 计算年龄平均值: new_df.Age.mean() 29.69911764705882 用数据平均值填充NAN,并将结果分配给一个

2.8K40

数据缺失、混乱、重复怎么办?最全数据清洗指南让你所向披靡

缺失数据热图 方法 2:缺失数据百分比列表 当数据集中存在很多特征时,我们可以为每个特征列出缺失数据百分比。...前 30 个特征缺失数据百分比列表 方法 3:缺失数据直方图 存在很多特征时,缺失数据直方图也不失一种有效方法。 要想更深入地了解观察缺失模式,我们可以用直方图形式进行可视化。...解决方案 1:丢弃观察 统计学,该方法叫做成删除(listwise deletion),需要丢弃包含缺失整列观察。 只有我们确定缺失数据无法提供信息时,才可以执行该操作。...例如,对于特征 life_sq,我们可以看到其最大是 7478,而上四分数(数据第 75 个百分数据)是 43。因此 7478 是异常值。...特征 timestamp 表示日期时是字符串格式。 df ? 如何处理格式不一致数据? 使用以下代码进行格式转换,并提取日期时间。然后,我们就可以很容易地用年方式分析交易量数据。

2.5K30

数据可视化干货:使用pandas和seaborn制作炫酷图表(附代码)

你可以从其基本组件组装一个图表:数据显示(即绘图类型:线、条、框、散点图、轮廓等)、图例、标题、刻度标记和其他注释。 pandas,我们可能有多个数据,并且带有行和标签。...DataFrameplot方法同一个子图中将每一绘制为不同折线,并自动生成图例(见图9-14): In [62]: df = pd.DataFrame(np.random.randn(10, 4...DataFrame,柱状图将每一行分组到并排柱子一组。...▲图9-24 seaborn回归/散点图 探索性数据分析,能够查看一组变量所有散点图是有帮助; 这被称为成对图散点图矩阵。...▲图9-26 按星期几数值/时间/是否吸烟划分小费百分比 除了根据'time'一个面内将不同柱分组不同颜色,我们还可以通过每个时间添加一行来扩展分面网格(见图9-27): In [109]:

5.3K40

Python数据分析pandas之分组统计透视表

数据聚合统计 Padans里聚合统计即是应用分组方法对数据框进行聚合统计,常见有min(最小)、max(最大)、avg(平均值)、sum(求和)、var()、std(标准差)、百分数、中位数等。...数据框概览 可以通过describe方法查看当前数据框里数值型统计信息,主要包括条数、均值、标准差、最小、25分数、50分数、75分数、最大方面的信息。...print(df2.describe()) #查看age数据概况 print(df2.age.describe()) # 当然也可以指定percentiles,比如这里仅显示百分之30、50分数...#这里按照等级进行分组,以求最大例,其它聚合函数类似。...,不同级别最小(min)、收入(income)总和交叉表。

1.5K30

Sentry 监控 - Discover 大数据查询分析引擎

单击 Build a new query(构建查询) 单击现有已保存查询卡省略号以Duplicate(复制) 进入任何现有查询 点击右上角Save as(另存为)......输入显示名称 单击Save(保存) 应用搜索条件表列来修改查询结果。保存查询并分配自定义显示名称。有关完整详细信息,请参阅有关查询生成文档。...诸如在过滤器添加排除、打开选定版本查看底层问题堆栈等操作: 如果第一显示图标(如上所示),则表示事件已堆叠。单击该图标可查看完整事件列表。...标签摘要分面图(分面图)是按频率排序前 10 个 key 可视化。最常见标签(tag value)直接在说明(description)和百分比(percentage)栏上方。...获取阈值内完成事务百分比 使用以下三创建一个查询: * 1: * Function count_if * Field transaction.duration

3.5K10

全自动机器学习 AutoML 高效预测时间序列

数据集包括日期(object类型)和兆瓦级能耗(float64类型)(对每小时能耗水平四分数)。...首先,我们将数据转换为日均能耗,并将重命名为先知预测模型期望格式。实际日能耗水平转换成四分数,即预测。...我们仅使用训练数据计算每日能耗四分阈值,以避免数据泄漏。 接下来,我们将预测测试数据期间 PJME 日能耗水平(以兆瓦单位),并将预测表示离散变量。...(test_df):]['quartile'].astype(int) # 将测试集中实际日归类四分数 test_df['quartile'] = pd.cut(test_df['y'], bins...此外,我们使用以下代码计算离散四分,并获取训练/测试能量标签,也就是 y_labels。

11210

Python 数据分析(PYDA)第三版(四)

这是一个多对一连接示例;df1数据有多行标记为a和b,而df2每个key只有一行。...| indicator | 添加一个特殊_merge,指示每行来源;将根据每行连接数据来源"left_only"、"right_only""both"。...Ch 11: Time Series 更详细地讨论,将year和quarter组合起来,将索引设置每个季度末datetime: In [147]: periods = pd.PeriodIndex...某些情况下,以这种格式处理数据可能更加困难;您可能更喜欢拥有一个 DataFrame,其中包含一个以date时间戳索引每个不同item。...与 DataFrame 中将一个转换为多个不同,它将多个合并为一个,生成一个比输入更长 DataFrame。

26700

如何在Python 3安装pandas包和使用数据结构

: s 我们将看到以下输出,左索引,右数据。...第一个系列将是我们之前avg_ocean_depth系列,第二个max_ocean_depth系列将包含地球上每个海洋最大深度数据,以米单位。...我们示例,这两个系列都具有相同索引标签,但如果您使用具有不同标签Series,则会标记缺失NaN。 这是以我们可以包含标签方式构造,我们将其声明为Series'变量键。...,用于表示数据变化范围数值 min 集合最小最小数字 25% 第25百分数 50% 第50百分数 75% 第75百分数 max 集合最大最大数字 让我们通过使用describe()...pandas,这被称为NA数据并被渲染NaN。 我们使用DataFrame.dropna()函数去了下降遗漏,使用DataFrame.fillna()函数填补缺失

18.5K00

【数据分析】数据缺失影响模型效果?是时候需要missingno工具包来帮你了!

重要是,进行数据分析机器学习之前,需要我们对缺失数据进行适当识别和处理。许多机器学习算法不能处理丢失数据,需要删除整行数据,其中只有一个丢失,或者用一个替换(插补)。...它可以通过调用: msno.bar(df) 绘图左侧,y轴比例从0.0到1.0,其中1.0表示100%数据完整性。如果条小于此,则表示该缺少绘图右侧,用索引测量比例。...通过调用以下命令可以生成矩阵图: msno.matrix(df) 如结果图所示,DTS、DCAL和RSHA显示了大量缺失数据。...接近0表示一与另一之间几乎没有关系。 有许多值显示<-1。这表明相关性非常接近100%负。...树状图可通过以下方式生成: msno.dendrogram(df) 在上面的树状图中,我们可以看到我们有两个不同组。第一个是右侧(DTS、RSHA和DCAL),它们都具有高度

4.7K30

SQL查询高级应用

FROM子句中最多可指定256个表视图,它们之间用逗号分隔。 FROM子句同时指定多个表视图时,如果选择列表存在同名列,这时使用对象名限定这些所属视图。...可使用以下通配字符: 百分号 %:可匹配任意类型和长度字符,如果是中文,请使用两个百分号即%%。 下划线 _:匹配单个任意字符,它常用来限制表达式字符长度。...使用UNION 运算符时,保证每个联合查询语句选择列表中有相同数量表达式,并且每个查询选择表达式具有相同数据类型,或是可以自动将它们转换为相同数据类型。...当检索数据时,通过连接操作查询出存放在多个表不同实体信息。连接操作给用户带来很大灵活性,他们可以在任何时候增加数据类型。不同实体创建表,尔后通过连接进行查询。   ...内连接分三种: 1、等值连接: 连接条件中使用等于号(=)运算符比较被连接,其查询结果列出被连接表所有,包括其中重复列。

3K30
领券