首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【Excel系列】Excel数据分析:数据整理

因此可根据最小分值差确定上限,如“0-59.5,…”,更强大的数据整理工具可使用“数据透视表”工具。 2. 直方图工具的使用 例:对图中的数据按组数10进行等距分组,利用直方图工具统计频数。 ?...统计分组观测值数据 操作步骤: (1)先确定组上限 利用工作表函数在H1和H2单元格求得最大和最小值;H3求得全距R,H4为确定的组数,H5计算组距。...标志:如果数据源区域的第一行或第一列中包含标志项,请选中此复选框。 输出区域:在此输入对输出表左上角单元格的引用,可在当前工作表中输入结果。...新工作表:在当前工作簿中插入新工作表,并从新工作表的 A1 单元格开始粘贴计算结果。若要为新工作表命名,请在框中键入名称。 新工作簿:击此选项可创建新工作簿并将结果添加到其中的新工作表中。...柏拉图(排序直方图):选中此复选框可在输出表中按频率的降序来显示数据。 累积百分比:选中此复选框可在输出表中生成一列累积百分比值,并在直方图中包含一条累积百分比线。

3.3K70

PQ-M及函数:数值计算(聚合函数与操作)

小勤:大海,在PowerQuery里面能不能对一列数求和、算个数、求最大、最小值之类的啊?...大海:基本的这些统计是不需要写公式的,通过简单的操作就能得到。我们先把数据丢进Power Query。 比如,我们要对一列数进行求和: 结果如下: 小勤:吐血,就只剩一个和了!...大海:对的,我们不要只看结果,看一下操作之后形成的公式,这里是通过List.Sum函数对“学分”那一列的所有数字进行了求和。...函数对按学员分组形成的各自对应的所有学分(列表)进行求和。...小勤:嗯,原来每一步操作和生成的公式内容基本就是一一对应的。 大海:对的。因为这样,所以以后在很多数据处理的过程中,就可以通过操作生成基本的公式,然后按需要进行修改,从而生成需要的结果。

1.8K40
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    【Python环境】Python中的结构化数据分析利器-Pandas简介

    Series的字典形式创建的DataFrame相同,只是思路略有不同,一个是以列为单位构建,将所有记录的不同属性转化为多个Series,行标签冗余,另一个是以行为单位构建,将每条记录转化为一个字典,列标签冗余...DataFrame的每一列,这里使用的是匿名lambda函数,与R中apply函数类似 设置索引 df.set_index('one') 重命名列 df.rename(columns={u'one':'...df.groupby(['A','B']).sum()##按照A、B两列的值分组求和 对应R函数: tapply() 在实际应用中,先定义groups,然后再对不同的指标指定不同计算方式。...groups = df.groupby('A')#按照A列的值分组求和groups['B'].sum()##按照A列的值分组求B组和groups['B'].count()##按照A列的值分组B组计数 默认会以...画图 Pandas也支持一定的绘图功能,需要安装matplot模块。 比如前面创建的时间序列,通过plot()就可以绘制出折线图,也可以使用hist()命令绘制频率分布的直方图。

    15.1K100

    数据人必会的Excel|掌握32个Excel小技巧,成为效率达人(一)

    方法: 对于Ctrl+Shift+D和Ctrl+Shift+R来说,我们先在第一个单元格写上需要填充的内容,其次选中需要填充的区域,最后按下Ctrl+Shift+D或Ctrl+Shift+R快捷键向下或向右填充...而对于Ctrl+Enter来说,操作方法略有不同,我们需要先选中要填充的区域,然后在编辑栏中输入需要填充的内容,最后按下快捷键Ctrl+Enter,完成批量填充。...选中需要调整格式的单元格,按下快捷键Ctrl+Shift+4或Ctrl+Shift+5就能够将格式分别调整为货币格式和百分比格式了。 ? 调整为其他格式也有相应的快捷键,小编就不在这里一一列举了!...技巧七:批量求和 快速批量求和有两个小技巧,第一个小技巧是运用快捷键Alt+=进行求和,我们需要选中需要求和的两列以及结果输出列,然后按住快捷键Alt+=进行求和;第二个小技巧是先在需要求和的第一个单元格计算出一个值...进行两列互换的时候,我们选中其中一列需要互换的列,然后将鼠标移动至该列的右侧边缘,然后按住Shift拖动该列到相应位置,就可以实现互换了。 ? 如有疑问,可以关注视频号:数据万花筒,有详细讲解哦!

    1.7K20

    R语言数据分析利器data.table包 —— 数据框结构处理精讲

    sep2,对于是list的一列,写出去时list成员间以sep2分隔,它们是处于一列之内,然后内部再用字符分开; eol,行分隔符,默认Windows是"\r\n",其它的是"\n"; na,na...比如此例取出DT 中 X 列为"a"的行,和"a"进行merge。on参数的第一列必须是DT的第一列 DT[....(sv=sum(v))] #对y列求和,输出sv列,列中的内容就是sum(v) DT[, ....(sum(y)), by=x] # 对x列进行分组后对各分组y列求总和 DT[, sum(y), keyby=x] #对x列进行分组后对各分组y列求和,并且结果按照x排序 DT[, sum(y)...函数画图,对于每个x的分组画一张图 DT[, m:=mean(v), by=x] #对DT按x列分组,直接在DT上再添加一列m,m的内容是mean(v),直接修改并且不输出到屏幕上 DT[, m:=mean

    5.9K20

    数据分析之Pandas快速图表可视化各类操作详解

    可以使用plot()中的x和y关键字绘制一列与另一列的对比,比如我们想要使用星期六的客流量和星期日的客流量作对比: df_flow_7=df_flow[df_flow['日期']=='星期日'].iloc...df.plot.box(vert=False, positions=[1, 4, 5, 6, 8]) 现有接口仍然可以使用DataFrame.boxplot: df.boxplot()  可以使用by关键字参数创建分层箱线图来创建分组...,以及按多个列分组: import pandas as pd import numpy as np import matplotlib.pyplot as plt plt.rcParams['font.sans-serif...下面的示例显示了一个气泡图,它使用DataFrame的一列作为气泡大小。...在本例中,位置由a列和b列给出,而值由z列给出。这些箱子通过NumPy的max函数进行聚合。

    42441

    系统性的学会 Pandas, 看这一篇就够了!

    /data/test.csv", columns=['open'], index=False) 当然我们也可以这么做,就是把索引保存到文件中,读取的时候变成了一列,那么可以把这个列再变成索引,如下:...one-hot编码 什么是one-hot编码 把每个类别生成一个布尔列,这些列中只有一列可以为这个样本取值为1.其又被称为热编码。...以下图当中表示,week代表星期几,1,0代表这一天股票的涨跌幅是好还是坏,里面的数据代表比例 可以理解为所有时间为星期一等等的数据当中涨跌幅好坏的比例 交叉表:交叉表用于计算一列数据对于另外一列数据的分组个数...,对颜色分组,price进行聚合: # 按color分组,再取出price1列求平均值 col.groupby(['color'])['price1'].mean() # 和上述一个功能 col['price1...思路分析 1、创建一个全为0的dataframe,列索引置为电影的分类,temp_df 2、遍历每一部电影,temp_df中把分类出现的列的值置为1 3、求和 思路 下面接着看: 1、创建一个全为0的dataframe

    4.1K20

    数据可视化干货:使用pandas和seaborn制作炫酷图表(附代码)

    你可以从其基本组件中组装一个图表:数据显示(即绘图的类型:线、条、框、散点图、轮廓等)、图例、标题、刻度标记和其他注释。 在pandas中,我们可能有多个数据列,并且带有行和列的标签。...pandas自身有很多内建方法可以简化从DataFrame和Series对象生成可视化的过程。另一个是seaborn,它是由Michael Waskom创建的统计图形库。...在DataFrame中,柱状图将每一行中的值分组到并排的柱子中的一组。...06 其他Python可视化工具 和开源代码一样,在Python语言下创建图形的选择有很多(太多而无法一一列举)。自从2010年以来,很多开发工作都集中在创建web交互式图形上。...借助像Bokeh和Plotly这样的工具,在web浏览器中创建动态的、交互式图像的工作现在已经可以实现。

    5.4K40

    数据视化的三大绘图系统概述:base、lattice和ggplot2

    )等;还提供了更加高级的图形系统lattice和ggplot2. base基本图形系统相关内容可参照:《R语言 图形初阶:hist、plot和图形布局layout | 第6讲》,作为R语言图形绘制的入门一节...用来分组的变量(因子) index.cond 列表,设定面板的展示顺序 key(或auto.key) 函数,添加分组变量的图例符号 layout 两元素数值型向量,设定面板的摆放方式(行数和列数);如有需要...:第一个plot()函数把页面分割为一列两行的矩阵,并将图形放置到第一列第一行中;第二个plot()函数将图形放置到第一列第二行中,由于plot()函数默认启动新的页面,因此使用newpage = FALSE...2 ggplot2绘图系统 ggplot2将数据、数据到图形要素的映射以及图形要素绘制分离,然后按图层叠加的方式作图,通过+进行叠加。...):很多时候需要将数据按某种方法分组分别作图。

    4.4K30

    玩转数据处理120题|R语言版本

    难度:⭐ R解法 df <- df[,-4] # 提高可读性可采用如下代码 df % select(-c('categories')) 35 数据处理 题目:将df的第一列与第二列合并为新的一列...题目:生成新的一列new为salary列减去之前生成随机数列 难度:⭐⭐ R解法 df % mutate(new = salary - `0`) 45 缺失值处理 题目:检查数据中是否含有任何缺失值...,'col2','col3') 89 数据提取 题目:提取第一列中不在第二列出现的数字 难度:⭐⭐⭐ R语言解法 df[!...))) %>% arrange(desc(freq)) %>% filter(row_number() <= 3) 91 数据提取 题目:提取第一列中可以整除5的数字位置 难度:⭐⭐⭐ R语言解法...数据读取 题目:从CSV文件中读取指定数据 难度:⭐⭐ 备注 从数据1中的前10行中读取positionName, salary两列 R语言解法 #一步读取文件的指定列用readr包或者原生函数都没办法

    8.9K10

    玩转数据处理120题|Pandas版本

    ['categories'] # 等价于 df.drop(columns=['categories'], inplace=True) 35 数据处理 题目:将df的第一列与第二列合并为新的一列 难度:...100]) 88 数据修改 题目:修改列名为col1,col2,col3 难度:⭐ Python解法 df.columns = ['col1','col2','col3'] 89 数据提取 题目:提取第一列中不在第二列出现的数字...解法 temp = df['col1'].append(df['col2']) temp.value_counts()[:3] 91 数据提取 题目:提取第一列中可以整除5的数字位置 难度:⭐⭐⭐ Python...=True) 99 数据修改 题目:将第一列大于50的数字修改为'高' 难度:⭐⭐ Python解法 df.col1[df['col1'] > 50] = '高' 100 数据计算 题目:计算第一列与第二列之间的欧式距离...难度:⭐⭐ 备注 从数据1中的前10行中读取positionName, salary两列 Python解法 df1 = pd.read_csv(r'C:\Users\chenx\Documents\Data

    7.6K41

    系统性的学会 Pandas, 看这一篇就够了!

    /data/test.csv", columns=['open'], index=False) 当然我们也可以这么做,就是把索引保存到文件中,读取的时候变成了一列,那么可以把这个列再变成索引,如下:...one-hot编码 什么是one-hot编码 把每个类别生成一个布尔列,这些列中只有一列可以为这个样本取值为1.其又被称为热编码。...以下图当中表示,week代表星期几,1,0代表这一天股票的涨跌幅是好还是坏,里面的数据代表比例 可以理解为所有时间为星期一等等的数据当中涨跌幅好坏的比例 交叉表:交叉表用于计算一列数据对于另外一列数据的分组个数...,对颜色分组,price进行聚合: # 按color分组,再取出price1列求平均值 col.groupby(['color'])['price1'].mean() # 和上述一个功能 col['price1...思路分析 1、创建一个全为0的dataframe,列索引置为电影的分类,temp_df 2、遍历每一部电影,temp_df中把分类出现的列的值置为1 3、求和 思路 下面接着看: 1、创建一个全为0的dataframe

    4.6K30

    系统性总结了 Pandas 所有知识点

    /data/test.csv", columns=['open'], index=False) 当然我们也可以这么做,就是把索引保存到文件中,读取的时候变成了一列,那么可以把这个列再变成索引,如下:...one-hot编码 什么是one-hot编码 把每个类别生成一个布尔列,这些列中只有一列可以为这个样本取值为1.其又被称为热编码。...以下图当中表示,week代表星期几,1,0代表这一天股票的涨跌幅是好还是坏,里面的数据代表比例 可以理解为所有时间为星期一等等的数据当中涨跌幅好坏的比例 交叉表:交叉表用于计算一列数据对于另外一列数据的分组个数...,对颜色分组,price进行聚合: # 按color分组,再取出price1列求平均值 col.groupby(['color'])['price1'].mean() # 和上述一个功能 col['price1...思路分析 1、创建一个全为0的dataframe,列索引置为电影的分类,temp_df 2、遍历每一部电影,temp_df中把分类出现的列的值置为1- 3、求和 思路 下面接着看: 1、创建一个全为0的

    3.3K20

    系统性的学会 Pandas, 看这一篇就够了!

    /data/test.csv", columns=['open'], index=False) 当然我们也可以这么做,就是把索引保存到文件中,读取的时候变成了一列,那么可以把这个列再变成索引,如下:...one-hot编码 什么是one-hot编码 把每个类别生成一个布尔列,这些列中只有一列可以为这个样本取值为1.其又被称为热编码。...以下图当中表示,week代表星期几,1,0代表这一天股票的涨跌幅是好还是坏,里面的数据代表比例 可以理解为所有时间为星期一等等的数据当中涨跌幅好坏的比例 交叉表:交叉表用于计算一列数据对于另外一列数据的分组个数...,对颜色分组,price进行聚合: # 按color分组,再取出price1列求平均值 col.groupby(['color'])['price1'].mean() # 和上述一个功能 col['price1...思路分析 1、创建一个全为0的dataframe,列索引置为电影的分类,temp_df 2、遍历每一部电影,temp_df中把分类出现的列的值置为1 3、求和 思路 下面接着看: 1、创建一个全为0的dataframe

    4.4K40

    使用Pandas进行数据分析

    加载数据 首先将CSV文件中的数据作为DataFrame(pandas所生成的数据结构)加载到内存中,并且在加载时设置每一列的名称: import pandas as pd names = ['preg...数据描述 我们现在可以看看数据的整体情况: 可以直接通过print来查看前60行数据 print(data) 我们可以看到,所有的数据都是numeric类型的,而最后一列的类别(class)值即是我们要预测的因变量...您可以生成属性的直方图矩阵和按class分类后每一类值的直方图矩阵,如下所示: data.groupby('class').hist() 数据按class属性分组,然后为每个组中的属性创建直方图矩阵,结果是两个图像...您可以更好地比较同一图表上每个类的属性值 data.groupby('class').plas.hist(alpha=0.4) 这个数据按class属性分组,并且仅绘制了plas属性的直方图,其中红色的分类值为...接下来,我们研究使用了各种不同的方法来进行数据可视化,通过可视化图标我们发掘了数据中的更多有趣的信息,并且研究了数据在箱线图和直方图中的分布。

    3.4K50

    R语言数据框深度解析:从创建到数据操作,一文掌握核心技能

    数据框由不同的行和列构成,不同的列可以是不同类型(数值型、字符型、逻辑型等)的数据,比如可以其中一列是数值型,另一列是逻辑型,另一列是字符型,等。但是同一列中必须是相同的类型。...代码会创建一个数据框,这个数据框有4列,第一列的名字是Name,是字符型;第二列的名字是Age,是数值型;第三列的名字是Gender,是字符型;第4列的名字是Score,是数值型。...# 数据统计摘要 dim(df) # 数据框的行和列数 read.csv()函数是 R 的基础函数,功能强大,但对于文件的要求较为严格,比如:文件必须是 CSV 格式(用逗号分隔的数据);文件的分隔符必须是逗号...) # 按“Gender”分组求均值 #使用 `dplyr` 包分组 library(dplyr) df %>% group_by(Gender) %>% summarise(Average_Score...修改和重编码 df$Gender[df$Gender == "Male"] <- "男" #把Gender这一列中的Male变成“男” df df$Score[df$Score >= 85] <- "

    16810

    【小白必看】Python爬虫数据处理与可视化

    ,并创建FontProperties对象custom_font 使用hist()方法绘制'类型'列的直方图 使用xlabel()方法设置x轴标签,并使用自定义字体 使用show()方法显示图形 数据筛选与排序...语法提取网页中的推荐数数据 datas = [] # 创建一个空列表,用于存储提取到的数据 for t, name, author, count, num in zip(types, names,...()方法按照类型列进行分组,然后使用count()方法统计每个分组中的数量 font_path = 'caisemenghuanjingyu.ttf' # 替换为自定义字体文件的路径 # 设置自定义字体的路径...custom_font = FontProperties(fname=font_path) # 创建FontProperties对象,用于设置字体样式 df.类型.hist() # 绘制类型列的直方图...然后使用pandas库构建数据结构,对数据进行统计和分组。接下来,通过matplotlib库实现数据可视化,绘制直方图展示不同类型的数据分布情况。

    18210

    软件测试|Pandas数据分析及可视化应用实践

    图片图片注意:若有的时候数据集列数过多,无法展示多列,出现省略号,此时可以使用pandas中的set_option()进行显示设置。...('%Y%m%d')取出年月日,把这个函数用apply lambda应用到data_ratings‘timestamp’的这一列中。...Pandas中使用groupby函数进行分组统计,groupby分组实际上就是将原有的DataFrame按照groupby的字段进行划分,groupby之后可以添加计数(count)、求和(sum)、求均值...图片4、使用数据透视表pivot_table获得根据性别分级的每部电影的平均电影评分数据透视表pivot_table是一种类似groupby的操作方法,常见于EXCEL中,数据透视表按列输入数据,输出时...columns :透视表的列索引,非必要参数,同index使用方式一样aggfunc :对数据聚合时进行的函数操作,默认是求平均值,也可以sum、count等margins :额外列,默认对行列求和fill_value

    1.5K30
    领券