6.2 区域索引 6.2.1 用loc取连续的多行 提取索引值为2到索引值为4的所有行,即提取第3行到第5行,注意:此时切片的开始和结束都包括在内。 data.loc[2:4] 输出结果: ?...6.2.2 用loc取不连续的多行 提取索引值为2和索引值为4的所有行,即提取第3行和第5行。 data.loc[[2,4]] 输出结果: ?...6.2.5 用iloc取连续的多行和多列 提取第3行到第6行,第4列到第5列的值,取得是行和列交叉点的位置。 data.iloc[2:6,3:5] 输出结果: ?...6.2.6 用iloc取不连续的多行和多列 提取第3行和第6行,第4列和第5列的交叉值 data.iloc[[2,6],[3,5]] 输出结果: ?...6.2.7 用iloc取具体值 提取第3行第7列的值 data.iloc[2,6] 输出结果:‘high’ 总结:文字变代码,数值少1;代码变文字,数值加1;代码从0开始计数;文字从1开始计数。
有两种常见的矩阵类型,密集和稀疏。主要区别在于稀疏指标有很多零值。密集的指标没有。这是一个具有 4 列和 4 行的稀疏矩阵的示例。 在上面的矩阵中,16 个中有 12 个是零。...值数组 Value array:顾名思义,它将所有非零元素存储在原始矩阵中。数组的长度等于原始矩阵中非零条目的数量。在这个示例中,有 7 个非零元素。因此值数组的长度为 7。...列索引数组 Column index array:此数组存储值数组中元素的列索引。...(这里使用从零开始的索引) 行索引数组 Row index array:该数组存储所有当前行和之前行中非零值的累积计数。row_index_array [j] 编码第 j 行上方非零的总数。...最后一个元素表示原始数组中非零元素的数量。长度为 m + 1;其中 m 定义为原始矩阵中的行数。
索引对齐特性 这是Pandas中非常强大的特性,在对多个DataFrame 进行合并或者加减乘除操作时,行和列的索引都重叠的时候才能进行相应操作,否则会使用NA值进行填充。...4. describe & info info() 函数返回有哪些列、有多少非缺失值、每列的类型;describe() 默认统计数值型数据的各个统计量,可以自行选择分位数位置。...对于Series,它可以迭代每一列的值(行)操作;对于DataFrame,它可以迭代每一个列操作。 # 遍历Math列中的所有值,添加!...答:df.mean(axis=1)意思是对df按列求均值;axis = 0表示保持列标签不变,对行进行操作;axis = 1表示保持行标签不变,对列进行操作。...(c)以单词计数,谁说了最多的单词?
返回值: 注意返回的是**DataFrameGroupBy对象**,而不是一个DataFrame对象。...温故知新,回忆一下有哪些汇总运算: count 非空值计数、sum 求和、mean 求均值、max 求最大值、min 求最小值、median 求中位数、 mode 求众数、var 求方差、std 求标准差...、quantile 求分位数 (2)按多列进行分组 按多列进行分组,只要将多个列名以列表的形式传给 groupby() 即可。...② 针对不同的列做不同的汇总运算:字典形式,*键名*是*列名*,*键值*是*汇总方式*字符串形式。 返回值: 一个DataFrame对象。...对象经过汇总运算后得到的结果的形式并不是标准的DataFrame形式。
groupby 是pandas 中非常重要的一个函数, 主要用于数据聚合和分类计算. 其思想是“split-apply-combine”(拆分 - 应用 - 合并)....demo groupby后面接上分组的列属性名称(单个) 多个属性用列表形式表示,形成层次化索引 In [1]: df = pd.DataFrame({'A': ['foo', 'bar', 'foo'...(分组之后对年龄求平均再排序) 分别找出男人和女人每种职业的人数?(按照男女分组) 更进一步, 如何找出男人和女人在不同职业的平均年龄?...(先按男女分组,再按照不同职业分组,再求平均年龄) ---- 问题1 : 如何找出每一种职业的平均年龄?并按照平均年龄从大到小排序?...分组用groupby 求平均mean() 排序sort_values,默认是升序asc 操作某个列属性,通过属性的方式df.column df.groupby("occupation").age.mean
qcut:和cut作用一样,不过它是将数值等间距分割 crosstab:创建交叉表,用于计算两个或多个因子之间的频率 join:通过索引合并两个dataframe stack: 将数据框的列“堆叠”为一个层次化的...mean:计算分组的平均值 median:计算分组的中位数 min和 max:计算分组的最小值和最大值 count:计算分组中非NA值的数量 size:计算分组的大小 std和 var:计算分组的标准差和方差...计算分组的累积和、最小值、最大值、累积乘积 数据清洗 dropna: 丢弃包含缺失值的行或列 fillna: 填充或替换缺失值 interpolate: 对缺失值进行插值 duplicated: 标记重复的行...astype: 将一列的数据类型转换为指定类型 sort_values: 对数据框按照指定列进行排序 rename: 对列或行进行重命名 drop: 删除指定的列或行 数据可视化 pandas.DataFrame.plot.area...cut: 将连续数据划分为离散的箱 period_range: 生成周期范围 infer_freq: 推断时间序列的频率 tz_localize: 设置时区 tz_convert: 转换时区 dt:
而DataFrame是一种表格型数据结构,它含有一组有序的列,每列可以是不同的值。DataFrame既有行索引,也有列索引,它可以看作是由Series组成的字典,不过这些Series公用一个索引。...dataframe 的常用属性 1. columns 属性 获取df 的列标签(列索引)值 2. shape 属性 获取df 的形状,即几行几列 3. size 属性 获取df 的value的个数 4....3. count() 方法 统计series中非nan 的值,即非空值计数。 4. sort_index() 和 sort_values() 方法 按索引排序 或 按数值排序,默认升序排列。...series 中的统计函数 1. sum() 方法 和 mean() 方法 sum 求和函数。mean 求均值,同时有skipnan参数可选是否忽略nan 空值。...2. describe() 方法 可获取一系列的统计信息,包含最大最小值,标准差,计数等统计信息。
可以采用arr<=15得到的布尔值作为索引,将小于或者等于15的数归零。具体程序代码如下所示: 2....数据获取 ①列索引取值 使用单个值或序列,可以从DataFrame中索引出一个或多个列。...: 四、数据运算 pandas中具有大量的数据计算函数,比如求计数、求和、求平均值、求最大值、最小值、中位数、众数、方差、标准差等。...非空值计数 【例】对于存储在该Python文件同目录下的某电商平台销售数据product_sales.csv,形式如下所示,请利用Python对数据读取,并计算数据集每列非空值个数情况。...关键技术:可以利用行号索引和count()方法来进行计数,程序代码如下所示: 【例】对于给定的DataFrame数据,按索引值进行求和并输出结果。
Nunique Nunique用于计算行或列上唯一值的数量,即去重后计数。这个函数在分类问题中非常实用,当不知道某字段中有多少类元素时,Nunique能快速生成结果。...对year列进行唯一值计数: df.year.nunique() 输出:10 对整个dataframe的每一个字段进行唯一值计数: df.nunique() ?...4. memory_usage memory_usage用于计算dataframe每一列的字节存储大小,这对于大数据表非常有用。...返回每一列的占用字节大小: df_large.memory_usage() ? 第一行是索引index的内存情况,其余是各列的内存情况。...5. replace 顾名思义,replace是用来替换df中的值,赋以新的值。
Nunique Nunique用于计算行或列上唯一值的数量,即去重后计数。这个函数在分类问题中非常实用,当不知道某字段中有多少类元素时,Nunique能快速生成结果。...({'group':groups, 'year':years, 'value_1':values_1, 'value_2':values_2}) df 对year列进行唯一值计数: df.year.nunique...() 输出:10 对整个dataframe的每一个字段进行唯一值计数: df.nunique() 3. infer_objects infer_objects用于将object类型列推断为更合适的数据类型..., size=1000000)}) df_large.shape 返回每一列的占用字节大小: df_large.memory_usage() 第一行是索引index的内存情况,其余是各列的内存情况...5. replace 顾名思义,replace是用来替换df中的值,赋以新的值。
下面假设我们有以下数据框架,由2列分别是’one’、’two’和四行’a’、’b’、’c’、’d’。值均为整数。...(d) print df # one two # a 1.0 1 # b 2.0 2 # c 3.0 3 # d NaN 4 我们可以调用适用的数据框架向我们提供的参数总和和任意函数...在本例中,我们重温一下之前numpy中提到的求平均数。numpy.mean对每个自成一列的向量求平均数,这本身就是一个新的数据结构。...import numpy #numpy.mean对每一列求平均值 df.apply(numpy.mean) # one 2.0 # two 2.5 # dtype: float64 本例中,...#判断'one'列的值是否大于等于1 df['one'].map(lambda x: x >=1) # a True # b True # c True # d False
默认参数 按升序对结果进行排序 按字母顺序排列结果 结果中包含空值 以百分比计数显示结果 将连续数据分入离散区间 分组并调用 value_counts() 将结果系列转换为 DataFrame 应用于DataFrame...默认情况下,结果系列按降序排列,不包含任何 NA 值。例如,让我们从 Titanic 数据集中获取“Embarked”列的计数。...在进行探索性数据分析时,有时查看唯一值的百分比计数会更有用。...一个常见的用例是按某个列分组,然后获取另一列的唯一值的计数。例如,让我们按“Embarked”列分组并获取不同“Sex”值的计数。...Pandas DataFrame.value_counts() 返回一个包含 DataFrame 中唯一行计数的系列。
这样得到的累积值在某些情况下意义不大,因为我们更需要不同小组的累计数据。对于这个问题有一个非常简单方便的解决方案,我们可以同时应用groupby和cumsum函数。...Melt Melt用于将维数较大的 dataframe转换为维数较少的 dataframe。一些dataframe列中包含连续的度量或变量。在某些情况下,将这些列表示为行可能更适合我们的任务。...Describe describe函数计算数字列的基本统计信息,这些列包括计数、平均值、标准偏差、最小值和最大值、中值、第一个和第三个四分位数。因此,它提供了dataframe的统计摘要。 ?...Merge Merge()根据共同列中的值组合dataframe。考虑以下两个数据: ? 我们可以基于列中的共同值合并它们。设置合并条件的参数是“on”参数。 ?...inner:仅在on参数指定的列中具有相同值的行(如果未指定其它方式,则默认为 inner 方式) outer:全部列数据 left:左一dataframe的所有列数据 right:右一dataframe
DataFrame 9、应用于DataFrame 1、默认参数 Pandas value_counts() 函数返回一个包含唯一值计数的系列。...默认情况下,结果系列按降序排列,不包含任何 NA 值。例如,让我们从 Titanic 数据集中获取“Embarked”列的计数。...在进行探索性数据分析时,有时查看唯一值的百分比计数会更有用。...一个常见的用例是按某个列分组,然后获取另一列的唯一值的计数。例如,让我们按“Embarked”列分组并获取不同“Sex”值的计数。...Pandas DataFrame.value_counts() 返回一个包含 DataFrame 中唯一行计数的系列。
默认参数 按升序对结果进行排序 按字母顺序排列结果 结果中包含空值 以百分比计数显示结果 将连续数据分入离散区间 分组并调用 value_counts() 将结果系列转换为 DataFrame 应用于DataFrame...默认情况下,结果系列按降序排列,不包含任何 NA 值。例如,让我们从 Titanic 数据集中获取“Embarked”列的计数。 ...在进行探索性数据分析时,有时查看唯一值的百分比计数会更有用。...一个常见的用例是按某个列分组,然后获取另一列的唯一值的计数。例如,让我们按“Embarked”列分组并获取不同“Sex”值的计数。 ...Pandas DataFrame.value_counts() 返回一个包含 DataFrame 中唯一行计数的系列。
关于亲和性分析,大家估计都会看到以下这个经典的例子: 在美国的零售业有着这样一个传奇故事,沃尔玛百货将他们的纸尿裤和啤酒并排摆在一起销售,结果纸尿裤和啤酒的销量双双增长!...求苹果->香蕉的亲和性 根据概念,置信度需要知道支持度中某商品交易数,这里我们拿香蕉举例,看看其交易数。...计算规则:遍历苹果列数据,值为1则计数+1 num_apple_purchases = 0 for sample in X: if sample[3] == 1: # 第4列...因此需要创建1个字典用于存储匹配的规则,字典的key是X—>Y,值则是支持度;另外一个字典用于存储对应的X—>Y中X出现的次数。...那么,这里的算法优化其实是指对案例中非常直接的计算方式进行优化,这里用到的是pandas工具以及我们之前介绍过的itertools《itertools拼装迭代器与生成器》。
df.mean() 23 # 只统计数字列,默认忽略nan。...mean()) 41 ''' 42 计算单一列的均值 3.0 43 ''' 44 45 df2 = pd.DataFrame({ 46 'key1': [1, 3, 5], 47...',df.min()) 84 print('df的最大值',df.max()) 85 print('df的key2列的最大值',df['key2'].max()) 86 print('统计df的分位数...184 2 d 185 6 f 186 3 h 187 1 j 188 0 k 189 4 s 190 dtype: object 191 ''' 192 # 对某一列进行值的计数...,只能对一列,不能对Dataframe 193 print(df['key2'].value_counts()) 194 195 # 判断Dataframe中的每个元素是否都是在某个列表中 196 print
领取专属 10元无门槛券
手把手带您无忧上云