首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    python数据科学系列:pandas入门详细教程

    :标签是key,取值是value;而dataframe则可以看做是嵌套字典结构,其中列名是key,每一列的series是value。...例如,当标签列类型(可通过df.index.dtype查看)为时间类型时,若使用无法隐式转换为时间的字符串作为索引切片,则引发报错 ? 切片形式返回行查询,且为范围查询 ?...由于该方法默认是按行进行检测,如果存在某个需要需要按列删除,则可以先转置再执行该方法 异常值,判断异常值的标准依赖具体分析数据,所以这里仅给出两种处理异常值的可选方法 删除,drop,接受参数在特定轴线执行删除一条或多条记录...count、value_counts,前者既适用于series也适用于dataframe,用于按列统计个数,实现忽略空值后的计数;而value_counts则仅适用于series,执行分组统计,并默认按频数高低执行降序排列...groupby,类比SQL中的group by功能,即按某一列或多列执行分组。

    15K20

    Pandas速查卡-Python数据科学

    pd.read_clipboard() 获取剪贴板的内容并将其传递给read_table() pd.DataFrame(dict) 从字典、列名称键、数据列表的值导入 输出数据 df.to_csv(...) 所有列的唯一值和计数 选择 df[col] 返回一维数组col的列 df[[col1, col2]] 作为新的数据框返回列 s.iloc[0] 按位置选择 s.loc['index_one'] 按索引选择...df.groupby(col) 从一列返回一组对象的值 df.groupby([col1,col2]) 从多列返回一组对象的值 df.groupby(col1)[col2] 返回col2中的值的平均值...,按col1中的值分组(平均值可以用统计部分中的几乎任何函数替换) df.pivot_table(index=col1,values=[col2,col3],aggfunc=max) 创建一个数据透视表...,按col1分组并计算col2和col3的平均值 df.groupby(col1).agg(np.mean) 查找每个唯一col1组的所有列的平均值 data.apply(np.mean) 在每个列上应用函数

    9.2K80

    Pandas中的这3个函数,没想到竟成了我数据处理的主力

    应用到DataFrame的每个Series DataFrame是pandas中的核心数据结构,其每一行和每一列都是一个Series数据类型。...上述apply函数完成了对四个数值列求取最大值,其中缺省axis参数为0,对应行方向处理,即对每一列数据求最大值。...return '男孩' else: return '成年男子' 基于此,用apply简单调用即可,其中axis=1设置apply的作用方向为按列方向...,其中前者对应apply的接收函数处理一行或一列,后者对应接收函数处理每个分组对应的子DataFrame,最后根据作用对象类型设计相应的接收函数,从而完成个性化的数据处理。...而在Pandas框架中,这两种含义都有所体现:对一个Series对象的每个元素实现字典映射或者函数变换,其中后者与apply应用于Series的用法完全一致,而前者则仅仅是简单将函数参数替换为字典变量即可

    2.5K10

    MySQL括号字符串计数

    字典表 + 递归查询 总结: 参考: 问题提出: 有一张表 t1 存储用户评论内容,如下所示(只列出相关列): 图片 现在想得出每种评论字数的个数,每个字符包括标点...总的想法是,首先对评论字符串以“]”为分隔符转多行,然后针对不同情况对每行求字符长度,之后按每条评论ID分组求和,得到符合规则的每条评论的长度,最后按评论长度分组进行二次聚合,得到每种长度的个数。...数字辅助表nums是只有一列ID的1、2、3......数列,关联它用笛卡尔积由原表的一行制造出多行。...8-11行中的子查询,得出每条评论中成对中括号的个数(l1列),0表示评论字符串中没有成对的中括号,结果如下: 图片 7-12行中的子查询,结果为使用以“]”为分隔符转的多行: 图片...之后按每条评论ID分组求和,得到符合规则的每条评论的长度,结果如下: 图片 最外层查询按评论长度分组进行二次聚合,得到每种长度的个数。 3.

    1.3K20

    Pandas 25 式

    目录 查看 pandas 及其支持项的版本 创建 DataFrame 重命名列 反转行序 反转列序 按数据类型选择列 把字符串转换为数值 优化 DataFrame 大小 用多个文件建立 DataFrame...创建 DataFrame 创建 DataFrame 的方式有很多,比如,可以把字典传递给 DataFrame 构建器,字典的 Key 是列名,字典的 Value 为列表,是 DataFrame 的列的值...rename()方法改列名是最灵活的方式,它的参数是字典,字典的 Key 是原列名,值是新列名,还可以指定轴向(axis)。 ? 这种方式的优点是可以重命名任意数量的列,一列、多列、所有列都可以。...使用 sample()方法随机选择 75% 的记录,并将之赋值给 moives_1。 ? 使用 drop() 方法删掉 movies 里所有 movies_1,并将之赋值给 movies_2。 ?...把连续型数据转换为类型数据 下面看一下泰坦尼克数据集的年龄(Age)列。 ? 这一列是连续型数据,如果想把它转换为类别型数据怎么办? 这里可以用 cut 函数把年龄划分为儿童、青年、成人三个年龄段。

    8.4K00

    groupby函数详解

    df[‘key1’]).mean() 按某一列进行一重聚合求均值 分组键为Series A=df[‘订单编号’].groupby([ df[‘运营商’], df[‘分类’], df[‘百度圣卡’] ])....count() 按某一列进行多重聚合计数 分组键为Series,引入列表list[] df[‘data1’].groupby([states,years]).mean() 分组键与原df无关,而是另外指定的任何长度适当的数组...1 groupby()核心用法 (1)根据DataFrame本身的某一列或多列内容进行分组聚合,(a)若按某一列聚合,则新DataFrame将根据某一列的内容分为不同的维度进行拆解,同时将同一维度的再进行聚合...(len).sum() #将字符串长度相同的行进行求和 分组键为函数和数组、列表、字典、Series的组合 引入列表list[ ] 将函数跟数组、列表、字典、Series混合使用作为分组键进行聚合,因为任何东西最终都会被转换为数组...2 b one 1.067201 -1.707349 3 b two -0.960876 -0.190247 4 a one 0.305254 0.322322 #(1)按指定的某一列进行聚合

    3.8K11

    数据分析篇 | PyCon 大咖亲传 pandas 25 式,长文建议收藏

    目录 查看 pandas 及其支持项的版本 创建 DataFrame 重命名列 反转行序 反转列序 按数据类型选择列 把字符串转换为数值 优化 DataFrame 大小 用多个文件建立 DataFrame...创建 DataFrame 创建 DataFrame 的方式有很多,比如,可以把字典传递给 DataFrame 构建器,字典的 Key 是列名,字典的 Value 为列表,是 DataFrame 的列的值...rename()方法改列名是最灵活的方式,它的参数是字典,字典的 Key 是原列名,值是新列名,还可以指定轴向(axis)。 ? 这种方式的优点是可以重命名任意数量的列,一列、多列、所有列都可以。...使用 sample()方法随机选择 75% 的记录,并将之赋值给 moives_1。 ? 使用 drop() 方法删掉 movies 里所有 movies_1,并将之赋值给 movies_2。 ?...把连续型数据转换为类型数据 下面看一下泰坦尼克数据集的年龄(Age)列。 ? 这一列是连续型数据,如果想把它转换为类别型数据怎么办? 这里可以用 cut 函数把年龄划分为儿童、青年、成人三个年龄段。

    7.2K20

    数据分组

    数据分组就是根据一个或多个键(可以是函数、数组或df列名)将数据分成若干组,然后对分组后的数据分别进行汇总计算,并将汇总计算后的结果合并,被用作汇总计算的函数称为就聚合函数。...1.分组键是列名 分组键是列名时直接将某一列或多列的列名传给 groupby() 方法,groupby() 方法就会按照这一列或多列进行分组。...参数: ①分组键是列名: 单个列名直接写(按一列进行分组),多个列名以列表的形式传入(这就是按多列进行分 组)。...""" (1)按一列进行分组 import pandas as pd df = pd.DataFrame([[99,"A类","一线城市","是",6,20,0],...按多列进行分组,只要将多个列名以列表的形式传给 groupby() 即可。

    4.5K11

    强烈推荐Pandas常用操作知识大全!

    -- -->'本体油位': 'OILLV'}) 增加列 # df2df df_jj2yyb['r_time'] = pd.to_datetime(df_jj2yyb['cTime']) # 新增一列根据..._512["transformer"].str.startswith('JJ2')] df_jj2yya = df_jj2.loc[df_jj2["变压器编号"]=='JJ2YYA'] # 提取第一列中不在第二列出现的数字...pd.read_html(url) # 解析html URL,字符串或文件,并将表提取到数据帧列表 pd.read_clipboard() # 获取剪贴板的内容并将其传递给 read_table()...对象 df.groupby(col1)[col2] # 返回中的值的平均值 col2,按中的值分组 col1 (平均值可以用统计模块中的几乎所有函数替换 ) df.pivot_table...# 返回每列中的最高值 df.min() # 返回每一列中的最小值 df.median() # 返回每列的中位数 df.std() # 返回每列的标准偏差

    15.9K20

    基于Excel2013的PowerQuery入门

    按字符数拆分列1.png ? 按字符数拆分列2.png ? 列重命名.png ? 成功列重命名.png ? 提取1.png ? 提取2.png 选定新产生的一列转换数据类型为整数 ?...加载数据到PowerQuery中.png 客户首次购买分析 选定下单日期这一列,进行升序排序。 ? 下单日期升序排序.png 选定客户名称这一列,进行删除重复项 ?...首次购买分析结果.png 客户最大订单分析 选定金额这一列,进行降序排序 ? 金额降序排序.png 选定客户名称这一列,进行删除重复项 ? image.png ?...成功加载至原有表结果.png 9.分组依据 打开下载文件中的09-分组依据.xlsx,如下图所示。 ? 打开文件图示.png ? 分组依据1.png ? 分组依据2.png ?...成功分组结果.png 10.添加列 打开下载文件中的10-添加列.xlsx,如下图所示。 ? 打开文件图示.png ? 进行分组操作.png ? 逆序排序.png ? 添加索引列.png ?

    10.2K50

    数据科学大作业:爬取租房数据并可视化分析

    为了方便后续对面积数据进行数学运算,所以需要将“面积(m)”一列的数据类型转换为float类型,具体代码如下。...为了实现这个需求,可以将整个数据按照“区域”一列进行分组。 为了能够准确地看到各区域的房源数量,这里只需要展示“区域”与“数量”这两列的数据即可。...# 按“区域”列将file_data进行分组,并统计每个分组的数量 groupy_area = file_data.groupby(by='区域').count() new_df['数量'] = groupy_area.values...# 按“数量”一列从大到小排列 new_df.sort_values(by=['数量'], ascending=False) 通过输出的排序结果可以看出,房源数量位于前的区域分别是朝阳区、海淀区、丰台区...使用字典推导式将户型数量大于50的元素筛选出来,并将筛选后的结果转换成 DataFrame对象,具体代码如下。

    2.4K23

    快速掌握apply函数家族推荐这篇文档

    sapply:与 lapply 类似,但它自动将结果转换为向量、矩阵或数组。 apply:用于对矩阵或数组的行、列或其他维度进行循环操作。...例如,下面的代码使用 apply 函数求出矩阵中每一列的和: # 创建矩阵 x <- matrix(1:9, nrow = 3) # 使用 apply 函数求出矩阵中每一列的和 apply(x, 2,...sum) [1] 6 15 24 ❝上面介绍了apply 家族函数的原理,下面来举几个使用 apply 家族函数处理数据的小例子: ❞ 例子 1:求出矩阵中每一列的最大值 下面的代码使用 apply...函数求出矩阵中每一列的最大值: # 创建矩阵 x <- matrix(1:9, nrow = 3) # 使用 apply 函数求出矩阵中每一列的最大值 apply(x, 2, max) [1] 3...6 9 例子 2:使用 apply 函数将矩阵转置 下面的代码使用 apply 函数将矩阵转置: # 创建矩阵 x <- matrix(1:9, nrow = 3) # 使用 apply 函数将矩阵转置

    2.9K30

    MADlib——基于SQL的数据挖掘解决方案(7)——数据转换之其它转换

    透视表最主要的用途是行列转置,常被用于报表需求。MADlib的分类变量编码可以理解为一种特殊的单列变多列的数据转换,对每个类别值新增为一列,列的取值是0或1,表示行对象是否属于该类别。...转置列的值。 index TEXT 逗号分隔的列名,构成输出透视表的分组列(group by的列),分组汇总后的数据行存储在输出的透视表中。...将按照id分组,每个piv值(不含NULL)对应两列,分别代表对val与val2的聚合值,结果中共有6个由行转成的列,共3行。 (11) 同一列使用多个聚合函数。...可以对同一列执行不同的聚合函数,按参数给出的聚合函数顺序,pivot函数为每个聚合函数生成由行转成的列。...(5) 只对top n的分类值编码,把其它值分组到另一个杂项列中。Top值或针对所有编码列,或按列指定。

    3K20
    领券