首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Python 数据分析初阶

    某一列数据计算 data['column_name'].value_counts() 以之前找到的一个前辈的数据为例子,首先我们要获取文件 import pandas as pd data = pd.read_excel...查看默认的后 10 行数据 数据表清洗 df.fillna(value=0): 用数字 0 填充空值 df['pr'].fillna(df['pr'].mean()): 用列 pr 的平均值对 na...('city' == ['beijing', 'shanghai']) 对筛选后的结果按 pr 进行求和 df.query('city' == ['beijing', 'shanghai']).pr.sum..., np.sum,np.mean]): 对 city 进行分组,然后计算 pr 列的大小、总和和平均数 数据统计 数据采样,计算标准差、协方差和相关系数。...简单数据采样 df.sample(n=3) 手动设置采样权重 weights = [0, 0, 0, 0, 0, 0.5, 0.5] df.sample(n=2, weights=weights) 采样后不放回

    1.3K20

    Pandas进阶|数据透视表与逆透视

    数据透视表将每一列数据作为输入,输出将数据不断细分成多个维度累计信息的二维数据表。...数据基本情况 groupby数据透视表 使用 pandas.DataFrame.groupby 函数,其原理如下图所示。...('mean') 通过unstack重排数据表 如果原表只有一级索引,unstack就将每一个列都分出来,然后全部纵向叠加在一起,每一个列名作为新的一级索引,原本的索引作为二级索引。...累计函数可以用一些常见的字符串 ('sum'、'mean'、'count'、'min'、'max' 等)表示,也可以用标准的累计函数(np.sum()、min()、sum() 等)。...上还有一个"driver_age",此时需要在第一步使用pandas.DataFrame.droplevel把"driver_age"删除:df.columns = df.columns.droplevel(0)

    4.3K11

    算法金 | 来了,pandas 2.0

    大侠幸会,在下全网同名「算法金」 0 基础转 AI 上岸,多个算法赛 Top 「日更万日,让更多人享受智能乐趣」今日 210+/10000,内含Pandas 是一个强大的数据分析库,广泛应用于科学研究、...Apache Arrow 是一个用于内存中的跨平台数据表示格式,旨在提高数据处理的速度和效率。...跨平台兼容:支持多种编程语言和计算引擎,如 Python、R、Java、Spark 等。高性能:优化了内存访问模式,提高了数据处理的速度。...df = pd.DataFrame({'column1': [1, pd.NA, 3], 'column2': ['a', 'b', pd.NA]})print(df)2.3 性能提升groupby 和...})grouped = df.groupby('group').sum()print(grouped)实际应用中的性能对比通过实际应用中的性能对比测试,可以看到 Pandas 2.0 在处理大数据集时的显著性能提升

    11200

    mooc商业数据分析师-入门指南

    选择数据文件或数据库,加载数据表。1.2.2 数据准备连接数据后,可以在“数据源”选项卡中预览和编辑数据。使用数据联接、数据清理和数据转换功能来准备数据。...1.3 高级功能1.3.1 计算字段在数据面板中,右键点击数据表,选择“创建计算字段”。编写计算公式,创建新的字段用于复杂分析。1.3.2 参数在数据面板中,右键点击数据表,选择“创建参数”。...导入Pandas库:import pandas as pd加载数据:df = pd.read_csv('data.csv')3.2.2 数据清洗检查缺失值:df.isnull().sum()填充缺失值:...df.fillna(value, inplace=True)删除缺失值:df.dropna(inplace=True)3.2.3 数据分析描述性统计:df.describe()分组统计:df.groupby...导入库:import plotly.express as px创建交互式图表:fig = px.scatter(df, x='column1', y='column2')

    13610

    数据分析系列——SQL数据库

    创建数据表 ? Table_name:表名,在数据库中数据表的名字不能重复,且数据表不能用数字来命名。 Column_name:字段名,表中的字段名也是不能重复的。...4、给数据表改名 ? 删除数据表 创建和修改数据时每次只能创建或修改一张数据表,删除数据表时,一次可以删除多张数据表。删除语句如下: ? 也可以 ? 4 表的操作基础 ?...3、聚合函数 求最大值函数(MAX)、最小值函数(MIN)、平均值函数(AVG)、求和函数(SUM)、求记录行数函数(COUNT) SELECT 函数(column_name)FROM table_name...上面语句中:GROUPBY是分组查询的关键字,在其后面写的是按其分组的列名,可以按照多列进行分组。 HAVING是在分组查询中使用条件的关键字。该关键字只能在GROUPBY后面。...HAVING子句要放在GROUPBY 子句之后,也就是要对数据进行分组,然后再对其按条件进行数据筛选。还有一点使用HAVING语句作为条件时,条件后面的列只能是在GROUPBY子句后面出现过的列。

    2.1K80

    Pandas 中级教程——数据分组与聚合

    Python Pandas 中级教程:数据分组与聚合 Pandas 是数据分析领域中广泛使用的库,它提供了丰富的功能来对数据进行处理和分析。...数据分组 4.1 单列分组 # 按某一列进行分组 grouped = df.groupby('column_name') 4.2 多列分组 # 按多列进行分组 grouped = df.groupby(...数据聚合 5.1 常用聚合函数 Pandas 提供了丰富的聚合函数,如 sum、mean、count 等: # 对分组后的数据进行求和 sum_result = grouped['target_column...多个聚合操作 你可以同时应用多个聚合操作,得到一个包含多个统计结果的 DataFrame: # 多个聚合操作 result = grouped['target_column'].agg(['sum',...多级分组 你还可以对多个列进行多级分组: # 多级分组 grouped_multi = df.groupby(['column1', 'column2']) 9.

    28310

    14个pandas神操作,手把手教你写代码

    那样的数据透视功能: df.groupby('team').sum() # 按团队分组对应列相加 df.groupby('team').mean() # 按团队分组对应列求平均 # 不同列不同的计算方法...图6 分组后每列用不同的方法聚合计算 10、数据转换 对数据表进行转置,对类似图6中的数据以A-Q1、E-Q4两点连成的折线为轴对数据进行翻转,效果如图7所示,不过我们这里仅用sum聚合。...df.groupby('team').sum().T ?...图7 对聚合后的数据进行翻转 也可以试试以下代码,看有什么效果: df.groupby('team').sum().stack() df.groupby('team').sum().unstack()...# 各Team四个季度总成绩趋势 df.groupby('team').sum().T.plot() ? 图12 多条折线图 也可以用pie绘制饼图,如图13所示。

    3.4K20
    领券