展开

关键词

据分析』pandas连续为天的几种思路

最近在处理据的时候遇到一个需求,核心就是求取最大连续为天。类似需求在去年笔者刚接触pandas的时候也做过《利用Python统连续登录N天或以上用户》,这里我们可以用同样的方法进实现。 图1:案例据 以上图中据来,我们可以看到从1月21日-1月26日空气质量连续污染持续了6天。 不过,在实际的据处理中,我们的原始据往往会较大,并不一定能直接看出来。 图2:akshare据预览 由于我们只需要用到aqi,并按照国际标准进优良与污染定级,这里简单做下据处理如下:(后台直接回复0427获取的据是处理后的据哈) import pandas as 图7:辅助列值预览 我们可以发现,按照辅助列分组进即可获得连续污染天,如上红色标记区域。 图10:思路2的解法2小明哥结果 以上就是本次全部内容,其实我们在日常工作生活中还可能遇到类似场景如:用户连续登录天用户连续付费天南方梅雨季节连续下雨天等等!

46510

Python+pandas据相关系

本文主要演示pandas中DataFrame对象corr()方法的用法,该方法用来DataFrame对象中所有列之间的相关系(包括pearson相关系、Kendall Tau相关系和spearman >>> import numpy as np >>> import pandas as pd >>> df = pd.DataFrame({'A':np.random.randint(1, 100, 10 10 5 35 46 20 6 33 14 69 7 12 41 15 8 28 62 47 9 15 92 77 >>> df.corr() # pearson相关系 0.560009 1.000000 0.014687 C 0.162105 0.014687 1.000000 >>> df.corr('kendall') # Kendall Tau相关系

38850
  • 广告
    关闭

    90+款云产品免费体验

    提供包括云服务器,云数据库在内的90+款云计算产品。打造一站式的云产品试用服务,助力开发者和企业零门槛上云。

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Python-科学-pandas-04-统

    今天讲讲pandas模块:获取某列的一些统结果,包括最大/最小值/均值/标准方差等 Part 1:示例 ? 执结果 ? Part 3:部分代码解读 ? statistic_value = df.describe(),对值列进,输出结果分类: 样本目 均值 标准方差 最小值 25%位 50%位,即中位 75%位 最大值 df[["measure_value "]] = df[["measure_value"]].astype(float),对measure_value列进据类型转换 传送门 Python-科学-pandas-03-两列相乘 Python -科学-pandas-02-两列相减 Python-科学-pandas-01-df获取部分据 文为原创作品,欢迎分享朋友圈 ----

    20510

    30个函玩转Pandas

    我在进据处理的时候除了清洗筛选处理外还会涉及到统处理,这里我们就来介绍一些常见的统吧。 1. 对于Dataframe类型来说,每对应一个统指标,分别是总、平均值、标准差、最小值、四分位(默认是25/50/75)和最大值。 ,除了描述统里的这些统维度外,我们还会用到其他一些统,比如方差、众等等。 统 这里我们演示常见的统方法,默认情况下都是按列统,我们也可以指定按,具体见下方演示 # 最大值 In [11]: df.max(numeric_only=True) Out[11 (默认是隔1) 0 NaN 1 NaN 2 -0.055556 dtype: float64 除了上述这些函外,以下几个函我们也常用到 # 某列最大的前5

    11520

    代码加快pandas速度

    标准pandas适用 - 仅使用1个CPU 即使机有多个CPU,也只有一个完全专用于您的。 而不是下边这种CPU使用,想要一个简单的方法来得到这样的东西: ? 并Pandas适用 - 使用所有CPU Pandaral·lel 如何帮助解决这个问题? Pandaral·lel 的想法是将pandas分布在机上所有可用的CPU上,以显着提高速度。 请注意如果不想并,仍然可以使用经典apply方法。 也可以通过将显示每个工作CPU一个进度条progress_bar=True的initialize功能。 ? 并应用进度条 并配有更复杂的情况下使用带有pandas DataFrame df,该据帧的两列column1,column2和功能应用func: # Standard pandas apply df.groupby 4核上的标准与并(越低越好) 除了df.groupby.col_name.rolling.apply速度仅增加x3.2因子之外,平均速度增加约x4因子,即使用过的机上的核心

    2K40

    pandas中的及统基础

    1 import pandas as pd 2 import numpy as np 3 4 df = pd.DataFrame({ 5 'key1': [4, 5, 3, df.mean() 23 # 只统字列,默认忽略nan。 key1 NaN 36 key2 NaN 37 dtype: float64 38 ''' 39 # 单一列的均值 40 print('单一列的均值',df['key2']. mean()) 41 ''' 42 单一列的均值 3.0 43 ''' 44 45 df2 = pd.DataFrame({ 46 'key1': [1, 3, 5], 47 2 d 185 6 f 186 3 h 187 1 j 188 0 k 189 4 s 190 dtype: object 191 ''' 192 # 对某一列进值的

    31110

    Pandas知识点-统

    非常常用。本文介绍Pandas中的统,这些统基本都可以见名知义,使用起来非常简单。 为了使据简洁一点,只保留据中的部分列和前100,并设置“日期”为索引。 ? 读取的原始据如上图,本文使用这些据来介绍统。 二、最大值和最小值 ? max(): 返回据的最大值。 在Pandas中,据的获取逻辑是“先列后”,所以max()默认返回每一列的最大值,axis参默认为0,如果将axis参设置为1,则返回的结果是每一的最大值,后面介绍的其他统同理。 根据DataFrame的据特点,每一列的据属性相同,进是有意义的,而每一据的据属性不一定相同,进一般没有实际意义,极少使用,所以本文也不进举例。 假如Pandas提供的函不满足我们的统需求,还可以借助apply()函自定义统,后面的文章再继续介绍。

    18520

    Python-科学-pandas-17-对某些列或

    Python的科学及可视化 今天讲讲pandas模块 对Df的特定列或者与自身或者常的运 Part 1:场景描述 ? ;对“value1”, “value2”的每个+2 操作:对1, 2的每个平方;对1, 2的每个-3 df_1 ? value1", "value2", "value3", "value4"]) print("\n", "df_1", "\n", df_1, "\n") print(type(df_1)) # 对某些列进 lambda x: x+2 if x.name in ['value1', 'value2'] else x) print("\n", "df_2-列+2", "\n", df_2, "\n") # 对某些 对列操作还是对操作,根据axis=1这个参,默认取0 0,对列进操作 1,对操作 df_2 = df_1.apply(lambda x: np.square(x) if x.name in

    44610

    Python科学Pandas

    下面主要给你讲下Series和 DataFrame这两个核心据结构,他们分别代表着一维的序列和二维的表结构。基于这两种据结构,Pandas可以对据进导入、清洗、处理、统和输出。 据统据清洗后,我们就要对据进了。 Pandas和NumPy一样,都有常用的统,如果遇到空值NaN,会自动排除。 常用的统包括: ? 表格中有一个describe()函,统千千万,describe()函最简便。它是个统大礼包,可以快速让我们对据有个全面的了解。 argument_list是参列表,expression是关于参的表达式,会根据expression表达式结果进输出返回。 我重点介绍了据清洗中的操作,当然Pandas中同样提供了多种据统的函。 最后我们介绍了如何将据表进合并,以及在Pandas中使用SQL对据表更方便地进操作。

    23310

    利用Python进据分析(9) pandas基础: 汇总统

    利用Python进据分析(9) pandas基础: 汇总统 pandas 对象拥有一些常用的学和统方法。 例如,sum() 方法,进列小: ? sum() 方法传入 axis=1 指定为横向汇总,即: ? idxmax() 获取最大值对应的索引: ? 还有一种汇总是累型的,cumsum(),比较它和 sum() 的区别: ? unique() 方法用于返回据里的唯一值 ? value_counts() 方法用于统各值出现的频率 ? isin() 方法用于判断成员资格 ?

    31230

    Python-科学-pandas-14-df按按列进转换

    系统:Windows 7 语言版本:Anaconda3-4.3.0.1-Windows-x86_64 编辑器:pycharm-community-2016.3.2 pandas:0.19.2 这个系列讲讲 Python的科学及可视化 今天讲讲pandas模块 将Df按按列进转换 Part 1:目标 最近在网站开发过程中,需要将后端的Df据,渲染到前端的Datatables,前端识别的据格式有以下特征 - 据格式为一个列表 - 列表中每一个元素为一个字典,每个字典对应前端表格的一 - 单个字典的键为前端表格的列名,字典的值为前端表格每列取的值 简单来说就是要将一个Df转换为一个列表,该列表有特定的格式 Part 2:代码 import pandas as pd dict_1 = {"time": ["2019-11-02", "2019-11-03", "2019-11-04", "2019-11- 表示记录,对应据库的 Part 4:延伸 以上方法将Df按转换,那么是否可以按列进转换呢?

    19330

    Python科学Pandas

    而Scipy(会在接下来的帖子中提及)当然是另一个主要的也十分出色的科学库,但是我认为前三者才是真正的Python科学的支柱。 所以,不需要太多精力,让我们马上开始Python科学系列的第三帖——Pandas。如果你还没有查看其他帖子,不要忘了去看一下哦! 导入Pandas 我们首先要导入我们的演出明星——PandasPandas非常智能,所以你可以省略这一关键字。 将你的据准备好以进挖掘和分析 现在我们已经将据导入了Pandas。 在Pandas中,一个条目等同于一,所以我们可以通过len方法获取据的,即条目。 ? 这将给你一个整告诉你据的。在我的据集中,我有33。 此外,你可能需要知道你据的一些基本的统信息。Pandas让这件事变得非常简单。 ? 这将返回一个包含多种统信息的表格,例如,,均值,标准方差等。它看起来像这样: ?

    29000

    Python-科学-pandas-12-df单列

    Python的科学及可视化 今天讲讲pandas模块 Dataframe某一列的和、均值、最大值、最小值、样本标准方差 Part 1:背景 ? ]} df_1 = pd.DataFrame(dict_1, columns=["time", "pos", "value1", "value2"]) print(df_1, "\n") # 单列结果 ? Part 3:部分代码解读 ? 求单列的和df_1["value1"].sum(),基本格式df[列名].() 和:sum 均值:mean 最大值:max 最小值:min 样本标准方差:std,注意是样本标准方差,对应(n-1 ),不是总体标准方差 Ps:根据pos列可以将value1进分组,那么对应每一组的值又如何实现?

    21620

    使用Dask DataFrames 解决Pandas中并的问题

    大多Dask API与Pandas相同,但是Dask可以在所有CPU内核上并。它甚至可以在集群上运,但这是另一个话题。 今天你将看到Dask在处理20GB CSV文件时比Pandas快多少。 处理单个CSV文件 目标:读取一个单独的CSV文件,分组的值按月,并每个列的总和。 用Pandas加载单个CSV文件再简单不过了。 处理多个CSV文件 目标:读取所有CSV文件,按年值分组,并每列的总和。 使用Pandas处理多个据文件是一项乏味的任务。简而言之,你必须一个一个地阅读文件,然后把它们垂直地叠起来。 结论 今天,您学习了如何从Pandas切换到Dask,以及当据集变大时为什么应该这样做。Dask的API与Pandas是99%相同的,所以你应该不会有任何切换困难。 请记住—有些据格式在Dask中是不支持的—例如XLS、Zip和GZ。此外,排序操作也不受支持,因为它不方便并

    51220

    python pandas 分布式 modin

    python 分布式 # -*- coding:utf-8 -*- # /usr/bin/python ''' ------------------------------------------- Functions : Envs : python == 3.6 pip install modin pandas ray

    26720

    Python使用pandas据进差分运

    >>> import pandas as pd >>> import numpy as np # 生成模拟据 >>> df = pd.DataFrame({'a':np.random.randint( 53 28 2 18 87 3 56 40 4 62 34 5 74 10 6 7 78 7 58 79 8 66 80 9 30 21 # 纵向一阶差分,当前减去上一

    1.5K40

    Python据分析入门(七):Pandas和描述

    0.69 0.89 0.17 c 0.94 0.33 0.04 d 0.35 0.46 0.29 常用的统 sum, mean, max, min… axis=0 按列统,axis=1按 skipna 排除缺失值, 默认为True 示例代码: pd2.sum() #默认把这一列的Series,所有求和 pd2.sum(axis='columns') #指定求每一的所有列的和 pd2.idxmax()#查看每一列所有的最大值所在的标签索引,同样我们也可以通过axis='columns'求每一所有列的最大值的标签索引 常用的统描述 describe 产生多个统据 示例代码: pd2.describe()#查看汇总 运结果: A B C count c 0.362319 -0.629213 -0.764706 d -0.627660 0.393939 6.250000 常用的统描述方法

    20630

    Pandas-14.统

    Pandas-14.统 pct_change() Series,DataFrame和Panel都有pct_change()函 将每个元素和前一个元素进比较,变化百分比 默认列操作,通过axis = 1参换成 s = pd.Series([1,2,3,4,5,6,7]) print(s.pct_change()) ''' 0 NaN 1 1.000000 2 0.500000 cov()方法来Series之间的协方差 NAN自动被排除 用于DataFrame时,所有列之间的协方差(cov)值 s1 = pd.Series(np.random.randn(10)) s2 0.021553 e -0.054498 0.035249 -0.073178 0.021553 0.957176 ''' 相关性 相关性显示了任何两个Series之间的线性关系 有多种方法 据排名为元素组中的每个元素生成排名 在相同的情况下,分配平均等级。

    35520

    Python-科学-pandas-11-df获取特定或者列

    系统:Windows 7 语言版本:Anaconda3-4.3.0.1-Windows-x86_64 编辑器:pycharm-community-2016.3.2 pandas:0.19.2 这个系列讲讲 Python的科学及可视化 今天讲讲pandas模块 从Dataframe获取特定的或者列据,生成一个列表 Part 1:目标 ? 已知一个Df,如下图 包括3列["time", "pos", "value1"] 包括8[0,1,2,3,4,5,6,7] 输出 获取["time", "pos", "value1"]任意一列据,输出为列表 获取第0据 Df ? 运结果 ? Part 3:部分代码解读 ?

    38710

    003.python科学pandas(上)

    ---- loc import pandas food_info = pandas.read_csv("food_info.csv") # loc[i] 获取第i据 结果为字典 food_info.loc ---- 列的术运 import pandas import numpy food_info = pandas.read_csv("food_info.csv") iron_mg = food_info () # 此列的每一据均加上100 add_100 = iron_mg + 100 print(add_100[0:3]) print() # 此列的每一据均减去50 sub_100 = iron_mg import pandas food_info = pandas.read_csv("food_info.csv") # 它将术运符应用于两列中的第一个值,两列中的第二个值,依此类推 print( ---- sort_values import pandas food_info = pandas.read_csv("food_info.csv") # 默认情况下,panda将按照我们按升序指定的列对据进排序

    21120

    扫码关注云+社区

    领取腾讯云代金券