首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

学习python 】68. Python正则表达式贪婪贪婪模式

贪婪贪婪模式 Python里数量词默认是贪婪(在少数语言里也可能是默认贪婪),总是尝试匹配尽可能多字符; 贪婪则相反,总是尝试匹配尽可能少字符。 在*、?、+、{m,n}后面加上?...使贪婪变成贪婪。 s = "This is a number 234-235-22-423" r = re.match("....(\d+-\d+-\d+-\d+)", s) r.group(1) # '234-235-22-423' 正则表达式模式中使用到通配字,那它在从左到右顺序求值时,会尽量“抓取”满足匹配最长字符串,在我们上面的例子里面...+会字符串启始处抓取满足模式最长字符,其中包括我们想得到一个整型字段大部分,\d+只需一位字符就可以匹配,所以它匹配了数字4,而....+则匹配了字符串起始到这个第一位数字4之前所有字符。

8410

Pandas速查手册中文版

s.value_counts(dropna=False):查看Series对象唯一计数 df.apply(pd.Series.value_counts):查看DataFrame对象一列唯一计数...():检查DataFrame对象,并返回一个Boolean数组 pd.notnull():检查DataFrame对象,并返回一个Boolean数组 df.dropna():删除所有包含空行...列col2均值 df.pivot_table(index=col1, values=[col2,col3], aggfunc=max):创建一个按列col1进行分组,并计算col2col3最大数据透视表...):查看数据汇总统计 df.mean():返回所有列均值 df.corr():返回列与列之间相关系数 df.count():返回一列个数 df.max():返回一列最大 df.min...():返回一列最小 df.median():返回一列中位数 df.std():返回一列标准差

12.1K92
您找到你想要的搜索结果了吗?
是的
没有找到

Day.5利用Pandas做数据处理(二)

生成一段时间范围 ''' data_range(start、end、periods)函数主要用于生成一个固定频率时间索引,使用时须指定三个参数两个参数值,否则报错。...以下是常用聚合函数: mean 计算分组平均值 count 分组中非NA数量 sum NA median NA算术中位数 std 标准差 var 方差 min NA最小 max...NA最大 prod NA积 first 第一个NA last 最后一个NA mad 平均绝对偏差 mode 模 abs 绝对 sem 平均值标准误差 skew 样品偏斜度(三阶矩...) kurt 样品峰度(四阶矩) quantile 样本分位数(百分位上) cumsum 累积总和 cumprod 累积乘积 cummax 累积最大 cummin 累积最小 import pandas...;函数可以作为参数放在apply # 以统计抽烟不抽烟人性别,年龄体重为例 df1=pd.DataFrame({'sex':list('FFMFMMF'),'smoker':list('YNYYNYY

3.8K20

数据处理基石:pandas数据探索

当我们生成或者导入了数据之后,通过数据探索工作能够快速了解认识数据基本信息,比如数据字段类型、索引、最、缺失等,可以让我们对数据全貌有一个初步了解。...] 查看均值 一般 DataFrame 计算后为一个 Series,Series 计算后是一个具体数值 下面的代码是按照列来计算均值: df.mean() # 按列计算 # 结果 age...) # 返回所有行均值 df.max() # 返回一列最大 df.min() # 返回一列最小 df.median() # 返回一列中位数 df.std() # 返回一列标准差,...贝塞尔校正样本标准偏差 df.var() # 无偏方差 df.corr() # 返回列与列之间相关系数 df.count() # 返回一列个数 df.prod() # 连乘 df.mad...df.idxmax() # 列最大索引名 df.idxmin() # 最小 df.cummin() # 累积最小 df.cummax() # 累积最大 df.skew() # 样本偏度 (

67900

数据处理基石:pandas数据探索

当我们生成或者导入了数据之后,通过数据探索工作能够快速了解认识数据基本信息,比如数据字段类型、索引、最、缺失等,可以让我们对数据全貌有一个初步了解。...] 查看均值 一般 DataFrame 计算后为一个 Series,Series 计算后是一个具体数值 下面的代码是按照列来计算均值: df.mean() # 按列计算 # 结果 age...) # 返回所有行均值 df.max() # 返回一列最大 df.min() # 返回一列最小 df.median() # 返回一列中位数 df.std() # 返回一列标准差,...贝塞尔校正样本标准偏差 df.var() # 无偏方差 df.corr() # 返回列与列之间相关系数 df.count() # 返回一列个数 df.prod() # 连乘 df.mad...df.idxmax() # 列最大索引名 df.idxmin() # 最小 df.cummin() # 累积最小 df.cummax() # 累积最大 df.skew() # 样本偏度 (

67800

DataFrameSeries使用

DataFrameSeries是Pandas最基本两种数据结构 可以把DataFrame看作由Series对象组成字典,其中key是列名,是Series SeriesPython...列表非常相似,但是它每个元素数据类型必须相同 创建 Series 最简单方法是传入一个Python列表 import pandas as pd s = pd.Series([ ' banana...() # 统计每个取值在数据集中出现了多少次 share.count() # 返回有多少 share.describe() # 一次性计算一列 关键统计量 平均值,...行数,列数 df.shape # 查看dfcolumns属性,获取DataFrame列名 df.columns # 查看dfdtypes属性,获取一列数据类型 df.dtypes df.info...对象就是把continent取值相同数据放到一组 df.groupby(‘continent’)[字段] → seriesGroupby对象 分号组Dataframe数据筛序出一列 df.groupby

8110

统计师Python日记【第5天:Pandas,露两手】

上一集开始学习了Pandas数据结构(SeriesDataFrame),以及DataFrame一些基本操作:改变索引名、增加一列、删除一列、排序。 今天我将继续学习Pandas。...一、描述性统计 想拿一个简单数据试试手,翻到了一份我国2012-2015年季度GDP数据,如下表(单位:万亿), ? 想整理到DataFrame,如何处理?...得到了一张非常清爽DataFrame数据表。 现在我要对这张表进行简单描述性统计: 1. 加总 .sum()是将数据纵向加总(一列加总) ?...一些函数记录在此(参考书本《利用Python进行数据分析》): 方法 描述 count() NA数量 describe() 各列汇总统计 min()、max() 最小、最大 argmin()、...也可以单独只计算两列系数,比如计算S1与S3相关系数: ? 二、缺失处理 PandasNumpy采用NaN来表示缺失数据, ? 1.

3K70

灰太狼数据世界(三)

比如说我们现在有这样一张表,那么把这张表做成dataframe,先把一列都提取出来,然后将这些在列数据都放到一个集合里,在这里我们使用字典。...这就是我们上节课讲,Series有默认索引,从开始,那这个dataframe也就会Series一样,如果不给他指定(列名或索引),他就会从开始计数。...):查看DataFrame对象一列唯一计数 print(df.head(2)) print(df[0:2]) ?...在DataFrame增加一列,我们可以直接给来增加一列,就和python字典里面添加元素是一样: import pandas as pd import numpy as np val = np.arange...df.count()#空元素计算 df.min()#最小 df.max()#最大 df.idxmin()#最小位置,类似于Rwhich.min函数 df.idxmax()#最大位置,类似于

2.8K30

首次公开,用了三年 pandas 速查表!

(1) # 返回所有行均值,下同 df.corr() # 返回列与列之间相关系数 df.count() # 返回一列个数 df.max() # 返回一列最大 df.min() #...() # 累积连乘,累乘 df.cumsum(axis=0) # 累积连加,累加 s.nunique() # 去重数量,不同量 df.idxmax() # 列最大索引名 df.idxmin(...(dropna=False) # 查看 DataFrame 对象一列唯一计数 df.apply(pd.Series.value_counts) df.duplicated() # 重复行 df.drop_duplicates...对象,并返回一个 Boolean 数组 pd.notnull() # 检查DataFrame对象,并返回一个 Boolean 数组 df.drop(['name'], axis=1)...一列应用函数 np.mean data.apply(np.max,axis=1) # 对 DataFrame 一行应用函数 np.max df.insert(1, 'three', 12,

7.4K10

Python进阶之Pandas入门(四) 数据清理

处理空有两种选择: 去掉带有空行或列 用替换空,这种技术称为imputation 让我们计算数据集一列总数。...为了计算每个列,我们使用一个聚合函数进行求和: print (movies_df.isnull().sum()) 运行结果: rank 0 genre...删除空非常简单: movies_df.dropna() 这个操作将删除至少有一个任何行,但是它将返回一个DataFrame,而不改变原来数据。...可能会有这样情况,删除一行数据集中删除太大数据块,所以我们可以用另一个来代替这个空,通常是该列平均值或中值。 让我们看看在revenue_millions列输入缺失。...如果您还记得我们从开始创建DataFrames时,dict最后是列名。现在,当我们选择DataFrame列时,我们使用方括号,就像访问Python字典一样。

1.8K60

玩转数据处理120题|Pandas版本

['grammer'].value_counts() 6 缺失处理 题目:将空用上下平均值填充 难度:⭐⭐⭐ Python解法 # pandas里有一个方法,就是计算缺失上下两数均值...解法 df.set_index("createTime") 42 数据创建 题目:生成一个df长度相同随机数dataframe 难度:⭐⭐ Python解法 df1 = pd.DataFrame(...'] % 5==0) 92 数据计算 题目:计算一列数字前一个与后一个差值 难度:⭐⭐ Python解法 df['col1'].diff().tolist() 93 数据处理 题目:将col1,col2...([1,10,15]) # 等价于 df.iloc[[1,10,15],0] 95 数据查找 题目:查找第一列局部最大位置 难度:⭐⭐⭐⭐ 备注 即比它前一个与后一个数字都大数字 Python解法...'col1']-df['col2']) # 194.29873905921264 101 数据读取 题目:CSV文件读取指定数据 难度:⭐⭐ 备注 数据1前10行读取positionName

7.4K40

20个能够有效提高 Pandas数据分析效率常用函数,附带解释例子

Pandas是一个受众广泛python数据分析库。它提供了许多函数方法来加快数据分析过程。pandas之所以如此普遍,是因为它功能强大、灵活简单。...使用query函数语法十分简单: df.query('value_1 < value_2') ? 2. Insert 当我们想要在 dataframe 里增加一列数据时,默认添加在最后。...这样得到累积在某些情况下意义不大,因为我们更需要不同小组累计数据。对于这个问题有一个非常简单方便解决方案,我们可以同时应用groupbycumsum函数。...Describe describe函数计算数字列基本统计信息,这些列包括计数、平均值、标准偏差、最小最大、中值、第一个第三个四分位数。因此,它提供了dataframe统计摘要。 ?...Replace 顾名思义,它允许替换dataframe。第一个参数是要替换,第二个参数是新。 df.replace('A', 'A_1') ? 我们也可以在同一个字典多次替换。

5.5K30

资源 | 一个Python特征选择工具,助力实现高效机器学习

我们可以在一个 dataframe 查看一列缺失比例: fs.missing_stats.head() ?...之前一样,我们可以访问将会被移除整个相关特征列表,或者在一个 dataframe 查看高度相关特征对。...根据前面的累积重要度图这一信息,梯度提升机认为很多特征都与学习无关。重申一下,每次训练运行后该方法结果都不一样。...如果使用这些方法,多次运行它们看到结果改变情况,也许可以创建具有不同参数多个数据集来进行测试! 单个唯一特征 最后一个方法相当基础:找出任何有单个唯一列。...我们可以绘制每个类别唯一数量直方图: fs.plot_unique() ? 还有一点要记住,在计算唯一之前,NaNs 已经使用 Pandas 默认移除了。

72720

整理了 25 个 Pandas 实用技巧,拿走不谢!

然后,你可以使用read_clipboard()函数将他们读取至DataFrame: ? read_csv()类似,read_clipboard()会自动检测一列正确数据类型: ?...为了找出一列中有多少是缺失,你可以使用isna()函数,然后再使用sum(): ?...类似地,你可以通过mean()isna()函数找出一列缺失百分比。 ? 如果你想要舍弃那些包含了缺失列,你可以使用dropna()函数: ?...set_option()函数一个参数为选项名称,第二个参数为Python格式化字符。可以看到,Age列Fare列现在已经保留小数点后两位。...Volume列现在有一个渐变背景色,你可以轻松地识别出大数值。 最后一个例子: ? 现在,Volumn列上有一个条形图,DataFrame上有一个标题。

3.2K10

资源 | 一个Python特征选择工具,助力实现高效机器学习

我们可以在一个 dataframe 查看一列缺失比例: fs.missing_stats.head() ?...之前一样,我们可以访问将会被移除整个相关特征列表,或者在一个 dataframe 查看高度相关特征对。...根据前面的累积重要度图这一信息,梯度提升机认为很多特征都与学习无关。重申一下,每次训练运行后该方法结果都不一样。...如果使用这些方法,多次运行它们看到结果改变情况,也许可以创建具有不同参数多个数据集来进行测试! 单个唯一特征 最后一个方法相当基础:找出任何有单个唯一列。...我们可以绘制每个类别唯一数量直方图: fs.plot_unique() ? 还有一点要记住,在计算唯一之前,NaNs 已经使用 Pandas 默认移除了。

49800

解决pandas.core.frame.DataFrame格式数据与numpy.ndarray格式数据不一致导致无法运算问题

问题描述在pandasDataFrame格式数据一列可以是不同数据类型,如数值型、字符串型、日期型等。而ndarray格式数据需要每个元素都是相同类型,通常为数值型。...这种方法在数据处理分析是常见且实用技巧,希望本文对你有所帮助。在实际应用场景,我们可能会遇到需要对DataFrame一列进行运算情况。...例如,我们有一个销售数据DataFrame,其中包含了产品名称、销售数量单价。现在我们希望计算每个产品销售总额。...然后,我们可以直接对这两个ndarray进行运算,得到每个产品销售总额。最后,将运算结果添加到DataFrame​​Sales Total​​列。...例如​​a.mean()​​可以计算数组​​a​​均值。**max()min()**:获取数组最大最小。例如​​a.max()​​可以获取数组​​a​​最大

38920

玩转数据处理120题|R语言版本

$popularity),] 16 数据查看 题目:查看最后5行数据 难度:⭐ R解法 # Rheadtail默认是6行,可以指定数字 tail(df,5) 17 数据修改 题目:删除最后一行数据...题目:使用expending函数计算开盘价移动窗口均值 难度:⭐⭐ R解法 #R没有expanding完全一致函数 #考虑到expanding实际功能就是累积均值 #可以用cummean #但...which(df['col1'] %% 5==0) 92 数据计算 题目:计算一列数字前一个与后一个差值 难度:⭐⭐ R语言解法 df %>% summarise(col1 - lag(col1...1,10,15数字 难度:⭐⭐ R语言解法 df[c(1,10,15) + 1,1] 95 数据查找 题目:查找第一列局部最大位置 难度:⭐⭐⭐⭐ 备注 即比它前一个与后一个数字都大数字 R...101 数据读取 题目:CSV文件读取指定数据 难度:⭐⭐ 备注 数据1前10行读取positionName, salary两列 R语言解法 #一步读取文件指定列用readr包或者原生函数都没办法

8.7K10

玩转数据处理120题|Pandas&R

难度:⭐⭐⭐ Python解法 # pandas里有一个方法,就是计算缺失上下两数均值 df['popularity'] = df['popularity'].fillna(df['popularity...解法 df.tail() R解法 # Rheadtail默认是6行,可以指定数字 tail(df,5) 17 数据修改 题目:删除最后一行数据 难度:⭐ Python解法 df = df.drop(...完全一致函数 #考虑到expanding实际功能就是累积均值 #可以用cummean #但cummean功能和我预想不同 #可能是包之间相互干扰 #最后采用cumsum/1:n形式完成本题 res...5数字位置 难度:⭐⭐⭐ Python解法 np.argwhere(df['col1'] % 5==0) R语言解法 which(df['col1'] %% 5==0) 92 数据计算 题目:计算一列数字前一个与后一个差值...]) # 等价于 df.iloc[[1,10,15],0] R语言解法 df[c(1,10,15) + 1,1] 95 数据查找 题目:查找第一列局部最大位置 难度:⭐⭐⭐⭐ 备注 即比它前一个与后一个数字都大数字

6K41

Pandas图鉴(二):Series Index

在这里使用方括号而不是小括号目的是为了获得方便Python切分:可以使用一个单冒号或双冒号,其含义是熟悉start:stop:step。缺失 start(end) 就是系列开始(到结束)。...原理上讲,如下图所示: 一般来说,需要保持索引唯一性。例如,在索引存在重复时,查询速度提升并不会提升。...在Pandas,它被称为MultiIndex(第4部分),索引内一列都被称为level。 索引一个重要特性是它是不可改变。与DataFrame普通列相比,你不能就地修改它。...索引任何变化都涉及到索引获取数据,改变它,并将新数据作为一个索引重新连接起来。...下面是插入数值一种方式删除数值两种方式: 第二种删除方法(通过删除)比较慢,而且在索引存在唯一情况下可能会导致复杂错误。

22320

整理了25个Pandas实用技巧

然后,你可以使用read_clipboard()函数将他们读取至DataFrame: ? read_csv()类似,read_clipboard()会自动检测一列正确数据类型: ?...该Seriesnlargest()函数能够轻松地计算出Series前3个最大: ? 事实上我们在该Series需要是索引: ?...类似地,你可以通过mean()isna()函数找出一列缺失百分比。 ? 如果你想要舍弃那些包含了缺失列,你可以使用dropna()函数: ?...但是,一个更灵活有用方法是定义特定DataFrame格式化(style)。 让我们回到stocks这个DataFrame: ? 我们可以创建一个格式化字符串字典,用于对一列进行格式化。...Volume列现在有一个渐变背景色,你可以轻松地识别出大数值。 最后一个例子: ? 现在,Volumn列上有一个条形图,DataFrame上有一个标题。

2.8K40
领券