首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

经常被人忽视的:Pandas 文本数据处理!

讲个冷知识:微信id是不区分大小写的。 如果将微信id这列的文本数据,全部转换为小写,在Pandas中可以这样操作。...df["姓名"] = df["姓"] + df["名"] df 但是在默认情况下,新列会被添加在末尾。 想要更多的自定义选择,可以参考下面的代码。...既可以在特定位置插入创建新列,也可以使用 cat 方法组合字符串(此处还可设置分隔符sep,这里并未设置)。...如果想直接筛选包含特定字符的字符串,可以使用contains()这个方法。 例如,筛选户籍地址列中包含“黑龙江”这个字符的所有行。...df[df["户籍地址"].str.contains("黑龙江")] replace()方法可用于替换字符串中的字符序列,通过该方法可以修改Pandas中的文本数据。

1.3K20

50个Pandas的奇淫技巧:向量化字符串,玩转文本处理

向量化的操作使我们不必担心数组的长度和维度,只需要关系操作功能,尤为强大的是,除了支持常用的字符串操作方法,还集成了正则表达式的大部分功能,这使得pandas在处理字符串列时,具有非常大的魔力。...二、向量化的字符串处理方法 Pandas的字符串属的方法几乎包括了大部分Python的内置字符串方法(内置共有45个方法),下面将列举一些常见的方法的用法,例如上面的count()方法将会返回某个字符的个数...当它超过传递的宽度时,用于将长文本数据分发到新行中或处理制表符空间。...str.slice()方法用于从Pandas系列对象中存在的字符串中分割子字符串。...如果其他为 None,则该方法返回调用 Series/Index 中所有字符串的串联。 sep:str,默认“” 不同元素/列之间的分隔符。默认情况下使用空字符串‘’。

6K60
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    【Python篇】深入挖掘 Pandas:机器学习数据处理的高级技巧

    1.1 缺失值处理 数据中的缺失值常常会影响模型的准确性,必须在预处理阶段处理。Pandas 提供了丰富的缺失值处理方法: 删除缺失值:可以删除包含缺失值的行或列。...常用的编码方法有: Label Encoding:将分类值转换为数字。 One-Hot Encoding:为每个分类值创建一个新的列。...2.1 时间索引与重采样 Pandas 提供了非常灵活的时间索引,支持将字符串转换为日期格式,并使用 resample() 函数进行时间重采样。...Bob 60000 48000.0 2 Charlie 70000 56000.0 在这里,apply() 允许我们对 DataFrame 中的特定列进行自定义计算并生成新的列...8.3 使用 explode() 拆分列表 如果某一列包含多个元素组成的列表,你可以使用 Pandas 的 explode() 方法将列表拆分为独立的行。

    24110

    Pandas速查卡-Python数据科学

    它不仅提供了很多方法和函数,使得处理数据更容易;而且它已经优化了运行速度,与使用Python的内置函数进行数值数据处理相比,这是一个显著的优势。...刚开始学习pandas时要记住所有常用的函数和方法显然是有困难的,所以在Dataquest(https://www.dataquest.io/)我们主张查找pandas参考资料(http://pandas.pydata.org...) 所有列的唯一值和计数 选择 df[col] 返回一维数组col的列 df[[col1, col2]] 作为新的数据框返回列 s.iloc[0] 按位置选择 s.loc['index_one'] 按索引选择...(平均值可以用统计部分中的几乎任何函数替换) df.pivot_table(index=col1,values=[col2,col3],aggfunc=max) 创建一个数据透视表,按col1分组并计算...1) 将df1中的列添加到df2的末尾(行数应该相同) df1.join(df2,on=col1,how='inner') SQL类型的将df1中的列与df2上的列连接,其中col的行具有相同的值。

    9.2K80

    Pandas图鉴(一):Pandas vs Numpy

    Polars[2]是Pandas最近的转世(用Rust编写,因此速度更快,它不再使用NumPy的引擎,但语法却非常相似,所以学习 Pandas 后对学习 Polars 帮助非常大。...MultiIndex 我们将拆分成四个部分,依次呈现~建议关注和星标@公众号:数据STUDIO,精彩内容等你来~ Part 1 Motivation 假设你有一个文件,里面有一百万行逗号分隔的数值,像这样...2.按columns排序 如果我们需要使用权重列按价格列打破平局进行排序,那么对于NumPy来说却有些糟糕: 如果选择使用NumPy,我们首先按重量排序,然后再按价格应用第二次排序。...3.增加一列 从语法和架构上来说,用Pandas添加列要好得多: Pandas不需要像NumPy那样为整个数组重新分配内存;它只是为新的列添加一个引用,并更新一个列名的 registry。...Pandas连接有所有熟悉的 inner, left, right, 和 full outer 连接模式。 6.按列分组 数据分析中另一个常见的操作是按列分组。

    35350

    Pandas全景透视:解锁数据科学的黄金钥匙

    DataFrame的一列就是Series,Series可以转化为DataFrame,调用方法函数to_frame()即可 Series 是 pandas 中的一种数据结构,可以看作是带有标签的一维数组。...它由两部分组成:索引(Index) 和 值(Values)。 索引(Index): 索引是用于标识每个元素的标签,可以是整数、字符串、日期等类型的数据。...向量化操作:Pandas支持向量化操作,这意味着可以对整个数据集执行单个操作,而不是逐行或逐列地进行迭代。向量化操作通常比纯Python循环更快,因为它们可以利用底层的优化和硬件加速。...0或’index’,表示按行删除;1或’columns’,表示按列删除。inplace:是否原地替换。布尔值,默认为False。如果为True,则在原DataFrame上进行操作,返回值为None。...import pandas as pd# 创建一个 Seriess = pd.Series([1, 2, 3, 4])# 使用 astype() 方法将 Series 的数据类型转换为字符串类型s_str

    11710

    vba新姿势,如何让vba的数据处理超越Python

    泰坦尼克号沉船事件中的乘客信息表: 实现几个简单的拆分需求: 按"性别",把数据拆分到不同的工作表,工作表名字使用"性别(值)" 按 "性别"、"船舱等级",把数据拆分到不同的工作表,工作表名字使用"...性别(值),船舱等级(值)" 按 "性别" ,把数据拆分到不同的工作簿(文件),文件名字使用"性别值.xlsx",每个对应文件中,按 "船舱等级",拆分到不同的工作表,工作表名字使用"船舱等级(值)"...如下数据: 按 列1,列2 分组,每组数据输出也好,统计也行 vba中实现这个有许多方式,我就用最常用的一种方式,数组+字典: 这里使用 "|" 连接多个 作为 key 其实是不合理的做法,要避免..." 是 "模块名字.方法名字" 现在外部逻辑可以让使用者自定义方法,作为字符串插入 此时,固定逻辑的方法,可以单独收起来到一个通用模块(或类模块),里面的代码以后都不需要改动。...---- 数据的传递 需求3:按 "性别" ,把数据拆分到不同的工作簿(文件),文件名字使用"性别值.xlsx",每个对应文件中,按 "船舱等级",拆分到不同的工作表,工作表名字使用"船舱等级(值)"

    3.1K10

    如何用 Python 执行常见的 Excel 和 SQL 任务

    在这个例子中,我们将获取许多国家人均 GDP(一个技术术语,意思是一个国家的人均收入)的维基百科表格,并在 Python 中使用 Pandas 库对数据进行排序。 首先,导入我们需要的库。...在 Pandas 中,这样做的方式是rename 方法。 ? 在实现上述方法时,我们将使用列标题 「gdppercapita」 替换列标题「US $」。...这不是很好,由于实际的数字顺序被破坏,这使得 Rank 列无用,特别是使用 Pandas 默认提供的编号索引。 幸运的是,使用内置的 Python 方法:del,删除列变得很容易。 ?...使用相同的逻辑,我们可以计算各种的值 -- 完整列表位于左侧菜单栏下的计算/描述性统计部分的 Pandas 文档。...现在我们有一个连接表,我们希望将国家和人均 GDP 按其所在地区进行分组。 我们现在可以使用 Pandas 中的 group 方法排列按区域分组的数据。 ? ?

    10.8K60

    10个方法全搞定!

    在这个例子中,我们将获取许多国家人均 GDP(一个技术术语,意思是一个国家的人均收入)的维基百科表格,并在 Python 中使用 Pandas 库对数据进行排序。 首先,导入我们需要的库。 ?...在 Pandas 中,这样做的方式是rename 方法。 ? 在实现上述方法时,我们将使用列标题 「gdp_per_capita」 替换列标题「US $」。...使用相同的逻辑,我们可以计算各种的值 — 完整列表位于左侧菜单栏下的计算/描述性统计部分的 Pandas 文档。...我们现在可以使用 Pandas 中的 group 方法排列按区域分组的数据。 ? ? 要是我们想看到 groupby 总结的永久观点怎么办?...幸运的是,Pandas 拥有强大的数据透视表方法。 ? ? 你会看到我们收集了一些不需要的列。幸运的是,使用 Pandas 中的 drop 方法,你可以轻松地删除几列。 ? ?

    8.3K20

    Python处理CSV文件(一)

    通过介绍两种代码版本,希望可以给你如下选择:一是使用 pandas 快速完成任务;二是学习通用的编程技能,并在提高编码能力的基础上获得解决问题的能力。...readline 方法读取输入文件中的第一行数据,在本例中,第一行是标题行,读入后将其作为字符串并赋给名为 header 的变量。...第 12 行代码使用 string 模块的 split 函数将字符串用逗号拆分成列表,列表中的每个值都是一个列标题,最后将列表赋给变量 header_list。...第 17 行使代码用 split 函数用逗号将字符串拆分成一个列表,列表中的每个值都是这行中某一列的值,然后,将列表赋给变量 row_list。...基本字符串分析是如何失败的 基本的 CSV 分析失败的一个原因是列中包含额外的逗号。

    17.8K10

    1000+倍!超强Python『向量化』数据处理提速攻略

    这是一个非常基本的条件逻辑,我们需要为lead status创建一个新列。 我们使用Pandas的优化循环函数apply(),但它对我们来说太慢了。...看下面的例子: numpy.where()它从我们的条件中创建一个布尔数组,并在条件为真或假时返回两个参数,它对每个元素都这样做。这对于在Dataframe中创建新列非常有用。...1、字符串 假设你需要在一系列文本中搜索特定的模式,如果匹配,则创建一个新的series。这是一种.apply方法。...用np.vectorize()时: 同时,当使用向量化方法处理字符串时,Pandas为我们提供了向量化字符串操作的.str()。...你可以使用.map()在向量化方法中执行相同的操作。 3、日期 有时你可能需要做一些日期计算(确保你的列已经转换为datetime对象)。这是一个计算周数的函数。

    6.8K41

    pandas基础:使用Python pandas Groupby函数汇总数据,获得对数据更好地理解

    标签:Python与Excel, pandas 在Python中,pandas groupby()函数提供了一种方便的方法,可以按照我们想要的任何方式汇总数据。...datetime_is_numeric参数还可以帮助pandas理解我们使用的是datetime类型的数据。 图2 添加更多信息到我们的数据中 继续为我们的交易增加两列:天数和月份。...要更改agg()方法中的列名,我们需要执行以下操作: 关键字是新的列名 这些值是命名元组 pd.namedagh,第一个参数用于列,第二个参数用于指定操作 图6 pd.NamedAgg是一个名称元组...,也允许使用正则元组,因此我们可以进一步简化上述内容: 图7 按多列分组 记住,我们的目标是希望从我们的支出数据中获得一些见解,并尝试改善个人财务状况。...在元组中,第一个元素是类别名称,第二个元素是属于特定类别的子集数据。因此,这是拆分步骤。 我们也可以使用内置属性或方法访问拆分的数据集,而不是对其进行迭代。

    4.7K50

    Pandas进阶修炼120题,给你深度和广度的船新体验

    和鲸社区的刘早起创作了这个项目,其中包含Pandas基础、Pandas数据处理、金融数据处理、当Pandas遇上NumPy、补充内容 5个部分。...#备注,在某些版本pandas中.ix方法可能失效,可使用.iloc,参考https://mp.weixin.qq.com/s/5xJ-VLaHCV9qX2AMNOLRtw #为什么不能直接使用max...,min函数,因为我们的数据中是20k-35k这种字符串,所以需要先用正则表达式提取数字 import re # 方法一:apply + 自定义函数 def func(df): lst = df...-日 #备注,在某些版本pandas中.ix方法可能失效,可使用.iloc,参考https://mp.weixin.qq.com/s/5xJ-VLaHCV9qX2AMNOLRtw for i in range...salary列开根号 df[['salary']].apply(np.sqrt) 114.将上一题数据的linestaion列按_拆分 df['split'] = df['linestaion'].str.split

    6.2K31

    Pandas图鉴(三):DataFrames

    Polars[2]是Pandas最近的转世(用Rust编写,因此速度更快,它不再使用NumPy的引擎,但语法却非常相似,所以学习 Pandas 后对学习 Polars 帮助非常大。...MultiIndex 我们将拆分成四个部分,依次呈现~建议关注和星标@公众号:数据STUDIO,精彩内容等你来~ Part 3....这个过程如下所示: 索引在Pandas中有很多用途: 它使通过索引列的查询更快; 算术运算、堆叠、连接是按索引排列的;等等。 所有这些都是以更高的内存消耗和更不明显的语法为代价的。...你可以手动否定这个条件,或者使用pdi库中的(一行长的)自动化: Group by 这个操作已经在 Series 部分做了详细描述:Pandas图鉴(二):Series 和 Index。...预定义函数(Pandas或NumPy函数对象,或其名称为字符串)。 一个从不同角度看数据的有用工具--通常与分组一起使用--是透视表。

    44420

    Pandas图鉴(二):Series 和 Index

    在Pandas中,它被称为MultiIndex(第4部分),索引内的每一列都被称为level。 索引的另一个重要特性是它是不可改变的。与DataFrame中的普通列相比,你不能就地修改它。...索引中的任何变化都涉及到从旧的索引中获取数据,改变它,并将新的数据作为一个新的索引重新连接起来。...df.merge--可以用名字指定要合并的列,不管这个列是否属于索引。 按值查找元素 考虑以下Series对象: 索引提供了一种快速而方便的方法,可以通过标签找到一个值。但是,通过值来寻找标签呢?...Pandas有df.insert方法,但它只能将列(而不是行)插入到数据框架中(而且对序列根本不起作用)。...字符串和正则表达式 几乎所有的Python字符串方法在Pandas中都有一个矢量的版本: count, upper, replace 当这样的操作返回多个值时,有几个选项来决定如何使用它们: split

    33820

    Pandas图鉴(四):MultiIndex

    Polars[2]是Pandas最近的转世(用Rust编写,因此速度更快,它不再使用NumPy的引擎,但语法却非常相似,所以学习 Pandas 后对学习 Polars 帮助非常大。...MultiIndex 我们将拆分成四个部分,依次呈现~建议关注和星标@公众号:数据STUDIO,精彩内容等你来~ Part 4....好吧,一周并没有那么多天,Pandas可以根据先前的知识推断出顺序。但是,对于星期天应该站在一周的末尾还是开头,人类还没有得出决定性的结论。Pandas应该默认使用哪个顺序?阅读区域设置?...官方Pandas文档有一个表格[4],列出了所有~20种支持的格式。 多指标算术 在整体使用多索引DataFrame的操作中,适用与普通DataFrame相同的规则(见第三部分)。...一种方法是将所有不相关的列索引层层叠加到行索引中,进行必要的计算,然后再将它们解叠回来(使用pdi.lock来保持原来的列顺序)。

    62120

    通宵翻译Pandas官方文档,写了这份Excel万字肝货操作!

    在 Pandas 中,您使用特殊方法从/向 Excel 文件读取和写入。 让我们首先基于上面示例中的数据框,创建一个新的 Excel 文件。 tips.to_excel("....pandas 通过在 DataFrame 中指定单个系列来提供矢量化操作。可以以相同的方式分配新列。DataFrame.drop() 方法从 DataFrame 中删除一列。...我们将使用 =IF(A2 的公式,将其拖到新存储列中的所有单元格。 使用 numpy 中的 where 方法可以完成 Pandas 中的相同操作。...按值排序 Excel电子表格中的排序,是通过排序对话框完成的。 pandas 有一个 DataFrame.sort_values() 方法,它需要一个列列表来排序。...在 Pandas 中提取单词最简单的方法是用空格分割字符串,然后按索引引用单词。请注意,如果您需要,还有更强大的方法。

    19.6K20

    一场pandas与SQL的巅峰大战(二)

    hive方面我们新建了一张表,并把同样的数据加载进了表中,后续直接使用即可。 ? ? 开始学习 一、字符串的截取 对于原始数据集中的一列,我们常常要截取其字串作为新的列来使用。...例如我们想求出每一条订单对应的日期。需要从订单时间ts或者orderid中截取。在pandas中,我们可以将列转换为字符串,截取其子串,添加为新的列。...-”为空,在pandas中可以使用字符串的replace方法,hive中可以使用regexp_replace函数。...在pandas中,我们采用的做法是先把原来orderid列转为字符串形式,并在每一个id末尾添加一个逗号作为分割符,然后采用字符串相加的方式,将每个uid对应的字符串类型的订单id拼接到一起。...可以看到,我们这里得到的依然是字符串类型,和pandas中的强制转换类似,hive SQL中也有类型转换的函数cast,使用它可以强制将字符串转为整数,使用方法如下面代码所示。 ?

    2.3K20
    领券