在Pandas列中将数字与日期分开

，可以通过以下步骤实现：

首先，确保该列的数据类型为字符串或日期类型。如果不是，可以使用astype方法将其转换为字符串或日期类型。
使用正则表达式或字符串处理方法，将数字和日期分开。可以使用str.extract方法提取数字和日期部分，或使用str.split方法将字符串拆分为数字和日期。
如果提取的数字和日期部分是字符串类型，可以进一步转换为数值或日期类型。可以使用astype方法将字符串转换为数值类型，或使用pd.to_datetime方法将字符串转换为日期类型。

以下是一个示例代码：

import pandas as pd

# 创建示例数据
data = {'column': ['12345-2022-01-01', '67890-2022-01-02']}
df = pd.DataFrame(data)

# 将列转换为字符串类型
df['column'] = df['column'].astype(str)

# 使用正则表达式提取数字和日期部分
df['number'] = df['column'].str.extract(r'(\d+)-')
df['date'] = df['column'].str.extract(r'-(\d{4}-\d{2}-\d{2})')

# 将数字部分转换为数值类型
df['number'] = df['number'].astype(int)

# 将日期部分转换为日期类型
df['date'] = pd.to_datetime(df['date'])

# 打印结果
print(df)

输出结果如下：

              column  number       date
0  12345-2022-01-01   12345 2022-01-01
1  67890-2022-01-02   67890 2022-01-02

在这个例子中，我们首先将列转换为字符串类型，然后使用正则表达式提取数字和日期部分。接下来，我们将数字部分转换为数值类型，将日期部分转换为日期类型。最后，我们将提取的数字和日期部分存储在新的列中。

相关·内容

单列文本拆分为多列，Python可以自动化

标签：Python与Excel,pandas 在Excel中，我们经常会遇到要将文本拆分。Excel中的文本拆分为列，可以使用公式、“分列”功能或Power Query来实现。...为了自动化这些手工操作，本文将展示如何在Python数据框架中将文本拆分为列。...示例文件包含两列，一个人的姓名和出生日期。图2 我们的任务如下： 1.把名字和姓氏分开 2.将出生日期拆分为年、月和日让我们将数据加载到Python中。...在这里，我特意将“出生日期”列中的类型强制为字符串，以便展示切片方法。实际上，pandas应该自动检测此列可能是datetime，并为其分配datetime对象，这使得处理日期数据更加容易。...一旦我们将Excel表加载到pandas中，整个表将成为pandas数据框架，“出生日期”列将成为pandas系列。因为我们不能循环，所以需要一种方法来访问该系列中的字符串元素。

6.9K1 0

【精心解读】用pandas处理大数据——节省90%内存消耗的小贴士

Dataframe对象的内部表示在底层，pandas会按照数据类型将列分组形成数据块（blocks）。...在这之前，我们先来研究下与数值型相比，pandas如何存储字符串。选对比数值与字符的储存 object类型用来表示用到了Python字符串对象的值，有一部分原因是Numpy缺少对缺失字符串值的支持。...你可以看到这些字符串的大小在pandas的series中与在Python的单独字符串中是一样的。...选用类别（categoricalas）类型优化object类型 Pandas在0.15版本中引入类别类型。category类型在底层使用整型数值来表示该列的值，而不是用原值。...首先，我们将每一列的目标类型存储在以列名为键的字典中，开始前先删除日期列，因为它需要分开单独处理。现在我们使用这个字典，同时传入一些处理日期的参数，让日期以正确的格式读入。

8.6K5 0

通宵翻译Pandas官方文档，写了这份Excel万字肝货操作！

在 Pandas 中，如果未指定索引，则默认使用 RangeIndex（第一行 = 0，第二行 = 1，依此类推），类似于电子表格中的行标题/数字。...在 Pandas 中，索引可以设置为一个（或多个）唯一值，这就像在工作表中有一列用作行标识符一样。与大多数电子表格不同，这些索引值实际上可用于引用行。...在 Pandas 中，您需要在从 CSV 读取时或在 DataFrame 中读取一次时，将纯文本显式转换为日期时间对象。解析后，Excel电子表格以默认格式显示日期，但格式可以更改。...在 Pandas 中，您通常希望在使用日期进行计算时将日期保留为日期时间对象。输出部分日期（例如年份）是通过电子表格中的日期函数和 Pandas 中的日期时间属性完成的。...填充柄在一组特定的单元格中按照设定的模式创建一系列数字。在电子表格中，这将在输入第一个数字后通过 shift+drag 或通过输入前两个或三个值然后拖动来完成。

19.5K2 0

你不一定知道这个用 Python 快速设置 Excel 表格边框的技巧

呆鸟云：本篇虽然是 Pandas 百问百答系列的开篇，但其实用的并不是 Pandas，而是 xlwings，但讲的是如何处理 Pandas 输出的 Excel 文件，为啥呢？...给领导或同事看 Excel，总不能一点格式都不设置吧，这也有点太 low 了，呆鸟就习惯把字体设为微软雅黑、字号设为 10，根据内容自适应列宽、短的文字列设置为居中，数字设置成带千分号的，当然还有百分比和日期格式也要设置...大家可以看到，这个表有几个问题：边框不完整，只有部分单元格有边框字体不美观，宋体不如微软雅黑看着好看列宽不合适，有的列过宽，有的列窄了，比如日期列，都看不见日期了居中未设置，比如产品列该居中，但居左了...# 设置应用 wb = xw.Book('data/小蜜蜂超市销售报表.xlsx') # 打开文件 ws = wb.sheets['Sheet1'] # 选择表格注意：要养成良好的习惯，数据文件与程序文件要分开存储...，一般数据文件存储在 data 子目录里。

3.4K5 0

Pandas 秘籍：6~11

索引支持向量化操作，因此我们将两个级别与下划线分开。我们将这些新值分配给columns属性。在第 3 步中，我们将两个索引级别都设为reset_index作为列。...此数字随后将用于标记整形数据。每个列组都有一个下划线字符，将stubname与结尾数字分开。为此，必须使用sep参数。原始列名称与wide_to_long工作所需的模式不匹配。...在 0 到 1 之间传递一个float值会从该调色板中选择一种特定的颜色，我们在plot方法中将其与color参数一起使用。...将此与第 5 步进行比较，在第 5 步中，pandas Timestamp构造器可以接受与参数相同的组件，以及各种日期字符串。除了整数部分和字符串，第 6 步还显示了如何将单个数字标量用作日期。...步骤 8 和 9 显示切片的工作方式与从先前步骤中选择的相同。结果中将包括与片段的开始或结束值部分匹配的任何日期。更多我们原始的犯罪数据帧未排序，并且切片仍按预期工作。

33.9K1 0

pandas基础：在pandas中对数值四舍五入

标签：pandas，Python 在本文中，将介绍如何在pandas中将数值向上、向下舍入到最接近的数字。...pandas的round()方法，而不是Python内置的round()函数。...例如，要四舍五入到2位小数：在pandas中将数值向上舍入要对数值进行向上舍入，需要利用numpy.ceil()方法，该方法返回输入的上限（即向上舍入的数字）。...向下舍入数值当然，还有一个numpy.floor()方法返回输入的底数（即向下舍入的数字）。语法与上面的示例类似。...这使得同时对多个列进行取整变得容易。可以将第一列四舍五入到2位小数，并将第二列四舍五入到最接近的千位，如下所示：欢迎在下面留言，完善本文内容，让更多的人学到更完美的知识。

9.7K2 0

Python~Pandas 小白避坑之常用笔记

Python~Pandas 小白避坑之常用笔记 ---- 提示：该文章仅适合小白同学，如有错误的地方欢迎大佬在评论处赐教 ---- 前言 1、Pandas是python的一个数据分析包，为解决数据分析任务而创建的.../list usecols：usecols=[‘user’,“pwd”] 指定user,pwd列进行读取、默认(usecols=None)全部读取 skiprows：根据数字索引跳过行数据，默认从第...),默认为0 how：any(行中有任意一个空值则剔除)， all(行中全部为空值则剔除) inplace：是否在该对象进行修改 import pandas as pd sheet1 = pd.read_csv...'].dt.year # 根据日期字段新增年份列 # sheet1['季度'] = sheet1['日期'].dt.quarter # 根据日期字段新增季度列 # sheet1.reset_index...- map() def data_parse(rows): return '1111' # map() 将该列的元素迭代传入data_parse()函数作为参数，可以在函数内对该数据进行处理

3.1K3 0

一场pandas与SQL的巅峰大战（二）

上一篇文章一场pandas与SQL的巅峰大战中，我们对比了pandas与SQL常见的一些操作，我们的例子虽然是以MySQL为基础的，但换作其他的数据库软件，也一样适用。...本文将延续上一篇文章的风格和思路，继续对比Pandas与SQL，一方面是对上文的补充，另一方面也继续深入学习一下两种工具。...开始学习一、字符串的截取对于原始数据集中的一列，我们常常要截取其字串作为新的列来使用。例如我们想求出每一条订单对应的日期。需要从订单时间ts或者orderid中截取。...在pandas中，我们可以将列转换为字符串，截取其子串，添加为新的列。代码如下图左侧所示，我们使用了.str将原字段视为字符串，从ts中截取了前10位，从orderid中截取了前8位。...我们来看在pandas中的实现。目标是把上一节合并起来的用逗号分隔的数组拆分开。

2.3K2 0

没错，这篇文章教你妙用Pandas轻松处理大规模数据

我们可以看到，这个数据集共有 171,907 行、161 列。Pandas 已经自动检测了数据的类型：83 列数字(numeric)，78 列对象(object)。...数据框的内部表示在底层，Pandas 按照数据类型将列分成不同的块（blocks）。这是 Pandas 如何存储数据框前十二列的预览。你会注意到这些数据块不会保留对列名的引用。...在动手之前，让我们仔细看一下，与数字类型相比，字符串是怎样存在 Pandas 中的。...你可以看到，存储在 Pandas 中的字符串的大小与作为 Python 中单独字符串的大小相同。使用分类来优化对象类型 Pandas 在 0.15版引入了 Categoricals （分类）。...首先，我们将每列的最终类型、以及列的名字的 keys 存在一个字典中。因为日期列需要单独对待，因此我们先要删除这一列。

3.6K4 0

在数据框架中创建计算列

标签：Python与Excel,pandas 在Excel中，我们可以通过先在单元格中编写公式，然后向下拖动列来创建计算列。在PowerQuery中，还可以添加“自定义列”并输入公式。...在Python中，我们创建计算列的方式与PQ中非常相似，创建一列，计算将应用于这整个列，而不是像Excel中的“下拉”方法那样逐行进行。要创建计算列，步骤一般是：先创建列，然后为其指定计算。...图1 在pandas中创建计算列的关键如果有Excel和VBA的使用背景，那么一定很想遍历列中所有内容，这意味着我们在一个单元格中创建公式，然后向下拖动。然而，这不是Python的工作方式。...首先，我们需要知道该列中存储的数据类型，这可以通过检查列中的第一项来找到答案。图4 很明显，该列包含的是字符串数据。将该列转换为datetime对象，这是Python中日期和时间的标准数据类型。...然后，将这些数字除以365，我们得到一列年数。处理数据框架中NAN或Null值当单元格为空时，pandas将自动为其指定NAN值。

3.8K2 0

Python批量处理Excel数据后，导入SQL Server

；有一列数据需要进行日期格式转换。...” 这个有一定难度，excel里直接转很简单，直接选中需要转的数据，然后在开始-数据格式栏选择短日期即可。...首先我们要判断空值，然后设置日期天数计算起始时间，利用datetime模块的timedelta函数将时间天数转变成时间差，然后直接与起始日期进行运算即可得出其代表的日期。...代码如下，首先将字符串按格式转变成日期类型数据，原数据为06/Jan/2022 12:27（数字日/英文月/数字年数字小时:数字分钟），按日期格式化符号解释表中对应关系替换即可。...我的想法是，首先调用pandas的sort_values函数将所有数据根据日期列进行升序排序，然后，调用drop_duplicates函数指定按SOID列进行去重，并指定keep值为last，表示重复数据中保留最后一行数据

4.5K3 0

Pandas使用技巧：如何将运行内存占用降低90%！

dataframe 的内部表示在 pandas 内部，同样数据类型的列会组织成同一个值块（blocks of values）。...在我们开始行动之前，先看看 pandas 中字符串的存储方式与数值类型的存储方式的比较。...obj_series.apply(getsizeof) 0 60 1 65 2 74 3 74 dtype: int64 你可以看到，当存储在 pandas series 时，字符串的大小与用...使用 Categoricals 优化 object 类型 pandas 在 0.15 版引入了 Categorials。category 类型在底层使用了整型值来表示一个列中的值，而不是使用原始值。...首先，我们可将每一列的最终类型存储在一个词典中，其中键值表示列名称，首先移除日期列，因为日期列需要不同的处理方式。

3.5K2 0

python Pandas像Excel一样进行自动填充与统计

Python Pandas像Excel一样进行自动填充与统计【要求】 1.在“序号”列自动添加从1开始的递增数字 2.在“日期”是自动填充：从2019-10-01起日期递增一天 3.在“面试分”与“...笔试分”中自动填充在50-100之间的随机数据 4.在后面增加一列“总分”是“面试分”*0.7+“笔试分”*0.3 5.输出为excel文件【代码】 # -*- coding: UTF-8 -*- import...pandas as pd import datetime import random #import numpy as np print(datetime.datetime.now()) df=pd.read_excel...('pandas像excel一样自动填充.xlsx',dtype={'序号':str,'日期':str,'面试分':str,'笔试分':str}) aday=datetime.timedelta(days...3. date(2019,10,1)输出的是”yyyy-mm-dd”的形式 4. df['总分']=df['面试分']*0.7+df['笔试分']*0.3是整个列的计算是以前面的数据为动态的计算。

1.5K1 0

Pandas创建DataFrame对象的几种常用方法

生成后面创建DataFrame对象时用到的日期时间索引： ? 创建DataFrame对象，索引为2013年每个月的最后一天，列名分别是A、B、C、D，数据为12行4列随机数。 ?...创建DataFrame对象，索引与列名与上面的代码相同，数据为12行4列1到100之间的随机数。 ?...根据字典来创建DataFrame对象，字典的“键”作为DataFrame对象的列名，其中B列数据是使用pandas的date_range()函数生成的日期时间，C列数据来自于使用pandas的Series...()生成的一维带标签数组，D列数据来自于使用numpy生成的一维数组，E列数据为几个字符串，F列数据是几个相同的字符串。...下面图中的代码与上面代码的不同在于，C列使用index属性修改了整个DataFrame对象的索引。上面代码使用数字做索引，下面的代码使用字符串做索引。 ?

3.5K8 0

数据科学入门必读：如何使用正则表达式？

在将数据整理成整洁的表格（也称为 dataframe）方面，pandas 非常有用，而且还能让我们从不同的角度理解数据。与正则表达式那经济简练的代码结合到一起，就好像是用快刀切黄油——简单利落。...它包含了 DD MMM YYYY 格式的日期以及具体的时间。我们只需要日期。针对日期的代码和针对名称与电子邮箱地址的代码差不多，但却更加简单。...日期是以一个数字开始的。因此我们使用 \d 表示它。但是，DD 部分的日期可能是一个数字，也可能是两个数字。因此这里的 + 号就很重要了。在正则表达式中，+ 匹配 1 个或多个其左侧模式的实例。...email.message_from_string(item) body = full_email.get_payload() emails_dict["email_body"] = body 将邮件标头与正文分开是一项很复杂的任务...接下来，['email_body'].values 查找对应行的 email_body 列。最后，得到结果值。可以看到，使用正则表达式的方式多种多样，而且能很好地与 pandas 搭配使用。

3.5K10 0

教程 | 简单实用的pandas技巧：如何将内存占用降低90%

3.8K10 0

独家 | 将时间信息编码用于机器学习模型的三种编码时间信息作为特征的三种方法

然后，我们创建两列： day_nr – 表示时间流逝的数字索引； day_of_year – 一年中的第几天；最后，我们需要创建时间序列本身。为此，我们结合了两条变换后的正弦曲线和一些随机噪声。...你可以在 pandas.pydata.org 上找到一个列表，列表包含了我们可以从pandashttps://pandas.pydata.org/pandas-docs/stable/user_guide...每条曲线都包含有关我们与一年中某一天的接近程度的信息（因为我们选择了该列）。例如，第一条曲线测量的是从 1 月 1 日开始的距离，因此它在每年的第一天达到峰值，并随着我们远离该日期而对称地减小。...与之前的方法类似，让我们使用 12 个 RBF 特征拟合线性回归模型。图7：使用径向基函数拟合。垂直线将训练集和测试集分开图 7 显示该模型在使用 RBF 特征时能够准确地捕获真实数据。...垂直线将训练集和测试集分开图 8 说明径向基函数与所考虑的方法最接近。正弦/余弦特征使模型能够拾取主要模式，但不足以完全捕捉系列的动态。

1.7K3 0

Pandas 表格样式设置指南，看这一篇就够了！

() 方法可以选择隐藏一列或者多列，代码如下： df_consume.style.hide_index().hide_columns(['性别','基金经理','上任日期','2021']) 效果如下...：隐藏列 04 设置数据格式在设置数据格式之前，需要注意下，所在列的数值的数据类型应该为数字格式，如果包含字符串、时间或者其他非数字格式，则会报错。...在 pandas 中，可以使用 DataFrame.style.bar() 函数来实现这个功能，其参数如下： Styler.bar(subset=None, axis=0, color='#d65f5f...不过经过阳哥的测试，简单的样式导出与使用是可以的。但稍微复杂一些的情况，目前的pandas版本是不太好用的。...复杂样式当样式设置较多时，比如同时隐藏索引、隐藏列、设置数据格式、高亮特定值等，这个时候有些操作在导出后使用时并没有效果。

2.8K2 1

Pandas按班拆分Excel文件+按班排名和按级排名

Pandas groupby rank, 今天学习有： 1。用pandas.groupby+apply+to_excel进行按‘班别’列对一个Excel文件拆分成一个班一个文件的操作。...简单又强大 2.pandas+groupby+rank利用总分按班排名与按级排名原数据表 # -*- coding: UTF-8 -*- import pandas as pd df=pd.read_excel...('data_1.xlsx') """ print(df) #在列的方向上删除‘学号’‘语文’ df=df.drop(['学号','语文'],axis=1) print(df) #在列的方向上删除index...和2 的整行数据 df=df.drop([1,2],axis=0) print(df) """ #f=df.groupby(['班别']).get_group(901) #print(f) #按班别拆分开另存了一个班一个...总分’=语文+数学 df['总分']=df['语文']+df['数学'] print(df) #添加一列‘级名次’并按总分排名，并输入名次数字 df['级名次']=df['总分'].rank(ascending

1.1K3 0

pandas.read_csv() 处理 CSV 文件的 6 个有用参数

pandas.read_csv 有很多有用的参数，你都知道吗？本文将介绍一些 pandas.read_csv()有用的参数，这些参数在我们日常处理CSV文件的时候是非常有用的。...我们想跳过上面显示的 CSV 文件中包含一些额外信息的行，所以 CSV 文件读入 pandas 时指定 comment = ‘#’： 3、nrows nrows 表示从顶部开始读取的行数，这是在处理...例如，只读取在删除任何以数字“#”开头的行之后剩下的前 5 行。 4、dtype 在读取数据时可以直接定义某些列的 dtype。我们将name定义为string。...5、parse_dates 如果数据包含日期列，还可以在读取时使用 parse_dates 定义日期列。Pandas 将自动从指定的“日期”列推断日期格式。...我们将date传入parse_dates ， pandas 自动会将“date”列推断为日期 dtype。 6、skipfooter 与skiprows类似，它将跳过文件底部的行数。

1.9K1 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云