前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python提取文本中出现的全部合法日期

Python提取文本中出现的全部合法日期

作者头像
浪漫主义狗
发布2023-09-04 15:20:05
3140
发布2023-09-04 15:20:05
举报
文章被收录于专栏:HAUE_LYS'BlogHAUE_LYS'Blog

本文最后更新于 61 天前,其中的信息可能已经有所发展或是发生改变。

需求


  • 给定一段文本,要求提取其中出现的所有合法日期;
  • 将这些日期统一格式,从小到大排序并去重后,并返回一个列表。

思路


  • 首先利用正则表达式,提取所有的日期:
  • 可能出现的日期格式:
    • xxxx.xx.xx
    • xxxx-xx-xx
    • xxxx年xx月xx日
    • xxxx年xx月xx号
  • 将所有提取到的日期转换成为 xxxx.xx.xx 的标准格式;
  • 利用 datetime 库判断日期是否合法,然后排序去重即可。

代码


代码语言:javascript
复制
from datetime import datetime
import re

def extractDates(text):
    pattern = r"\b(\d{4})[年.-](\d{1,2})[月.-]?(\d{1,2})?[日号]?\b"
    dates = sorted(
        [
            f"{year}.{month.zfill(2)}.{day.zfill(2) if day else '01'}"
            for year, month, day in re.findall(pattern, text)
            if isValidDate(f"{year}.{month.zfill(2)}.{day.zfill(2) if day else '01'}")
        ],
        key=lambda x: tuple(map(int, x.split('.')))
    )
    return dates

def isValidDate(dateStr):
    try:
        datetime.strptime(dateStr, "%Y.%m.%d")
        return True
    except ValueError:
        return False

text = "2022.2.31, 2020.2.29-2022.3.1, 2023.10, 2023.1, 2023年7月5日, 2023年7月, 2023年7月5号, 2023-07-05, 2023-7-5"
dates = extractDates(text)
print(dates)  # outputs: ['2020.02.29', '2022.03.01', '2023.01.01', '2023.07.01', '2023.07.05', '2023.07.05', '2023.07.05', '2023.07.05', '2023.10.01']
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2023-7-05 1,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 需求
  • 思路
  • 代码
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档