前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >使用Python正则表达式提取字幕

使用Python正则表达式提取字幕

作者头像
前端皮皮
发布2022-08-17 19:05:36
8880
发布2022-08-17 19:05:36
举报
文章被收录于专栏:前端进阶学习交流

大家好,我是皮皮。

一、前言

前几天在Python铂金交流群粉丝【有点意思】问了一道正则表达式处理的问题,如下图所示。

原始数据,如下所示:

他自己想要的效果,如下图:

二、实现过程

这里【月神】其实在上图中已经给了一个思路了,后来【瑜亮老师】也给了一个思路,如下图所示:

后来粉丝自己也在其他群得到了一个解答,如下图所示:

代码,如下所示:

代码语言:javascript
复制
序号列表 = [x for x in 字幕文件 if not re.search('[^0-9\n]',x)]
序号列表 = [x for x in 序号列表 if x!='\n']

后来【瑜亮老师】提出一个疑问,明明是要字幕中的文字,为啥提出来的需求是取数字?粉丝自己也说了自己的理由。

这里给出几行示例数据,如下所示:

代码语言:javascript
复制
1
00:00:00,256 --> 00:00:01,024
呵呵呵。

2
00:00:02,048 --> 00:00:02,560
哎呀,我这。

3
00:00:02,816 --> 00:00:03,584
得远一点。

4
00:00:06,400 --> 00:00:09,216
你往里再坐一点。
??

5
00:00:09,984 --> 00:00:10,496
好。

6
00:00:12,288 --> 00:00:13,056
呵呵呵。

7
00:00:13,312 --> 00:00:15,104
好。

后来【瑜亮老师】给了一份代码,如下所示:

代码语言:javascript
复制
import re
data="""1
00:00:00,256 --> 00:00:01,024
呵呵呵。

2
00:00:02,048 --> 00:00:02,560
哎呀,我这。

3
00:00:02,816 --> 00:00:03,584
得远一点。

4
00:00:06,400 --> 00:00:09,216
你往里再坐一点。
??

5
00:00:09,984 --> 00:00:10,496
好。

6
00:00:12,288 --> 00:00:13,056
呵呵呵。

7
00:00:13,312 --> 00:00:15,104
好。"""
res=re.findall(",\d{3}\n(.*?)\n\n", data, re.S)
print(res)

运行之后,结果如下所示:

完美地解决了粉丝的问题。

三、总结

大家好,我是皮皮。这篇文章主要盘点了一道正则表达式处理数据的问题,文中针对该问题给出了具体的解析和代码实现,帮助粉丝顺利解决了问题。

最后感谢粉丝【有点意思】提问,感谢【月神】、【瑜亮老师】等人给出的思路和代码解析,感谢群友们一起参与学习交流。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-07-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python共享之家 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、前言
  • 二、实现过程
  • 三、总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档