正则表达式实例-快速提取爱奇艺视频目录

今天来分享一个实例,如下图:

小猪佩奇动画片可谓是大红大紫,现在需要下面第4季的目录提取并搜集整理起来。

可以看到一共有26集,如果要一个一个的复制确实费劲。

利用正则表达式,十几秒钟就可以搞定。

1、鼠标右键,选择“查看源代码”,会打开一个新的网页,将里面的源代码全部复制。

2、百度里搜索“在线正则表达式”,不少网站都有这个功能。以第一个为例

打开后,将刚刚复制的源代码粘贴进去。

3、现在我们要来写“正则表达式”,以筛选出我们想要的视频名称。返回网页的源代码,定位到一个视频名称,比如第1集名称叫“猪爷爷的电脑”,

观察附近的这段代码,title="猪爷爷的电脑" rseat="jujipic_1">

rseat="jujipic_,猜测这部分代码应该每个标题都会有,再重新查找一下看

结果显示,正好26个,和动画片的集数相同(也是26集),那就好办了。

正则表达式就这样写:title=".*?" rseat="jujipic_

.*? 代表任意的内容,开头结尾都不变。这句话的意思就是告诉程序,按照这个样式

给我找出所有的符合条件的内容。

看,26个结果是不是出来了。到这一步,后面就好办了。把匹配结果复制到word当中,替换掉前后的字符title="" rseat="jujipic_即可。

同理,要提取其他的内容也是一样的办法,如提取每个视频的播放地址,

开头是,结尾是rseat="juji_jshu_,中间用.*?代替

正则表达式就这样写:

很快就提取到了,是不是省时省力?

欢迎交流!

微信公众号:永恒君的百宝箱

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180606G15PT800?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券