首页
学习
活动
专区
工具
TVP
发布

未闻Code

专栏作者
582
文章
1060420
阅读量
92
订阅数
一日一技:HTML里面提取的JSON怎么解析不了?
我们在开发爬虫的过程中,经常发现有一些网站,会直接把数据以JSON的形式,通过<script>标签放到页面源代码中。如下图所示:
青南
2023-10-22
2430
​一日一技:如何替换URL中的query字段?
在我们写爬虫的时候,可能会需要在爬虫里面基于当前url生成一个新的url。例如下面这段伪代码:
青南
2021-09-09
1.6K0
一日一技:正则表达式同一个小括号两种意思
在Python里面,当我们要从一段正则表达式中提取出一部分内容的时候,我们可以把这部分内容用小括号包起来。例如:从字符串我的密码123456abc中提取123456abc,我们可以这样写正则表达式:
青南
2021-06-23
6290
一日一技:更友好的格式化数据提取方案
在工作中,我们开发的系统会涉及到大量的日志。同时,我们还有另一套系统会对日志的内容进行监控,从而判断系统是否正常运作。
青南
2020-08-13
3980
彻底搞懂Python 中的 import 与 from import
对不少 Python 初学者来说,Python 导入其他模块的方式让他们很难理解。什么时候用import xxx?什么时候用from xxx import yyy?什么时候用from xxx.yyy import zzz?什么时候用from xxx import *?
青南
2020-01-23
7.7K0
一日一技:使用二分法排查正则表达式的异常
现在我有10亿条微博正文,并从同事手上拿到了15000条需要过滤的垃圾信息正则表达式,只要微博正文符合任何一条正则表达式,就删除这条微博。
青南
2020-01-23
4750
一日一技:在 Python 正则表达式模块中逃跑(escape)
但有时候,我们只想让这些符号表示它本来的意思,不想让它的特殊意义表露出来,应该怎么办?
青南
2019-12-17
7240
如何使用 Flupy 构建数据处理管道
经常使用 Linux 的同学,肯定对|这个符号不陌生,这个符号是 Linux 的管道符号,可以把左边的数据传递给右边。
青南
2019-11-27
1.2K0
回《驳 <Python正则表达式,请不要再用re.compile了!!!>》
知乎用户@Manjusaka在阅读了我的文章《Python正则表达式,请不要再用re.compile了!!!》以后,写了一篇驳文《驳 Python正则表达式,请不要再用re.compile了!!!》
青南
2019-08-20
1.3K0
一日一技:一个括号两种意思,正则表达式奇怪的小括号
但是,在正则表达式里面,小括号还有另外一个意思,那就是把几个符号放在一起,作为一个整体。
青南
2019-07-30
2.1K0
一日一技:批量转义正则表达式中的特殊符号
这些聊天记录总是以表情符号开头,以 好玩结尾。为了屏蔽这些诈骗信息,我们想到使用正则表达式。
青南
2019-07-15
1.5K0
一日一技:请不要再用re.compile了!!!
如果大家在网上搜索 Python正则表达式,你将会看到大量的垃圾文章会这样写代码:
青南
2019-07-01
2.2K0
一日一技:一次性把字符串用多个分隔符分割
现在有一个字符串: name,age,我们想把它分割为 name和 age,我们可以使用 split()方法:
青南
2019-06-18
1.1K0
一日一技:让emoji表情变消失
当我们从微博或者推特上爬下数据以后,里面可能包含了emoji表情。这种表情本书就跟汉字一样是普通的字符,并不是图片。
青南
2019-03-19
1.6K0
一日一技:print大法为什么会浪费你的时间?
我是极度反对使用Python 2的,但是可能有一些项目由于历史原因不得不使用Python 2,那么你可能会遇到一些非常诡异的问题。
青南
2019-03-11
1.2K0
一日一技:re.sub第二个参数使用函数
在Python的正则表达式模块re中,我们常用的一个方法是 re.sub。它的作用是正则替换。我要把字符串 abc123xyz456中的数字替换为 *号(例如在脱敏模块中去掉电话号码):
青南
2019-01-09
2.8K0
如果你不知道做什么,那就学一门杂学吧
多年以后,面对人工智能研究员那混乱不堪的代码,我会想起第一次和S君相见的那个遥远的下午。那时的B公司,还是一个仅有6个人的小团队,Mac和显示器在桌上依次排开,大家坐在一起,不需要称呼姓名,转过脸去,对方就知道你在和他说话。一切看起来都那么美好,我们所有人,都希望自己和这个公司能够一起成长。
青南
2018-10-13
7540
正则表达式re.sub替换不完整的问题现象及其根本原因
问题的起因来自于一段正则替换。为了从一段HTML代码里面提取出正文,去掉所有的HTML标签和属性,可以写一个Python函数:
青南
2018-08-31
7520
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档