首页
学习
活动
专区
工具
TVP
发布

未闻Code

专栏成员
586
文章
1128769
阅读量
93
订阅数
一日一技:HTML里面提取的JSON怎么解析不了?
我们在开发爬虫的过程中,经常发现有一些网站,会直接把数据以JSON的形式,通过<script>标签放到页面源代码中。如下图所示:
青南
2023-10-22
2960
一日一技:抛掉JavaScript,用HTML和Python做网站
有时候,我们的电脑上没有安装Python,但你需要验证一段Python代码的运行效果。
青南
2022-05-23
1.4K0
一日一技:多个Python项目怎么调用我自己的工具函数?
在多年写代码的过程中,我总结了不少常用的工具函数。这些工具函数有的能够实现快速重试网络请求,有的可以把任意格式的时间转成标准格式,还有的可以自动生成正则表达式。
青南
2022-05-23
9920
一日一技:如果你非要把HTML存到数据库,那么你应该…
在粉丝群里面,我多次强调爬虫不要把网页源代码存入数据库,但还是有很多同学这样做。源代码动辄几十 KB 甚至几 MB,存放到数据库里面会严重拖慢性能。
青南
2021-12-01
5310
一日一技:如何禁止 Python 子类覆盖父类方法?
在昨天的文章里面,我们讲到了,当子类试图覆盖父类的时候,可以通过类型标注来发出警告。今天,我们来讲讲如何直接禁止覆盖。
青南
2021-10-19
1.4K0
利用动态 tracing 技术来 trace 内核中的网络请求
这周帮朋友用 eBPF/SystemTap 这样的动态 tracing 工具做了一些很有趣的功能。这篇文章算是一个总结
青南
2021-06-23
1.8K0
一日一技:Selenium 抓不到的内容
有一些同学在写爬虫的时候,过于依赖 Selenium,觉得只要使用模拟浏览器,在不被网站屏蔽的情况下,就可以爬到任何内容。
青南
2021-05-13
2.8K0
通用爬虫技术要点: Dom树的重建
这个问题在通用爬虫的开发过程中确实会涉及到。因为网页的HTML 结构千变万化,但是,通用爬虫需要在不预先知道目标网页结构的情况下对其中的内容进行提取。
青南
2020-12-16
9250
一日一技:爬虫如何正确从网页中提取伪元素?
可以看到,在源代码里面没有请抓取我!这段文字。难道这个网页是异步加载?我们现在来看一下网页的请求:
青南
2020-12-16
1.7K0
为什么你应该看官方文档而不是搜索博客文章
很多人在学习一门新技术的时候,不去看官方文档,而是喜欢直接在网上搜索别人的教程。如果运气不好搜索到了CSDN上面的装逼货辣鸡文章,那么你的学习生涯可能就此终止。即使搜索到写得很详细的正经文章,也可能因为文章不是面向初学者的,从而严重打击你的学习积极性。今天我们以学习Vue为例,说明这样做对你有什么危害。
青南
2020-11-23
6540
一日一技:在Golang下如何相对简单地开发爬虫?
我之前一直用 Python 来写爬虫,现在,尝试用 Golang 来实现一个简单的爬虫,请求网址,然后使用 XPath 提取数据。
青南
2020-09-30
1.7K0
一日一技:导入父文件夹中的模块并读取当前文件夹内的资源
在编写 GNE 的测试用例时,有一个脚本 generate_new_cases.py放在 tests文件夹中。而 tests 文件夹与 gne 文件夹放在同一个位置。其中 gne 文件夹是一个包。我现在需要从generate_new_cases.py 文件中导入 gne 里面的一个类GeneralNewsExtractor。
青南
2020-09-24
2K0
为什么GNE 不做全自动提取列表页的功能
GNE 上线以后,很多同学在用户群里面问到,GNE 能否支持列表页自动提取?例如对于下图中的新闻标题列表:
青南
2020-07-29
1.2K0
不用 JavaScript,纯静态网站如何统计 PV?
大家对访问统计pv/uv肯定不陌生,一般我们访问一些网站,会在网站的最下方看到某某页面已经被访问了多少次。如下图所示。
青南
2020-06-24
2.1K0
为什么你会被限制登录网页版微信?
有一个词叫做“三月爬虫”,指的是有些学生临到毕业了,需要收集数据写毕业论文,于是在网上随便找了几篇教程,学了点requests甚至是urllib和正则表达式的皮毛,就开始写爬虫疯狂从网上爬数据。这些爬虫几乎没有做任何隐藏自己的举动,不换IP,不设置headers,不限制速度,极易被有反爬的网站封锁,极易给没反爬的小网站造成流量压力。
青南
2020-05-14
6.3K2
进一步防止 Selenium 被检测——如何防止浏览器用新标签页打开链接?
在文章:(最新版)如何正确移除Selenium中的 window.navigator.webdriver中,我们讲到了Page.addScriptToEvaluateOnNewDocument这个方法,它可以让当前标签页打开的所有网页,在网页内容加载之前执行一段 JavaScript 代码,从而防止网站检测到window.navigator.webdriver属性。
青南
2020-04-28
4.1K0
Callback ——从同步思维切换到异步思维
这是一种非常常见的直线性思维,我先请求网站拿到 html,然后我再把 html 传给负责处理的函数。在整个过程中,“我“担任着调度的角色。
青南
2020-04-26
5970
Bug or Feature?藏在 requests_html 中的陷阱
在写爬虫的过程中,我们经常使用 XPath 来从 HTML 中提取数据。例如给出下面这个 HTML:
青南
2020-03-04
6410
GNE v0.1正式发布:4行代码开发新闻网站通用爬虫
GNE(GeneralNewsExtractor)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、 观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色,几乎能够达到100%的准确率。
青南
2020-02-11
1.4K0
你经常看到却经常忽视的__init__.py有什么用?
Python 初学者在阅读一些 Python 开源项目时,常常会看到一个叫做__init__.py的文件。下图为著名的第三方库requests的源代码:
青南
2020-01-23
1.1K0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档