未闻Code-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

未闻Code

专栏成员

586

文章

1131175

阅读量

93

订阅数

一日一技：HTML里面提取的JSON怎么解析不了？

html json 网站正则表达式字符串

我们在开发爬虫的过程中，经常发现有一些网站，会直接把数据以JSON的形式，通过<script>标签放到页面源代码中。如下图所示：

2023-10-22

3060

一日一技：抛掉JavaScript，用HTML和Python做网站

html python javascript numpy git

有时候，我们的电脑上没有安装Python，但你需要验证一段Python代码的运行效果。

2022-05-23

1.4K0

一日一技：多个Python项目怎么调用我自己的工具函数？

在多年写代码的过程中，我总结了不少常用的工具函数。这些工具函数有的能够实现快速重试网络请求，有的可以把任意格式的时间转成标准格式，还有的可以自动生成正则表达式。

2022-05-23

9930

一日一技：如果你非要把HTML存到数据库，那么你应该…

文件存储编程算法 html python

在粉丝群里面，我多次强调爬虫不要把网页源代码存入数据库，但还是有很多同学这样做。源代码动辄几十 KB 甚至几 MB，存放到数据库里面会严重拖慢性能。

2021-12-01

5340

一日一技：如何禁止 Python 子类覆盖父类方法？

在昨天的文章里面，我们讲到了，当子类试图覆盖父类的时候，可以通过类型标注来发出警告。今天，我们来讲讲如何直接禁止覆盖。

2021-10-19

1.4K0

利用动态 tracing 技术来 trace 内核中的网络请求

安全 linux kernel tcp/ip html

这周帮朋友用 eBPF/SystemTap 这样的动态 tracing 工具做了一些很有趣的功能。这篇文章算是一个总结

2021-06-23

1.8K0

一日一技：Selenium 抓不到的内容

selenium html css xslt & xpath 爬虫

有一些同学在写爬虫的时候，过于依赖 Selenium，觉得只要使用模拟浏览器，在不被网站屏蔽的情况下，就可以爬到任何内容。

2021-05-13

2.8K0

通用爬虫技术要点： Dom树的重建

html 爬虫 sql

这个问题在通用爬虫的开发过程中确实会涉及到。因为网页的HTML 结构千变万化，但是，通用爬虫需要在不预先知道目标网页结构的情况下对其中的内容进行提取。

2020-12-16

9270

一日一技：爬虫如何正确从网页中提取伪元素？

css html selenium javascript xslt & xpath

可以看到，在源代码里面没有请抓取我！这段文字。难道这个网页是异步加载？我们现在来看一下网页的请求：

2020-12-16

1.7K0

为什么你应该看官方文档而不是搜索博客文章

官方文档 html vue.js javascript 腾讯云开发者社区

很多人在学习一门新技术的时候，不去看官方文档，而是喜欢直接在网上搜索别人的教程。如果运气不好搜索到了CSDN上面的装逼货辣鸡文章，那么你的学习生涯可能就此终止。即使搜索到写得很详细的正经文章，也可能因为文章不是面向初学者的，从而严重打击你的学习积极性。今天我们以学习Vue为例，说明这样做对你有什么危害。

2020-11-23

6540

一日一技：在Golang下如何相对简单地开发爬虫？

python html 爬虫 xslt & xpath

我之前一直用 Python 来写爬虫，现在，尝试用 Golang 来实现一个简单的爬虫，请求网址，然后使用 XPath 提取数据。

2020-09-30

1.7K0

一日一技：导入父文件夹中的模块并读取当前文件夹内的资源

python 编程算法 html

在编写 GNE 的测试用例时，有一个脚本 generate_new_cases.py放在 tests文件夹中。而 tests 文件夹与 gne 文件夹放在同一个位置。其中 gne 文件夹是一个包。我现在需要从generate_new_cases.py 文件中导入 gne 里面的一个类GeneralNewsExtractor。

2020-09-24

2K0

为什么GNE 不做全自动提取列表页的功能

xslt & xpath html php 自动化

GNE 上线以后，很多同学在用户群里面问到，GNE 能否支持列表页自动提取？例如对于下图中的新闻标题列表：

2020-07-29

1.2K0

不用 JavaScript，纯静态网站如何统计 PV？

svg html javascript 网站 xml

大家对访问统计pv/uv肯定不陌生，一般我们访问一些网站，会在网站的最下方看到某某页面已经被访问了多少次。如下图所示。

2020-06-24

2.1K0

为什么你会被限制登录网页版微信？

微信 html 爬虫 http tcp/ip

有一个词叫做“三月爬虫”，指的是有些学生临到毕业了，需要收集数据写毕业论文，于是在网上随便找了几篇教程，学了点requests甚至是urllib和正则表达式的皮毛，就开始写爬虫疯狂从网上爬数据。这些爬虫几乎没有做任何隐藏自己的举动，不换IP，不设置headers，不限制速度，极易被有反爬的网站封锁，极易给没反爬的小网站造成流量压力。

2020-05-14

6.3K2

进一步防止 Selenium 被检测——如何防止浏览器用新标签页打开链接？

javascript html

在文章：（最新版）如何正确移除Selenium中的 window.navigator.webdriver中，我们讲到了Page.addScriptToEvaluateOnNewDocument这个方法，它可以让当前标签页打开的所有网页，在网页内容加载之前执行一段 JavaScript 代码，从而防止网站检测到window.navigator.webdriver属性。

2020-04-28

4.1K0

Callback ——从同步思维切换到异步思维

这是一种非常常见的直线性思维，我先请求网站拿到 html，然后我再把 html 传给负责处理的函数。在整个过程中，“我“担任着调度的角色。

2020-04-26

6000

Bug or Feature？藏在 requests_html 中的陷阱

xslt & xpath xml http html

在写爬虫的过程中，我们经常使用 XPath 来从 HTML 中提取数据。例如给出下面这个 HTML：

2020-03-04

6410

GNE v0.1正式发布：4行代码开发新闻网站通用爬虫

html javascript json selenium node.js

GNE（GeneralNewsExtractor）是一个通用新闻网站正文抽取模块，输入一篇新闻网页的 HTML，输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色，几乎能够达到100%的准确率。

2020-02-11

1.4K0

你经常看到却经常忽视的__init__.py有什么用？

c 语言 python html

Python 初学者在阅读一些 Python 开源项目时，常常会看到一个叫做__init__.py的文件。下图为著名的第三方库requests的源代码：

2020-01-23

1.1K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态