腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
未闻Code
专栏成员
举报
586
文章
1131175
阅读量
93
订阅数
订阅专栏
申请加入专栏
全部文章(586)
python(255)
编程算法(143)
爬虫(65)
https(40)
http(37)
网络安全(35)
javascript(33)
云数据库 Redis(32)
html(31)
sql(31)
网站(31)
数据库(30)
mongodb(30)
scrapy(27)
官方文档(23)
php(22)
selenium(22)
json(20)
正则表达式(18)
tcp/ip(18)
ide(17)
git(17)
云数据库 MongoDB(16)
其他(15)
github(15)
linux(14)
开源(14)
node.js(12)
java(11)
api(11)
文件存储(11)
go(10)
容器镜像服务(10)
xslt & xpath(10)
windows(9)
产品经理(8)
腾讯云测试服务(7)
游戏(7)
分布式(7)
腾讯云开发者社区(7)
云数据库 SQL Server(6)
ubuntu(6)
ssh(6)
kafka(6)
测试(6)
函数(6)
数据(6)
字符串(6)
mac os(5)
xml(5)
css(5)
android(5)
flask(5)
打包(5)
nginx(5)
命令行工具(5)
缓存(5)
markdown(5)
微信(5)
安全(5)
数据分析(5)
es(5)
模型(5)
c++(4)
django(4)
数据加密服务(4)
容器(4)
shell(4)
面向对象编程(4)
unicode(4)
excel(4)
pandas(4)
代理(4)
工作(4)
开发(4)
ios(3)
访问管理(3)
电商(3)
numpy(3)
etcd(3)
dataframe(3)
datetime(3)
key(3)
redis(3)
requests(3)
set(3)
time(3)
表格(3)
程序(3)
服务器(3)
接口(3)
开发者(3)
手机(3)
NLP 服务(2)
iphone(2)
c 语言(2)
jquery(2)
arm(2)
web.py(2)
搜索引擎(2)
svg(2)
存储(2)
自动化(2)
grep(2)
二叉树(2)
单元测试(2)
数据结构(2)
ascii(2)
验证码(2)
Elasticsearch Service(2)
bug(2)
curl(2)
data(2)
device(2)
func(2)
gpt(2)
patch(2)
prompt(2)
遍历(2)
程序员(2)
队列(2)
对象(2)
二进制(2)
工具(2)
后端(2)
技巧(2)
配置(2)
搜索(2)
装饰器(2)
云服务器(1)
机器学习(1)
lua(1)
bash(1)
actionscript(1)
vue.js(1)
ecmascript(1)
makefile(1)
sqlite(1)
matlab(1)
unix(1)
apache(1)
bash 指令(1)
apt-get(1)
mapreduce(1)
专用宿主机(1)
日志服务(1)
SSL 证书(1)
图像处理(1)
渲染(1)
webpack(1)
运维(1)
图像识别(1)
监督学习(1)
npm(1)
自动化测试(1)
rpc(1)
jenkins(1)
kernel(1)
hexo(1)
anaconda(1)
机器人(1)
企业组织(1)
图片处理(1)
add(1)
app(1)
async(1)
bit(1)
channel(1)
chat(1)
collections(1)
commit(1)
connect(1)
date(1)
display(1)
dsl(1)
element(1)
emoji(1)
error(1)
eval(1)
exception(1)
exec(1)
format(1)
free(1)
init(1)
int(1)
io(1)
ip(1)
list(1)
memory(1)
mock(1)
mysql(1)
na(1)
object(1)
ode(1)
office(1)
pdf(1)
photoshop(1)
pip(1)
plugin(1)
plugins(1)
poco(1)
powerpoint(1)
pymongo(1)
queue(1)
record(1)
reduce(1)
rename(1)
response(1)
search(1)
self(1)
sensors(1)
size(1)
sleep(1)
string(1)
tmux(1)
url(1)
warnings(1)
xor(1)
zip(1)
编程(1)
编程语言(1)
编辑器(1)
变量(1)
登录(1)
递归(1)
翻译(1)
分布式系统(1)
公众号(1)
管理(1)
架构(1)
脚本(1)
进程(1)
镜像(1)
跨域(1)
框架(1)
连接(1)
流量(1)
内存泄漏(1)
逆向工程(1)
前端(1)
权限(1)
日志(1)
软件(1)
事务(1)
同步(1)
统计(1)
图表(1)
网络(1)
系统(1)
协程(1)
序列化(1)
压缩(1)
异步(1)
异常(1)
隐私(1)
优化(1)
域名(1)
LLM(1)
搜索文章
搜索
搜索
关闭
一日一技:HTML里面提取的JSON怎么解析不了?
html
json
网站
正则表达式
字符串
我们在开发爬虫的过程中,经常发现有一些网站,会直接把数据以JSON的形式,通过<script>标签放到页面源代码中。如下图所示:
青南
2023-10-22
306
0
一日一技:抛掉JavaScript,用HTML和Python做网站
html
python
javascript
numpy
git
有时候,我们的电脑上没有安装Python,但你需要验证一段Python代码的运行效果。
青南
2022-05-23
1.4K
0
一日一技:多个Python项目怎么调用我自己的工具函数?
python
html
在多年写代码的过程中,我总结了不少常用的工具函数。这些工具函数有的能够实现快速重试网络请求,有的可以把任意格式的时间转成标准格式,还有的可以自动生成正则表达式。
青南
2022-05-23
993
0
一日一技:如果你非要把HTML存到数据库,那么你应该…
文件存储
编程算法
html
python
在粉丝群里面,我多次强调爬虫不要把网页源代码存入数据库,但还是有很多同学这样做。源代码动辄几十 KB 甚至几 MB,存放到数据库里面会严重拖慢性能。
青南
2021-12-01
534
0
一日一技:如何禁止 Python 子类覆盖父类方法?
html
python
在昨天的文章里面,我们讲到了,当子类试图覆盖父类的时候,可以通过类型标注来发出警告。今天,我们来讲讲如何直接禁止覆盖。
青南
2021-10-19
1.4K
0
利用动态 tracing 技术来 trace 内核中的网络请求
安全
linux
kernel
tcp/ip
html
这周帮朋友用 eBPF/SystemTap 这样的动态 tracing 工具做了一些很有趣的功能。这篇文章算是一个总结
青南
2021-06-23
1.8K
0
一日一技:Selenium 抓不到的内容
selenium
html
css
xslt & xpath
爬虫
有一些同学在写爬虫的时候,过于依赖 Selenium,觉得只要使用模拟浏览器,在不被网站屏蔽的情况下,就可以爬到任何内容。
青南
2021-05-13
2.8K
0
通用爬虫技术要点: Dom树的重建
html
爬虫
sql
这个问题在通用爬虫的开发过程中确实会涉及到。因为网页的HTML 结构千变万化,但是,通用爬虫需要在不预先知道目标网页结构的情况下对其中的内容进行提取。
青南
2020-12-16
927
0
一日一技:爬虫如何正确从网页中提取伪元素?
css
html
selenium
javascript
xslt & xpath
可以看到,在源代码里面没有请抓取我!这段文字。难道这个网页是异步加载?我们现在来看一下网页的请求:
青南
2020-12-16
1.7K
0
为什么你应该看官方文档而不是搜索博客文章
官方文档
html
vue.js
javascript
腾讯云开发者社区
很多人在学习一门新技术的时候,不去看官方文档,而是喜欢直接在网上搜索别人的教程。如果运气不好搜索到了CSDN上面的装逼货辣鸡文章,那么你的学习生涯可能就此终止。即使搜索到写得很详细的正经文章,也可能因为文章不是面向初学者的,从而严重打击你的学习积极性。今天我们以学习Vue为例,说明这样做对你有什么危害。
青南
2020-11-23
654
0
一日一技:在Golang下如何相对简单地开发爬虫?
python
html
爬虫
xslt & xpath
我之前一直用 Python 来写爬虫,现在,尝试用 Golang 来实现一个简单的爬虫,请求网址,然后使用 XPath 提取数据。
青南
2020-09-30
1.7K
0
一日一技:导入父文件夹中的模块并读取当前文件夹内的资源
python
编程算法
html
在编写 GNE 的测试用例时,有一个脚本 generate_new_cases.py放在 tests文件夹中。而 tests 文件夹与 gne 文件夹放在同一个位置。其中 gne 文件夹是一个包。我现在需要从generate_new_cases.py 文件中导入 gne 里面的一个类GeneralNewsExtractor。
青南
2020-09-24
2K
0
为什么GNE 不做全自动提取列表页的功能
xslt & xpath
html
php
自动化
GNE 上线以后,很多同学在用户群里面问到,GNE 能否支持列表页自动提取?例如对于下图中的新闻标题列表:
青南
2020-07-29
1.2K
0
不用 JavaScript,纯静态网站如何统计 PV?
svg
html
javascript
网站
xml
大家对访问统计pv/uv肯定不陌生,一般我们访问一些网站,会在网站的最下方看到某某页面已经被访问了多少次。如下图所示。
青南
2020-06-24
2.1K
0
为什么你会被限制登录网页版微信?
微信
html
爬虫
http
tcp/ip
有一个词叫做“三月爬虫”,指的是有些学生临到毕业了,需要收集数据写毕业论文,于是在网上随便找了几篇教程,学了点requests甚至是urllib和正则表达式的皮毛,就开始写爬虫疯狂从网上爬数据。这些爬虫几乎没有做任何隐藏自己的举动,不换IP,不设置headers,不限制速度,极易被有反爬的网站封锁,极易给没反爬的小网站造成流量压力。
青南
2020-05-14
6.3K
2
进一步防止 Selenium 被检测——如何防止浏览器用新标签页打开链接?
javascript
html
在文章:(最新版)如何正确移除Selenium中的 window.navigator.webdriver中,我们讲到了Page.addScriptToEvaluateOnNewDocument这个方法,它可以让当前标签页打开的所有网页,在网页内容加载之前执行一段 JavaScript 代码,从而防止网站检测到window.navigator.webdriver属性。
青南
2020-04-28
4.1K
0
Callback ——从同步思维切换到异步思维
php
http
html
这是一种非常常见的直线性思维,我先请求网站拿到 html,然后我再把 html 传给负责处理的函数。在整个过程中,“我“担任着调度的角色。
青南
2020-04-26
600
0
Bug or Feature?藏在 requests_html 中的陷阱
xslt & xpath
xml
http
html
在写爬虫的过程中,我们经常使用 XPath 来从 HTML 中提取数据。例如给出下面这个 HTML:
青南
2020-03-04
641
0
GNE v0.1正式发布:4行代码开发新闻网站通用爬虫
html
javascript
json
selenium
node.js
GNE(GeneralNewsExtractor)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、 观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色,几乎能够达到100%的准确率。
青南
2020-02-11
1.4K
0
你经常看到却经常忽视的__init__.py有什么用?
c 语言
python
html
Python 初学者在阅读一些 Python 开源项目时,常常会看到一个叫做__init__.py的文件。下图为著名的第三方库requests的源代码:
青南
2020-01-23
1.1K
0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档