首页
学习
活动
专区
工具
TVP
发布

未闻Code

专栏作者
582
文章
1060413
阅读量
92
订阅数
一日一技:爬虫如何解析JavaScript Object?
我们在开发爬虫的过程中,经常发现有一些网站,会直接把数据放到HTML中的<script>标签里面。这些数据长得有点像JSON,但又有差异,如下图所示:
青南
2023-10-30
1470
一日一技:抛掉JavaScript,用HTML和Python做网站
有时候,我们的电脑上没有安装Python,但你需要验证一段Python代码的运行效果。
青南
2022-05-23
1.2K0
一日一技:Selenium 如何获取鼠标指向的元素?
有一个同学在Gne的群里面咨询如何通过Selenium获取当前鼠标指向的元素,在我讲了方法以后,他过了两天又来问:
青南
2022-04-07
1.8K0
一日一技:如何在浏览器中使用npm包?
但由于JavaScript生态里面,有Node.js这个东西,这就导致第三方库有两种不同的导入方式。如果我们要做一个网站,我们通常会在HTML中,使用<script>标签引入.js文件,例如:
青南
2022-04-07
2.5K0
你以为的万能爬虫方法,其实一行代码就能识别!
在以前的公众号中,我提到Selenium/Puppeteer/Pyppeteer有很多特征可以被网站检测到。于是,有些同学想到了另一个方法,就是自己写一个Chrome插件,在网站打开的时候,注入到页面中,然后通过这个注入的JavaScript代码来操作页面,获取数据。
青南
2022-02-11
1.5K0
def函数里面什么时候可以用ensure_future ?
Python的虚拟环境其实就是把一部分内容独立出来,安装依赖包而不影响其它,有效地避免不兼容问题。如果是在虚拟环境下运行某病毒,它把我的某些东东删了,即使退出虚拟环境,删了就是删了,无法还原了。病毒的杀伤力大概率只能删文件,其余不构成影响。我这样理解,没错吧?
青南
2021-12-27
1.1K0
一日一技:亲眼所见,也非真实,如何明目张胆架设后门程序
这样的言论显然非常天真,一来,并不会有很多人真的去看源代码;二来,有一些缺陷隐藏得很深,光看源代码看不出来,例如 log4j2;第三,有办法把后门藏在一段非常安全的代码里面,你即使看源代码也看不出哪里有问题。
青南
2021-12-27
5690
一日一技:Puppeteer 不重启如何更换代理 IP
我们知道,在写爬虫的过程中,如果总是使用同一个 IP,很容易就会被网站识别并封禁,所以需要使用代理 IP 并经常更换。
青南
2021-12-21
3K0
校招遇到装X面试官的不合理问题怎么办?
2021年秋招提前批已经开始了,大家在面试的时候,可能会遇到一些喜欢装逼的面试官。我们来说说技术岗位面试的时候,如何回应他们的不合理问题。
青南
2021-07-20
5480
一日一技:前端与后端都是怎么读写 Cookies 的?
大家应该看过一些网站,在第一次访问的时候,它会弹出一些小提示或者操作指导,类似于下图所示:
青南
2021-07-20
7980
简单方便的 JavaScript 逆向辅助模拟方法
在 JavaScript 逆向过程中,我们可能找到了一些入口,但是深入追踪下去,就发现这个过程过于复杂,调用层级越来越深,最终很难完全把整个过程完整还原出来,不得不放弃。
青南
2021-06-23
2.3K1
一日一技:生成器里面的 return 有什么用?
之所以会出现这种情况,是因为这个同学以为,当参数大于10的时候,gen_data(12)返回的是生成器,而当参数不大于10的时候,返回的是一个数字。显然这样的想法是不对的,否则,for num in 10这种语法早就报错了,数字是不能被迭代的。
青南
2021-06-23
3480
Chome 88如何正确隐藏 webdriver?
在文章最完美方案!模拟浏览器如何正确隐藏特征中,我们提到了使用 CDP 协议执行stealth.min.js文件,从而完美隐藏 Chrome 浏览器的各个特征。
青南
2021-02-02
1.5K0
一日一技:爬虫如何正确从网页中提取伪元素?
可以看到,在源代码里面没有请抓取我!这段文字。难道这个网页是异步加载?我们现在来看一下网页的请求:
青南
2020-12-16
1.7K0
最完美方案!模拟浏览器如何正确隐藏特征
在前天的公众号文章《别去送死了。Selenium 与 Puppeteer 能被网站探测的几十个特征》中,我们提到目前网上的反检测方法几乎都是掩耳盗铃,因为模拟浏览器有几十个特征可以被检测,仅仅隐藏 webdriver 这一个值是没有任何意义的。
青南
2020-12-02
6.3K0
为什么你应该看官方文档而不是搜索博客文章
很多人在学习一门新技术的时候,不去看官方文档,而是喜欢直接在网上搜索别人的教程。如果运气不好搜索到了CSDN上面的装逼货辣鸡文章,那么你的学习生涯可能就此终止。即使搜索到写得很详细的正经文章,也可能因为文章不是面向初学者的,从而严重打击你的学习积极性。今天我们以学习Vue为例,说明这样做对你有什么危害。
青南
2020-11-23
6190
一日一技:在网页上如何获取鼠标当前指向的元素
开发爬虫的同学肯定用过 Chrome 开发者工具自动定位页面元素对应的 HTML 标签的功能,如下图所示:
青南
2020-10-26
4.5K2
一日一技:不用轮询,基于事件监控文件变动
我们经常会遇到监控文件变化的需求。例如日志监控程序监控日志文件,一旦日志文件发生变化,就进行读取。或者是大批量爬虫的规则配置文件监控,爬虫本身持续运行,一旦规则文件发生修改就自动读取新的规则。
青南
2020-08-18
9350
不用 JavaScript,纯静态网站如何统计 PV?
大家对访问统计pv/uv肯定不陌生,一般我们访问一些网站,会在网站的最下方看到某某页面已经被访问了多少次。如下图所示。
青南
2020-06-24
1.8K0
进一步防止 Selenium 被检测——如何防止浏览器用新标签页打开链接?
在文章:(最新版)如何正确移除Selenium中的 window.navigator.webdriver中,我们讲到了Page.addScriptToEvaluateOnNewDocument这个方法,它可以让当前标签页打开的所有网页,在网页内容加载之前执行一段 JavaScript 代码,从而防止网站检测到window.navigator.webdriver属性。
青南
2020-04-28
3.9K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档