我使用node-fetch和cheerio从comic website中抓取数据。我只用了一个简单的代码来显示正文html,如下所示:
var fetch = require('node-fetch');
var cheerio = require('cheerio');
var url = 'http://readcomiconline.to';
function getComic() {
fetch(url)
.then(res => res.text())
.then(body => console.log(body));
}
getComic();
问题是这个页面使用了一个javascript代码,客户端需要在5秒内等待它才能重定向到主页,所以在加载主页之前我无法抓取任何东西。
我怎么才能跳过这一步,开始从页面抓取数据呢?
谢谢。
发布于 2018-06-10 20:29:08
看起来您需要的不只是这两个模块。
您试图抓取的网站使用JS向/cdn-cgi/l/chk_jschl
发送验证并获取cookies。您可以使用selenium或颠倒js。
更多信息请点击此处:Python web scraping : 503 Response with specific site (how come?)
https://stackoverflow.com/questions/50782729
复制相似问题