我在过去的三年里一直在开发数据抓取脚本,但从来没有遇到过像这样的困难时期。
我正在抓取一个,为了防止抓取,它显示消息Please enable JS in your browser
但是还有一些JS代码可以创建某种cookie或令牌,并重定向到实际的页面。
我只想知道代码是以什么形式编码的?我怎么解码它呢?
我试图抓取一个,但是我没有得到一些元素,因为这些元素是动态创建的。
我在node.js中使用了cheerio,代码如下所示。
var request = require('request');
var cheerio = require('cheerio');
var url = "http://www.bdtong.co.kr/index.php?c_category=C02";
request(url, function (err, res, html) {
var $ = cheerio.load(html);
$(
我将从一个使用javascript加载动态内容的网站中抓取一些内容。以前,我使用过request和cheerio来刮刮,它们工作得很好。但我只是发现request和cheerio不能抓取动态内容。在做了一项研究之后,我发现了幻影,它可以在页面加载后获取所有内容。我现在有一个问题,我不能使用jQuery选择器,因为我以前在cheerio中使用。这是我的示例代码,但选择器不返回任何内容。
var page = require('webpage').create();
var url = 'http://angkorauto.com/vehicle';
page.op