例如,我正在尝试使用Linux中的wget命令从网站下载一个页面,我想要的是包含在该页面的html代码中的信息。
我试过使用R的Rvest和Python的美汤,但它不起作用,所以现在我尝试wget,主要是我在.css和.js中得到的脚本,我不能从中提取有用的信息(据我所知),所以总而言之,我想从一个动态网站上使用wget命令提取a的信息。
我已经使用了-F,-i和其他一些参数,请记住,我对计算机科学和Linux总体来说是相当新的,所以如果这个问题是微不足道的,请解释一下,谢谢。
此外,如果有必要,我可以发布我到目前为止所做的事情。
发布于 2020-08-08 08:54:54
使用VBA和https://phantomjs.org/
sDir = ThisWorkbook.Path
sCmd = "cmd.exe /K cd """ & sDir & """ & phantomjs.exe phm_save.js " & sURL & " > " & sFile
pid = Shell(sCmd, vbHide)
phm_save.js
var system = require('system');
var page = require('webpage').create();
page.open(system.args[1], function(){
console.log(page.content);
phantom.exit();
}
);
https://stackoverflow.com/questions/52765871
复制相似问题