我在抓取一个网站的源代码。
我的第一次打印打印出了完整的源代码。
然后,第二次打印将实际的DOM打印到控制台,但是由于某些原因,文档的内容只发生了轻微的变化。
让我困扰的一件事是<body>
标签丢失了,我不知道为什么。
我刚刚意识到<head>
标签也不见了。因此,这可能有一个很好的理由。
需要说明的是:<head>
和<body>
标记的内容都保留在容器中。只是标签本身消失了,而不是它们的内容。
我想要把整个源代码解析成一个可访问的DOM。
代码如下:
$.ajax({url: url, dataType: "text", success: function(data) {
console.log("data:", data);
var htmlDocument = $("<html>").html(data)[0];
console.log("htmlDocument:", htmlDocument);
}});
我是JavaScript的新手,感谢您的帮助。我很想了解这个问题,但现在我真的只希望它能起作用。
发布于 2018-08-06 01:15:55
正如Charlietfl所说
请注意,jQuery
.html()
删除了body
和head
试一试
$('html')[0].outerHTML
或
document.documentElement.outerHTML
https://stackoverflow.com/questions/51696362
复制相似问题