文章/答案/技术大牛

发布

社区首页 >问答首页 >使用Javascripts或Web表单对网站进行爬行

问使用Javascripts或Web表单对网站进行爬行
EN

Stack Overflow用户

提问于 2010-03-30 18:51:25

回答 3查看 2.8K关注 0票数 5

我有一个网络爬虫应用程序。它成功地抓取了大多数常见和简单的网站。现在，我遇到了一些类型的网站，其中HTML文档是通过表单或javascripts动态生成的。我相信它们是可以被爬行的，只是我不知道怎么做。现在，这些网站并不显示实际的HTML页面。我的意思是，如果我在IE或firefox中浏览该页面，HTML代码与IE或firefox中的实际内容不匹配。这些站点包含文本框、复选框等。所以我相信它们就是他们所说的"Web表单“。实际上，我对web开发不是很熟悉，所以如果我错了，请纠正我。

我的问题是，有没有人像我现在这样，成功地解决了这些类型的“挑战”？有没有人知道一本关于网络爬行的书或文章？哪些属于这些高级类型的网站？

谢谢。

webforms

javascript

windows

回答 3

Stack Overflow用户

回答已采纳

发布于 2010-03-30 19:54:54

我发现了一篇关于深度网络的文章，它非常有趣，我认为这回答了我上面的问题。

http://www.trycatchfail.com/2008/11/10/creating-a-deep-web-crawler-with-net-background/

一定会喜欢这个的。

票数 1

Stack Overflow用户

发布于 2010-03-30 19:15:24

这里有两个独立的问题。

表单

作为一条经验法则，爬虫不会触摸表单。

为特定网站编写提交预定(或半随机)数据(特别是在为您自己的web应用程序编写自动化测试时)的内容可能是合适的，但通用爬虫应该让它们保持原样。

描述如何提交表单数据的规范可以在http://www.w3.org/TR/html4/interact/forms.html#h-17.13上找到，可能有一个用于C#的库可以提供帮助。

JavaScript

JavaScript是一个相当复杂的野兽。

有三种常见的方法可以处理它：

编写您的爬虫程序，以便复制您关心的特定网站的JS功能web浏览器
使用类似于Rhino about.
Automate env.js

的内容

票数 1

Stack Overflow用户

发布于 2016-11-28 02:52:21

AbotX处理开箱即用的javascript。不过，这不是免费的。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/2544536

复制

相似问题

问使用Javascripts或Web表单对网站进行爬行
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Javascripts或Web表单对网站进行爬行EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Javascripts或Web表单对网站进行爬行
EN