Ajax网页爬取案例 - 腾讯云开发者社区

文章/答案/技术大牛

发布

2回答

关闭浏览器或单击中止时，脚本不会停止

c#、asp.net、events

我写了一个网络爬虫，它在do while循环中调用网页，循环时间为3秒总共有7000个网站...我解析数据并将其保存在我的数据库中。

浏览 0提问于2010-01-22得票数 0

1回答

如何使用wget下载页面，但如果页面不存在，则忽略404错误消息？

wget

有没有办法让wget在下载网址或爬取网页时忽略HTTP错误响应码？

浏览 5提问于2015-08-19得票数 6

回答已采纳

2回答

如何用python爬取数据并保存到excel？

python

利用python爬取豆瓣电影排行榜（https://movie.douban.com/chart)的数据并保存到excel中。用相同代码爬取网页豆瓣top250的数据可以爬取到excel中，但将网址及相关信息改为网页豆瓣电影排行榜中的信息时便无法爬取，也找不出问题所在。以下图片为完整代码。

浏览 485提问于2021-01-09

2回答

新浪微博搜索是否禁用了huginn，有什么解决办法吗？

tcp/ip

比如，用huginn爬网这个链接： https://s.weibo.com/weibo?换了其他地方的机器，电脑和ip不同，huginn照样无法正常爬取。而在同一台机器上用下载工具甚至简单的脚本下载这个链接的网页内容，却可以实现，不知道是什么情况。

浏览 169提问于2021-09-28

1回答

如何使用Apache Nutch抓取ajax网站？

nutch

我想爬这个网站：使用Apache。该网页动态加载ajax内容。如果我用默认配置爬行它，Nutch只会带来头和页脚，动态加载的内容就会丢失。我用的是Nutch 1.14。

浏览 0提问于2018-06-08得票数 0

回答已采纳

1回答

IE 8的问题

internet-explorer-8

我的网站在mozila上工作正常，但当我们转到IE 8时，它在状态栏上显示错误User Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows

浏览 0提问于2011-04-04得票数 0

1回答

如何避免爬取CGI生成的日历网页

web-crawler、nutch

网页由CGI程序生成。大多数网页的URL都包含诸如?id=2323&title=foo之类的表达式。然而，我面临的一个问题是，这个网站有一个日历。也会生成一些类似日期的网页。这意味着纳奇将试图抓取一些无害的网页，如year=2030&month=12。如何在Nutch中避免这样的陷阱？编写很多正则表达式？

浏览 1提问于2012-01-27得票数 0

回答已采纳

2回答

网站内容评级有没有元标签？

metadata、content-management、rating

有没有办法对网页内容进行分级，这样它就不会被屏蔽了？我以前从来没有遇到过这个问题。

浏览 5提问于2010-07-09得票数 3

1回答

雅虎管道合法性

screen-scraping、yahoo-pipes、mashup

如果一个网站声明不抓取他们的网站，那么使用Yahoo Pipes或YQL这样的工具来创建mash up还合法吗？谢谢。

浏览 2提问于2013-09-26得票数 0

1回答

是否在导航到另一个页面时保持网站url不变？

.htaccess、url、browser

我希望我的站点地址栏在我转到子页面时不要更改它的地址，它应该显示我的index.html，即使我进入子页面。我听说用.htaccess可以做到这一点，可能吗？

浏览 1提问于2011-03-07得票数 2

回答已采纳

1回答

不允许仅在robots.txt中以数字结尾的页

robots.txt

有没有可能告诉谷歌不要爬这些网页？/blog/page/20/blog/page/100 这些基本上都是Ajax调用，它们会带来博客文章的数据。

浏览 5提问于2015-01-22得票数 0

回答已采纳

1回答

jQuery .change()事件在具有自动完成功能的移动设备上不起作用

jquery、jquery-ui-autocomplete

所有这些都可以在pc上运行，但不能在移动网页上运行。我发现这与ui-autocomplete插件有关，它不会让移动浏览器拾取更改事件。我看过类似的案例，但似乎解决不了这个问题。我对jQuery非常陌生如果我取消对最后一个插件的注释，更改事件将被拾取，但自动填充将不起作用。"https://code.jquery.com/ui/1.10.1/jquery-ui.min.js"></script> <link rel=&

浏览 35提问于2019-10-04得票数 0

1回答

如何找出有多少人在使用你创建的脚本？

jquery、plugins、web-crawler

我创建了一个jQuery插件，想知道是否有人知道有多少人在使用它？有没有办法抓取网站，并返回一个是，如果网站正在使用它？

浏览 0提问于2011-09-19得票数 0

回答已采纳

1回答

如何让Python的机械化POST ajax请求？

python、mechanize

我正在尝试爬行的网站使用的是javascript：在ajax上拉入我需要爬取的额外信息。

浏览 2提问于2010-07-12得票数 6

回答已采纳

2回答

在Java中从某个URL调用脚本？

java、javascript、html、parsing、execute

为了方便起见，我使用Java解析一个随机网站的超文本标记语言，假设它是。在解析HTML数据之后，我希望提取其中的一些数据，并将其显示在显示器上。之后，用户将输入搜索词，并按下一个按钮。这个按钮将执行“搜索”按钮后面的脚本。我想在几个网站上做到这一点，所以给我一种只与google一起工作的方法不会对我有太大帮助。

浏览 0提问于2012-03-30得票数 0

回答已采纳

1回答

页面加载ASP.NET的几个问题

html、asp.net、data-binding、datasource

当您转到这个页面时，，我的肚脐条会垂直显示，直到网格加载。我的网格也需要2-3秒才能加载。我只是从数据库中抓取列表，将该列表分配到网格的数据源，最后绑定数据。为什么要花这么长时间才能加载页面？这会导致我的导航定位在加载之前出错。有办法加快速度吗？Me.gvComputers.DataSource = li Me.gvComputers.DataBind()

浏览 4提问于2014-02-17得票数 0

回答已采纳

1回答

我有一个简短的html表单与一个php for循环，它允许用户在页面上构建相同的表单多达十次

php、for-loop

$i变量是每个字段，并填充在'inp‘框中，’inp‘框就是输入框，sboxes就是选择框。当页面加载时，只有一个表单，它具有添加培训师的所有条件。在第一个表单中，培训师的名字将是trainer_name1。如果他们选择点击new按钮，他们可以填写另一个培训师的信息，第二个表单'name‘的输入框将只是trainer_name2，所有其他字段将分别以表单中的名称命名。在构建新表单时，只需将下一个连续数字添加到字段末尾，无论字段的名称是什么。<fieldset><legend>Trainer Request</legend>

浏览 3提问于2013-06-20得票数 1

1回答

bitbucket中不同分支的自动合并

git、bitbucket、atlassian-sourcetree

我们使用Bitbucket来存储网页，使用Jenkins来部署网页集。在我们的案例中，主分支是生产分支，还有一个暂存分支来托管QA数据。有多个项目同时进行，因此我们不能从分段分支到主分支发出完整的拉取请求，因为还有其他更改。再次，一旦网页被移动到生产，就存在生产特定的提交，以将网页html (角度) id改变为生产值，因为登台和生产具有不同的id。我们正在使用从主分支分支出来的单个功能分支来创建一个新项目。我尝试创建一个从feature分支到staging的拉取请求，

浏览 23提问于2017-06-23得票数 3

2回答