c语言爬取网页 - 腾讯云开发者社区

利用python爬取豆瓣电影排行榜（https://movie.douban.com/chart)的数据并保存到excel中。用相同代码爬取网页豆瓣top250的数据可以爬取到excel中，但将网址及相关信息改为网页豆瓣电影排行榜中的信息时便无法爬取，也找不出问题所在。以下图片为完整代码。590859A8-9A1A-4E52-8E60-AD292B16B4A8.png 655C6D0E

浏览 340提问于2021-01-09

1回答

如何使用wget下载页面，但如果页面不存在，则忽略404错误消息？

有没有办法让wget在下载网址或爬取网页时忽略HTTP错误响应码？

浏览 5提问于2015-08-19得票数 6

回答已采纳

2回答

关闭浏览器或单击中止时，脚本不会停止

、、

我写了一个网络爬虫，它在do while循环中调用网页，循环时间为3秒总共有7000个网站...我解析数据并将其保存在我的数据库中。

浏览 0提问于2010-01-22得票数 0

0回答

新浪微博搜索是否禁用了huginn，有什么解决办法吗？

比如，用huginn爬网这个链接： https://s.weibo.com/weibo?换了其他地方的机器，电脑和ip不同，huginn照样无法正常爬取。而在同一台机器上用下载工具甚至简单的脚本下载这个链接的网页内容，却可以实现，不知道是什么情况。

浏览 114提问于2021-09-28

1回答

IE 8的问题

我的网站在mozila上工作正常，但当我们转到IE 8时，它在状态栏上显示错误User Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows

浏览 0提问于2011-04-04得票数 0

1回答

如何避免爬取CGI生成的日历网页

、

网页由CGI程序生成。大多数网页的URL都包含诸如?id=2323&title=foo之类的表达式。然而，我面临的一个问题是，这个网站有一个日历。也会生成一些类似日期的网页。这意味着纳奇将试图抓取一些无害的网页，如year=2030&month=12。如何在Nutch中避免这样的陷阱？编写很多正则表达式？

浏览 1提问于2012-01-27得票数 0

回答已采纳

1回答

htaccess语言检测高效代码

、

在我的网站上，我希望将会说意大利语的访问者(他们的语言浏览器是意大利语)重定向到/it/，并将所有其他语言重定向到/en/#redirect to /it for italian#we are not in the admin panel这样，所有的条件都会被检查，如果语言是意大利语我猜所有爬取</

浏览 3提问于2015-05-15得票数 0

1回答

雅虎管道合法性

、、

如果一个网站声明不抓取他们的网站，那么使用Yahoo Pipes或YQL这样的工具来创建mash up还合法吗？谢谢。

浏览 2提问于2013-09-26得票数 0

5回答

如何查看抓取的单码阿拉伯字符串？

、、

我已经用Python抓取了一些网页。我去掉了html标签，只将这些页面的一些内容存储为repr(s)。这些网页中的大多数都不是英文的。现在，我如何才能以原始语言查看爬网内容？

浏览 2提问于2011-04-28得票数 1

回答已采纳

1回答

如何找出有多少人在使用你创建的脚本？

、、

我创建了一个jQuery插件，想知道是否有人知道有多少人在使用它？有没有办法抓取网站，并返回一个是，如果网站正在使用它？

浏览 0提问于2011-09-19得票数 0

回答已采纳

1回答

这两种网页加载方法- c# - html敏捷包之间有什么不同或性能差异吗？

、、、、

目前我正在使用C# 4.0和htmlagilitypack 1.4.0来下载网页和提取信息。可以使用htmlagilitypack以下面的方式下载网页 HtmlDocument myDoc = hw.LoadC# 4.0，wpf，htmlagilitpack，爬网页面

浏览 6提问于2011-10-26得票数 1

回答已采纳

2回答

Python json错误:期望值:第1行第1列(char 0)

、

7552724259118.417.1447641174437; ULV=1447691774405:2:2:2:6434341784127.688.1447691774390:1447641174455; YF-Page-G0=7f5e11c19f51c6954c5e18e40c0b1444if __name__=='__main__':Traceback (most recent call last): File "F:/python/Use

浏览 20提问于2017-08-20得票数 0

2回答

在Java中从某个URL调用脚本？

、、、、

为了方便起见，我使用Java解析一个随机网站的超文本标记语言，假设它是。在解析HTML数据之后，我希望提取其中的一些数据，并将其显示在显示器上。之后，用户将输入搜索词，并按下一个按钮。

浏览 0提问于2012-03-30得票数 0

回答已采纳

1回答

使用http 405代码的页的风暴爬虫解决方案

、

我想爬一个像一样的网页。我好像出了个405错误 2018-04-09 11:18:40.930 c.d.s.b.FetcherBolt FetcherThread #2 [INFO] [Fetcher #3] Fetched

浏览 1提问于2018-04-09得票数 1

回答已采纳

2回答

NVL函数不使用索引而不是FTS，是否可以修改查询

、、、、

我的查询如下 from table1 a, table2 b table3 c 由于此查询包含一个nvl函数，它会对我的三个表中的value1进行全表扫描，我知道如果我可以创建一个基于函数的索引，oracle应该考虑该索引，但我担心的是，由于nvl函数位于三个不同表的列上，我无法基于函数爬取</em

浏览 4提问于2020-07-02得票数 0

2回答

Clojure网站到html和javascript？

、

问题是:有没有一种方法可以将一个用clojure编写的网站编译成HTML和Javascript文件，而不需要服务器上的.WAR文件？谢谢。

浏览 3提问于2013-02-14得票数 2

1回答

无法为“14/1033/style/Themable/corev4.css”创建安全的缓存URL，找不到文件。请验证该文件是否存在于布局目录下

、

Program Files\Common Files\microsoft \Web Server Extensions\14\TEMPLATE\LAYOUTS\1033\STYLES\corev4.css2)语言包已正确安装3)增量爬网已设置为仅周末 4) IIS重置暂时修复问题。

浏览 0提问于2013-09-05得票数 3

1回答

在Pytesser中使用多种语言

、、、、

我已经开始使用Pytesser了，它对英文和中文都很好用，但是有没有办法同时使用两种语言呢？我需要创建自己的训练数据文件吗？

浏览 0提问于2016-04-20得票数 4

回答已采纳

2回答

抓取网页信息的内部链接

、

我正在尝试爬取页面这是我的代码片段： ] Rule(SgmlLinkExtractor

浏览 20提问于2017-08-21得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何用python爬取数据并保存到excel？

如何使用wget下载页面，但如果页面不存在，则忽略404错误消息？

请问一下页面上的图片，怎样获取它的URL呢？

关闭浏览器或单击中止时，脚本不会停止

新浪微博搜索是否禁用了huginn，有什么解决办法吗？

IE 8的问题

如何避免爬取CGI生成的日历网页

htaccess语言检测高效代码

雅虎管道合法性

如何查看抓取的单码阿拉伯字符串？

如何找出有多少人在使用你创建的脚本？

这两种网页加载方法- c# - html敏捷包之间有什么不同或性能差异吗？

Python json错误:期望值:第1行第1列(char 0)

在Java中从某个URL调用脚本？

使用http 405代码的页的风暴爬虫解决方案

NVL函数不使用索引而不是FTS，是否可以修改查询

Clojure网站到html和javascript？

无法为“14/1033/style/Themable/corev4.css”创建安全的缓存URL，找不到文件。请验证该文件是否存在于布局目录下

在Pytesser中使用多种语言

抓取网页信息的内部链接

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐