excel爬取网页数据 - 腾讯云开发者社区

文章/答案/技术大牛

发布

2回答

如何用python爬取数据并保存到excel？

python

利用python爬取豆瓣电影排行榜（https://movie.douban.com/chart)的数据并保存到excel中。用相同代码爬取网页豆瓣top250的数据可以爬取到excel中，但将网址及相关信息改为网页豆瓣电影排行榜中的信息时便无法爬取，也找不出问题所在。以下图片为完整代码。

浏览 483提问于2021-01-09

1回答

如何使用wget下载页面，但如果页面不存在，则忽略404错误消息？

wget

有没有办法让wget在下载网址或爬取网页时忽略HTTP错误响应码？

浏览 5提问于2015-08-19得票数 6

回答已采纳

2回答

关闭浏览器或单击中止时，脚本不会停止

c#、asp.net、events

我写了一个网络爬虫，它在do while循环中调用网页，循环时间为3秒总共有7000个网站...我解析数据并将其保存在我的数据库中。我在我的数据库里看到了。我能防止这种情况吗？..现在，如果我停止webserver，这是可能的。谢谢你，并致以最良好的问候。

浏览 0提问于2010-01-22得票数 0

2回答

怎样在不使用API的前提下爬取Twitter数据？

数据挖掘、python、api、twitter、数据

由于现在Twitter API 数据爬取付费，所以我想在不使用Twitter API的情况下使用python爬取到特定关键词的Twitter数据或者Reddit数据，有什么好办法吗？

浏览 894提问于2024-01-06

2回答

新浪微博搜索是否禁用了huginn，有什么解决办法吗？

tcp/ip

比如，用huginn爬网这个链接： https://s.weibo.com/weibo?换了其他地方的机器，电脑和ip不同，huginn照样无法正常爬取。而在同一台机器上用下载工具甚至简单的脚本下载这个链接的网页内容，却可以实现，不知道是什么情况。

浏览 169提问于2021-09-28

2回答

你好可以把您那个爬取二手房价信息的那些个源代码发我一份不？

scrapy、数据分析、可视化

Scrapy爬取二手房信息+可视化数据分析谢谢

浏览 190提问于2021-12-30

1回答

雅虎管道合法性

screen-scraping、yahoo-pipes、mashup

我看不出这与直接网络抓取有什么不同，除了第三方正在检索数据。谢谢。

浏览 2提问于2013-09-26得票数 0

0回答

能否用腾讯云函数更新小程序云数据库？

云函数、serverless、微信、小程序、小程序·云开发

小程序云函数不支持python，所以想用python写腾讯云函数爬取数据更新小程序云数据库

浏览 382提问于2020-09-10

1回答

IE 8的问题

internet-explorer-8

我的网站在mozila上工作正常，但当我们转到IE 8时，它在状态栏上显示错误User Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows

浏览 0提问于2011-04-04得票数 0

1回答

如何避免爬取CGI生成的日历网页

web-crawler、nutch

网页由CGI程序生成。大多数网页的URL都包含诸如?id=2323&title=foo之类的表达式。然而，我面临的一个问题是，这个网站有一个日历。也会生成一些类似日期的网页。这意味着纳奇将试图抓取一些无害的网页，如year=2030&month=12。如何在Nutch中避免这样的陷阱？编写很多正则表达式？

浏览 1提问于2012-01-27得票数 0

回答已采纳

0回答

ddproperty历史数据采集？

爬虫

之前从一个国外站看到过抓取泰国房产数据的抓取，https://www.barkingdata.com/?crawlers/ddproperty-crawler.html 不知道国内有没有谁搞过这个，要爬取18年之前的历史数据

浏览 177提问于2022-05-10

5回答

微信小程序如何从MySQL获取数据显示到小程序上？

云数据库 SQL Server、eclipse、小程序·云开发

我是一个研究小程序3天的新手，就是现在想做一个类似于网易新闻样式的小程序，前台从eclipse爬取数据到MySQL，然后小程序读取MySQL中的数据显示到小程序中。

浏览 7544提问于2018-05-07

回答已采纳

1回答

我有一组数据，其中包括网址，公司名称和一些其他有关公司的信息。我读取这些数据，获取URL，抓取它们，并用随机生成的UUID保存抓取的数据。问题是当我想重新抓取数据的时候。我将有一组新的数据-which可能是重复的-因此将生成一个新的UUID和一个新的记录。但这并不是我所期望的。我想要做的是看看哪些东西已经被爬取，并更新它们，而不是添加新的记录。另外，这并不是读取URL并查看URL是否已被爬取，因为公司可能会更改其URL，甚至更改其名称

浏览 1提问于2017-09-21得票数 0

2回答