python爬取网页数据 - 腾讯云开发者社区

、、、、

由于现在Twitter API 数据爬取付费，所以我想在不使用Twitter API的情况下使用python爬取到特定关键词的Twitter数据或者Reddit数据，有什么好办法吗？

浏览 703提问于2024-01-06

1回答

如何用python爬取数据并保存到excel？

利用python爬取豆瓣电影排行榜（https://movie.douban.com/chart)的数据并保存到excel中。用相同代码爬取网页豆瓣top250的数据可以爬取到excel中，但将网址及相关信息改为网页豆瓣电影排行榜中的信息时便无法爬取，也找不出问题所在。以下图片为完整代码。

浏览 340提问于2021-01-09

0回答

能否用腾讯云函数更新小程序云数据库？

、、、、

小程序云函数不支持python，所以想用python写腾讯云函数爬取数据更新小程序云数据库

浏览 338提问于2020-09-10

1回答

如何使用wget下载页面，但如果页面不存在，则忽略404错误消息？

有没有办法让wget在下载网址或爬取网页时忽略HTTP错误响应码？

浏览 5提问于2015-08-19得票数 6

回答已采纳

2回答

关闭浏览器或单击中止时，脚本不会停止

、、

我写了一个网络爬虫，它在do while循环中调用网页，循环时间为3秒总共有7000个网站...我解析数据并将其保存在我的数据库中。我在我的数据库里看到了。我能防止这种情况吗？..现在，如果我停止webserver，这是可能的。谢谢你，并致以最良好的问候。

浏览 0提问于2010-01-22得票数 0

2回答

大神有没有研究过美团的_token生成方法？

、、

如题，我最近在做一个数据分析，想要用到美团的美食信息，于是就想用python爬取美团的数据，但是在构造爬虫的时候发现美团有一个_token参数，百思不得其解，还请大神指教

浏览 2259提问于2018-09-12

0回答

新浪微博搜索是否禁用了huginn，有什么解决办法吗？

比如，用huginn爬网这个链接： https://s.weibo.com/weibo?换了其他地方的机器，电脑和ip不同，huginn照样无法正常爬取。而在同一台机器上用下载工具甚至简单的脚本下载这个链接的网页内容，却可以实现，不知道是什么情况。

浏览 114提问于2021-09-28

0回答

编写一个爬取QQ音乐的python代码？

、、

编写一个爬取QQ音乐指定风格歌曲的前5首，并以MP3格式存储在桌面指定文件夹中的python代码

浏览 87提问于2023-04-22

1回答

你好可以把您那个爬取二手房价信息的那些个源代码发我一份不？

、、

Scrapy爬取二手房信息+可视化数据分析谢谢

浏览 98提问于2021-12-30

1回答

雅虎管道合法性

、、

我看不出这与直接网络抓取有什么不同，除了第三方正在检索数据。谢谢。

浏览 2提问于2013-09-26得票数 0

0回答

使用python爬取Reddit数据出现错误？

、、、、

from selenium import webdriverfrom selenium.webdriver.firefox.options import Optionsimport timefrom

浏览 96提问于2024-01-11

3回答

我目前正在着手一个项目，该项目将涉及爬取和处理大量数据(数百个数据集)，并对它们进行挖掘以提取结构化数据，命名实体识别，重复数据删除，分类等。我熟悉来自Java和Python世界的ML工具: Lingpipe、Mahout、NLTK等。然而，当涉及到为如此大规模的问题选择平台时-我缺乏足够的经验来决定是Java还是Python。我知道这听起来像是一个模糊的问题，但我正在寻找关于选择Java或Python的一般建议。JVM提供了更好的性

浏览 6提问于2012-03-15得票数 34

回答已采纳

1回答

IE 8的问题

我的网站在mozila上工作正常，但当我们转到IE 8时，它在状态栏上显示错误User Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows

浏览 0提问于2011-04-04得票数 0

0回答

基于Python的股票数据爬取？

、、、

使用Python语言编写爬虫程序，使用正则表达式将指定日期时段内的全部上市公司股票数据爬取下来，并按照股票代码保存到相应的Excel文件中。有偿联系微信：15527440125

浏览 207提问于2020-05-23

1回答

如何避免爬取CGI生成的日历网页

、

网页由CGI程序生成。大多数网页的URL都包含诸如?id=2323&title=foo之类的表达式。然而，我面临的一个问题是，这个网站有一个日历。也会生成一些类似日期的网页。这意味着纳奇将试图抓取一些无害的网页，如year=2030&month=12。如何在Nutch中避免这样的陷阱？编写很多正则表达式？

浏览 1提问于2012-01-27得票数 0

回答已采纳

0回答

ddproperty历史数据采集？

之前从一个国外站看到过抓取泰国房产数据的抓取，https://www.barkingdata.com/?crawlers/ddproperty-crawler.html 不知道国内有没有谁搞过这个，要爬取18年之前的历史数据

浏览 79提问于2022-05-10

5回答

微信小程序如何从MySQL获取数据显示到小程序上？

、、

我是一个研究小程序3天的新手，就是现在想做一个类似于网易新闻样式的小程序，前台从eclipse爬取数据到MySQL，然后小程序读取MySQL中的数据显示到小程序中。

浏览 7387提问于2018-05-07

回答已采纳

1回答

如何处理UUIDS？

、、、

我有一组数据，其中包括网址，公司名称和一些其他有关公司的信息。我读取这些数据，获取URL，抓取它们，并用随机生成的UUID保存抓取的数据。问题是当我想重新抓取数据的时候。我将有一组新的数据-which可能是重复的-因此将生成一个新的UUID和一个新的记录。但这并不是我所期望的。我想要做的是看看哪些东西已经被爬取，并更新它们，而不是添加新的记录。另外，这并不是读取URL并查看URL是否已被爬取，因为公司可能会更改其URL，甚至更改其名称

浏览 1提问于2017-09-21得票数 0

2回答