当url不变时，Python web抓取

文章/答案/技术大牛

发布

1回答

、、、

我正在做一个使用python的web抓取项目。我应该抓取这个网站(https://www.fec.gov/data/receipts/?我遇到的问题是，当你浏览数据时，url永远不会改变。我不确定如何继续。根据我的经验，当抓取一个网站时，当切换页面时，url会发生变化，但这个不会改变页面，它只是浏览同一页面上的数据。谢谢！

浏览 28提问于2020-11-10得票数 2

2回答

我不断听到Bloom Filter在web爬行中是如何有用的，特别是在确定URL是否已经被爬行时(因为Bloom Filter在测试集成员资格时是内存高效的)。然而，在web爬行的用例中，如果遇到几乎无限数量的URL，那么位/桶的数量不是需要很多吗？尤其是，如果你是Google或一个搜索引擎，每天都在试图抓取数据。所以我的问题是，当URL的数量不断增加，而存储桶的数量保持不变时，Bloom过滤器如何帮助确定

浏览 0提问于2013-06-15得票数 1

6回答

如何对页面导航涉及动态加载的网站进行爬行

、

我想抓取一个网站有多个页面，当一个页码被点击时，它是动态loaded.How的屏幕抓取吗？如果有人在这方面帮我的话就太好了。PS:当点击不同的页面时，URL保持不变。

浏览 2提问于2013-01-24得票数 3

1回答

BeautifulSoup web抓取多个页面URL不变

、、、、

当使用漂亮的汤来进行网络刮擦评论时，当涉及到“所有观众”的评论时，我有一个问题。更改审阅列表页时，URL不会更新。type=user 单击下一步时，不会更改URL。Network Method Post 当我查看GET操作的头部时，我看到了一个请求URL，当我尝试它包含我需要的所有信息时，问题是我不知道他们进入下一个页面的命名约定。Request URL page 1->2

浏览 21提问于2019-09-20得票数 1

回答已采纳

1回答

web爬虫如何构建URL目录以抓取所需内容

、、、

有三个问题：哪里是学习更多关于网络爬虫的最好的地方？

浏览 2提问于2018-10-11得票数 1

1回答

Excel从动态表格中获取web数据

、

但是，该表是动态的(URL不变)，所以当我设置连接时，Excel只抓取前50行。它没有识别出表中还有另外6个页面我也需要抓取。谁知道如何使用excel中的“获取数据”-> "From Web“功能从如上所示的动态表格中导入数据？

浏览 1提问于2019-10-25得票数 1

1回答

当url不改变时进行Web抓取

、、、

我正在为亚马逊的个人资料销售商做网络抓取，就像这样：我用的是PHP和Goutte。问题是，在注释部分，当我在"Siguiente“(下一个)上克里克时，url不会改变，并且我不能刮下一个注释。

浏览 0提问于2019-08-27得票数 1

2回答

维基百科允许通过Google App Engine获取URL吗？

、、、、

我正在编写一个Python web应用程序，其中我计划利用维基百科。当尝试一些网址抓取代码时，我能够同时抓取谷歌和脸书(通过谷歌应用引擎服务)，但当我试图抓取wikipedia.org时，我收到了一个异常。有人能证实维基百科不接受这些类型的页面请求吗？代码片段(这是Python!)google.appengine.ext.webapp import template class MainHandler(webapp.Request

浏览 3提问于2011-09-25得票数 4

回答已采纳

2回答

如何在带有R的网站的搜索框中直接书写

、、

我正在寻找一种方法来做网页抓取后，在其搜索框中键入。让我用一个例子更好地解释:我正在寻找一个R函数，它直接在amazon主页上写入单词"notebook“，这样我就可以随后对生成的页面进行web抓取。也许我可以用Python来做？感谢大家的帮助。

浏览 2提问于2021-01-25得票数 1

3回答

Python Web抓取: URL分页

、、

现在，代码成功地抓取并写入csv，但只对url中的指定页面执行(参见下面的url链接)。有人能帮我们在这个工具上实现分页吗？我尝试过.format()和for循环方法，但没有成功。我的代码如下。import matplotlib.pyplot as pltfrom urllib.request import urlopen base_urlwhitmer_donor_cache', backend='sqlite', expire

浏览 2提问于2021-03-07得票数 1

2回答

在python中进行when抓取时，是否有一种只提取段落字符串的方法？

、、

我们想知道当web在python中抓取时，是否有一种只提取段落字符串的方法？代码：from bs4 import BeautifulSoup url.status_codeurl.headers soup = BeautifulSoup(c, "

浏览 1提问于2022-03-09得票数 0

1回答

从单个MongoDB队列获取信息的多个工作人员

、、、、

我正在用Python构建一个web爬虫，使用MongoDB来存储一个队列，其中包含所有要爬行的URL。我将有几个独立的工人，将抓取URL。每当工作人员完成URL抓取时，它将在MongoDB集合"queue“中发出请求，以获得要爬行的新URL。我的问题是，既然会有多个爬虫，我如何确保两个爬虫器不会同时查询数据库并获得相同的URL来抓取？非常感谢你的帮助

浏览 0提问于2014-03-29得票数 0

回答已采纳

1回答

如何使用python从网站上检索值

、

我想知道有没有什么方法可以制作一个python脚本来从网站上获取一个所说的值，在我的例子中是一个离线数字，它在一个每5分钟刷新一次的网站上。我想要设置它，如果该值增加，它将发送给我一封电子邮件。但是，在做诸如清洁之类的日常工作时，携带笔记本电脑是非常令人恼火和恼人的。我对python知之甚少，所以如果有人能给我指出正确的方向，我将不胜感激。。提醒一下，我真的是python的新手。div[2]/div[3]/div/div/div[2]/div[4]/div[2]&

浏览 3提问于2020-10-01得票数 0

1回答

如何使用Python从这个表中抓取数据？

、、、

我如何在Python中实现这一点？在图片中，显示了我想要抓取的数据。不幸的是，这些数据并没有包含在源代码中。from selenium import webdriverfrom bs4 import BeautifulSoup browser.get(

浏览 6提问于2021-12-03得票数 0

5回答

如何从其他网站获取数据？

、、、

我听说Python使用解析器可以做到这一点，我只是想知道我应该走哪条路，应该使用哪种语言？

浏览 1提问于2013-06-14得票数 4

3回答

无法下载网页的完整源代码

我正在尝试使用python请求库来抓取网页。但我无法下载完整的html源代码。当我使用我的web浏览器检查元素时，它给出了完整的html，我相信它可以用于抓取，但当我使用python请求库访问这个url时，那些包含数据的html标记就消失了，我无法从这些标记中抓取数据。下面是我的示例代码：from bs4 import BeautifulSoup as BSimport

浏览 5提问于2019-07-30得票数 1

1回答

Python/Seleium:使用不变的url抓取网站

、、

该网页有一个不变的URL，但我想刮所有61页在该网页上。我现在的代码只给我第一页的名字。我想要提取更多的信息；但是，在尝试提取更多的信息之前，我觉得我需要正确的循环。

浏览 1提问于2016-12-22得票数 0

回答已采纳

3回答

如何点击在href中有javascript:__doPostBack的链接？

、、

我正在用python编写一个带有模块'mechanize‘的屏幕抓取器脚本，我想在一个在href中有javascript:__doPostBack的链接上使用mechanize.click_link()__name__>>> next_link Link(base_url='http://www.citius.mj.pt/Portal/consultas/ConsultasDistribuicao.aspx'

浏览 1提问于2009-09-13得票数 7

回答已采纳

1回答

当web抓取多个URL时，For循环不起作用。仅抓取一个URL

、、、

我试图通过网络抓取不同类型的产品的多个网站。我可以从网上抓取一个网址。我创建了一个列表，通过web抓取多个urls，然后将产品名称和价格导出到CVL文件中。然而，它似乎没有像需要的那样工作。product_list_limit=all'] headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0;Win64; x64; rv:71.0) Gecko/20

浏览 5提问于2020-01-10得票数 1

回答已采纳

2回答

尝试将数据从网站加载到json文件中。

、、

当我尝试这段代码时，没有什么问题：import json print(r.text)import json url="http

浏览 2提问于2020-05-10得票数 0

点击加载更多