如何使用python3从网站中提取所有页面的URL？

文章/答案/技术大牛

发布

2回答

、、

我想从一个网站的所有网页的网址列表。以下代码不返回任何内容：import requests response = requests.get(base_url + '/a') urls

浏览 8提问于2019-10-27得票数 0

1回答

公司可以限制从他们的网站上抓取的内容吗？

、、

我正在学习使用Python3的Requests和Beautiful Soup进行web抓取。import requests url = 'https://www.packtpub.com: 403 Client Error: Forbidden for url</e

浏览 0提问于2018-05-28得票数 2

2回答

从维基百科网页的摘要部分获取链接

、、、

我试图从维基百科网页的摘要部分提取链接。我尝试了以下方法：为了提取与任何部分相关的链接，我可以根据该节id进行筛选，例如，但我想不出如何只从summar

浏览 3提问于2021-06-04得票数 0

回答已采纳

2回答

BeautifulSoup不会从网页中提取所有表单

、、、、

我希望从一个给定的网站使用Python3和BeautifulSoup提取所有表单。下面是一个执行此操作的示例，但无法提取所有表单：from bs4 import BeautifulSoup data = urlopen(url</

浏览 0提问于2017-03-27得票数 2

2回答

使用python3和selenium迭代和检索信息的问题

、、

我是python的新手，并设法编写了一个小程序(使用python3)从一个网站检索信息。我有两个问题：我不知道如何告诉python等待每80步，所以当i= 80,160,240等。我不知道如何告诉python从网站中检索信息，总共存在多少个步骤(因为每个页面的步骤不同)，请参见下面的图片。在这个例子中，我可以从图片中看到最大的260是“硬编码”吗？我如何告诉

浏览 0提问于2017-04-22得票数 1

回答已采纳

1回答

如何在页面上循环使用Selenium获取表数据？

、、、

我有一个1000页的网站，我想从每一页在单一工作表中提取表格。我尝试过的事情是将页数放到循环中并提取数据。这方面的问题在于它不是自动化的&它提取新工作表中每个页面的表数据。什么是有效的解决方案，，这样网站的每一页的表格提取都可以在单页上完成，而不会有太多的滞后，因为有数千页。所以我的问题是： 1.如何从

浏览 0提问于2021-07-11得票数 0

回答已采纳

2回答

如何从互联网上删除所有旧的网站数据？

、、

我在rohbits.com上有我的网站，但出于某些原因，我不得不删除它并用这个wwww.rohbits.com/blog重新创建它。我想要删除所有以前的数据从搜索引擎，或有一个404错误页，我自己，以便我可以告诉我的访问者，我的实际网站在哪里。我已经将到rohbits.com的所有流量重定向到www.rohbits.com/blog，但是当他们单击过期的链接时，会得到这个错误页面。

浏览 0提问于2013-11-07得票数 3

回答已采纳

2回答

如何使用camelot从pdf中提取表格？

、、、

我想在python3中使用camelot从pdf中提取所有的表格。# PDF file to extract tables from然后我只从pdf的第一页得到一张表。如何从pdf文件中提取整个表格？？

浏览 29提问于2020-05-27得票数 1

1回答

我试图从google中删除某个url的索引，但由于某种原因，它只是不起作用。出于某种原因，它并不是去索引那些页面，因为如果你在google: site:comehike.com/outdoors/parks/edit_park_topic.php中搜索这个页面，它将显示近20万个结果站点:指令是否仅显示索引页或所有索引页？我怎么才能把这些页去索引？另外，对于熊猫更新，你认为有200k页与该表格将是有害的吗

浏览 0提问于2011-08-17得票数 0

回答已采纳

2回答

如何在Python中使用selenium从表中获取数据

、

我有这个URL，里面有表格。我需要从表中获得所有的行和列数据，从所有的多页。我不能理解如何从表中获取数据。firefox并加载url。(driver, 30).until(ec.element_to_be_clickable(next_btn)).click() 但是我无法理解如何从表中获取数据。我不是从网站开发领域，所以不能

浏览 51提问于2020-08-27得票数 1

回答已采纳

1回答

关于美汤多页抓取的查询

、、、

我正试着从网站link - https://concreteplayground.com/auckland/events上抓取一个页面。我能够从第1页中提取所有内容。当我想转到下一页时，我找不到任何链接/解析下一页的引用。我尝试检查该页，当我检查是否转到第2页时，我发现内容如下- <a rel="nofollow" class="page-numbe

浏览 0提问于2018-05-24得票数 0

2回答

在Python中线程多个SQL查询的良好实践/设计是什么？

、、

我从网站中提取信息，并使用Pythonwith和将其存储到数据库中。该网站由大约15个不同的城市组成，每个城市都有10至150页的网页。总共大约有500页。对于每个城市的每个页面，我使用BeautifulSoup打开站点，提取所有必要的信息，然后执行insert into或update SQL查询。目前我不使用线程，浏览所有500页需要几分钟，

浏览 2提问于2012-02-09得票数 2

回答已采纳

1回答

如何使用bs4在python中刮取多个页面

、、

我有一个查询，因为我一直在刮一个网站"“，因为我无法从表中给定的链接中抓取电子邮件id。虽然需要从给定表格中的链接中刮取姓名、电子邮件和董事。请任何人，解决我的问题，因为我是一个新手，使用python与美丽的汤和要求的网页刮。谢谢你，迪克沙#Import a liabry to query a website#Specify the URL companies_

浏览 2提问于2020-05-03得票数 0

回答已采纳

1回答

获取媒体画廊中的所有图片？

是否有一种方法来获取媒体库中所有图像的URL？我认为这将是一个简单的方式，一个网站有一个图片页，只是从媒体画廊所有的图像，假设它只有在某些情况下是必要的。我不需要说明如何创建一个图片页面，只是如何提取所有的图像URL。谢谢!

浏览 0提问于2011-03-10得票数 34

回答已采纳

3回答

刮擦能同时产生要求和物品吗？

、

当我编写parse()函数时，可以同时生成一个请求和一个页面的项吗？我希望提取A页中的一些数据，然后将数据存储在数据库中，并提取要遵循的链接(这可以通过CrawlSpider中的规则来完成)。我将A页的链接页称为B页，这样我就可以编写另一个parse_item()来从B页提取数据，但是我想在B页面中提取一些链接，所以我只能使用

浏览 4提问于2012-12-30得票数 12

回答已采纳

1回答

逐页从网页中提取表格

、、、、

我已经写了一个从网页上抓取表格的代码。下面的代码从第一页提取表格(在url /page=0中)：login <- "john.johnson" (fake) res <-

浏览 2提问于2020-07-02得票数 0

3回答

阻止来自详细页的sql注入

、

我管理的一个网站包括一个新闻稿列表，每个新闻稿标题都有一个指向详细页面的链接。详细页的url链接是../pr.php?ID=457公共站点没有用户输入表单。

浏览 1提问于2011-11-14得票数 0

回答已采纳

2回答

通过单击图像将变量传递到URL* - JavaScript*

当点击图像，这也是链接到登录页与登录表单，我想通过我的用户名。点击图像，它会将用户重定向到登录页面，并在用户名字段中自动放置通过URL传递的用户名，因此用户只需输入密码并单击按钮即可登录。/javascript"></script> <a href="https://{{contact.image_bank_urlkey='+scrt_var;retur

浏览 9提问于2017-02-22得票数 0

3回答

如何在登录后爬行/索引页？

、、

是否有可能(有任何工具)抓取登录后的页面(不是内容，只是url)？我们期待创建一个新的网站，并需要索引每一页的旧网站，以便捕获所有的内容，内容类型，映射所有的网址到新的网站，等等。

浏览 4提问于2015-04-01得票数 1

回答已采纳

2回答

获得媒体画廊的所有图片与alt/标题？

、、、

是否有方法获取媒体库中所有图像的ALT/TITLE？我认为这将是一个简单的方式，一个网站有一个图片页，只是从媒体画廊所有的图像，假设它只有在某些情况下是必要的。我不需要说明如何创建一个图片页面，只是如何提取所有的图像URL。谢谢!

浏览 0提问于2021-08-07得票数 0

回答已采纳

点击加载更多