无法使用selenium python从网站抓取多个URL

文章/答案/技术大牛

发布

2回答

、、、

我正在尝试从here抓取文章的日期和网址。虽然我确实得到了日期列表和文章的标题(文本)，但我无法获得相同的Urls。这就是我如何在文本和日期中获得url标题。例如，我可以提取一个链接，但无法提取所有链接。

浏览 38提问于2021-08-09得票数 0

回答已采纳

1回答

如何在python语言中使用selenium和chromedriver抓取此页面？

我正在尝试使用selenium和chromedriver从网站“”中抓取数据。当我运行代码时，chromedriver成功地输入了url，但无法加载页面，显示了一个空白页面。我尝试将目标网站切换到google.com，但抓取成功。我的结论是目标网站服务器检测到selenium并拒绝发送回数据。那么如何在Python语言中使用selenium和ch

浏览 0提问于2020-05-29得票数 0

2回答

Python -如何在URL中不分页地刮分页

、

如何使用URL访问下一页，内容如下：我知道如何使用刮取库(BS4、Selenium)，但我不知道如何抓取这样的站点。我一直在玩谷歌Chrome开发工具，但没有成功。像Python这样的抓取站点通常的工作流程是什么？

浏览 0提问于2019-07-05得票数 0

回答已采纳

3回答

通过Selenium Python下载整个网页(html、image、JS)

、、、、

我必须下载一个简单的超文本标记语言形式的网站，如www.humkinar.pk的源代码。我已经尝试过selenium的driver.page_source功能，但是它不能下载完整的页面，比如图片和javascript文件。有没有更好更简单的python解决方案？

浏览 0提问于2017-08-21得票数 3

2回答

尝试将数据从网站加载到json文件中。

、、

我试图将数据从一个网站加载到一个json文件中。m=1" print(r.text)import json r=requests

浏览 2提问于2020-05-10得票数 0

1回答

在到达cloudflare背后的抓取网站的内容时需要帮助

我正在尝试从以下网站抓取文章:使用Python的。但是，如果我使用，例如requests.get() (甚至selenium)，由于以下原因，我无法达到所需的内容：有人能提出解决办法吗？

浏览 4提问于2022-10-02得票数 -1

2回答

使用python抓取动态javascript内容网页

、、、、

我正在尝试使用Python抓取这个网站：'‘。但是，requests + BS4只给了我HTML格式的页面源代码。我假设这是因为内容是动态的。因此，我尝试了Selenium + BS4来抓取网站，但我仍然只能抓取页面源代码。from selenium.webdriver import Firefox from bs4 import BeautifulSou

浏览 4提问于2020-02-02得票数 0

1回答

如何使用Scrapy自动获取请求头？

、

但是，有没有一种方法可以使用Scrapy请求自动获取这些请求头，而不是手动获取？我尝试使用：response.request.headers，但此信息还不够： {b'Accept': [b'text/html,application/xhtml+xml,application/xml

浏览 50提问于2021-05-21得票数 0

回答已采纳

1回答

为什么我的Crawler会得到错误的HTML代码？

、

实际上，用jsoup库实现的爬虫代码可以工作，因为我的请求的结果是一些HTML代码，但是当我搜索一个明确写在网站上的单词时，没有找到它，因为一些div的来自于空的爬虫。然后我意识到，当您导航到网站并右键单击‘查看页面源’时，我得到了与相同的代码。当我将代码与进行比较时，右键单击“->”检查“”时，代码与“查看页面源”中的不同。

浏览 0提问于2019-09-12得票数 1

回答已采纳

1回答

Python无法获取包含请求的API : Web抓取、请求、API

、、、

我试图通过python来抓取一个网站，但是我无法通过请求检索到正确的API，因为我无法获取产品信息：提前感谢:)

浏览 0提问于2021-11-15得票数 0

1回答

为什么我的网络抓取没有返回任何东西？

、

我对python上的web抓取是个新手。我有问题，当我运行我的代码，返回是白色空白，但它不是错误。html.parser' for tag in sp.find_all('a'): if url is None: i

浏览 22提问于2020-08-21得票数 0

1回答

我使用selenium +美汤(使用selenium打开包含大量javascript的页面，并使用javascript命令将其转换为BeautifulSoup对象)来从体育网站上抓取数据，但由于某些原因，我不能使用无头浏览器。当我使用chromedriver实现无头浏览器时，我几乎不会像让chromedriver打开并运行时那样抓取大量数据。有没有人有类似的问题，或者有什么建议？document.d

浏览 2提问于2020-05-09得票数 0

1回答

从地下刮取历史气象资料

、、、

我对数据抓取很陌生，最近，我试图用python的selenium库从wunderground.com中抓取数据。但是，我发现，有时候selenium web驱动程序无法成功地打开网页，我认为这个问题可能与网站使用的JavaScript有关，但不确定哪些部分出错了。有人知道怎么解决吗？提前谢谢。import webdriver from selenium.webdriver.support.ui import Sele

浏览 5提问于2021-09-09得票数 2

回答已采纳

2回答

使用PHP爬行网站，但该网站运行JS生成标记

、、

使用PHP库(PHP简单DOM)，im运行php脚本(使用终端)从其中获取一些URL和JSON一些数据。到目前为止这件事一直运作得很好。显然，我的PHP脚本无法处理这个问题(因为它没有执行JS，因此该站点在我所能知道的范围内大部分保持为空白)，因此我无法爬行该站点，因为内容尚未创建。谢谢,

浏览 0提问于2018-04-29得票数 1

回答已采纳

1回答

抓取问题：“检查元素”与“查看页面源”不同

、、、、

我试图做一个网页刮一个网页，其中包括多个标签本身。当我单击所需的选项卡，在显示其内容后，首先会出现两个问题。1-网页地址不改变，对所有标签都是相同的。2-当我看到带有浏览器(firefox和chrome)的“查看页面源”的页面源时，所有选项卡的页面源看起来也是相同的，而当我对其中一个选项卡使用“检查Elemnt”时，我看到我的目标内容以html形式显示的代码问题是，我无法通过python访问所需选项卡的内容，这是web世界中可用的典型WEB抓取代码。这些代码通常是基于bs4的。有没有人有任何想法或示例代

浏览 2提问于2020-02-06得票数 4

回答已采纳

1回答

webcrawling-有哪些可能的方法来检测使用javascript加载的页面？

我想抓取一些网站。我正在使用selenium/PhantomJS抓取JS(react、angular、jquery等)。和python爬行其他所有的东西。我的主要问题是，我无法区分页面是否使用JS加载。任何想法都将受到欢迎！

浏览 2提问于2018-03-16得票数 0

4回答

使用Scrapy进行Python数据抓取

、、、

我想从一个网站上有TextFields，按钮等抓取数据。我的要求是填写文本字段并提交表单以获得结果，然后从结果页面中抓取数据点。我想知道Scrapy是否有这个功能，或者是否有人可以推荐一个Python库来完成这个任务？(编辑) 我的要求是从ComboBoxes中选择值并单击search按钮，然后从结果页面中抓取数据点。附注:我正在使用selenium

浏览 1提问于2013-05-28得票数 8

回答已采纳

3回答

与多个python程序共享数据

、、

我是从多个网站抓取数据。为此，我使用selenium和PhantomJs编写了多个web刮刀。我想要做的不是保存这些数据来分析它，我想把它发送到一个程序中去进行实时分析。我已经尝试过了，：我甚至不知道从哪里开始

浏览 7提问于2016-08-03得票数 0

回答已采纳

2回答

如何旋转Selenium webrowser IP地址

、、、、

我有一个Python脚本，每30秒访问一个网站，每次我都需要一个不同的IP地址。其他方法？

浏览 10提问于2019-12-19得票数 18

1回答

使用Selenium和Scrapy通过onclick抓取显示的数据

、、

我使用Scrapy用python编写了一个脚本，以便使用身份验证从网站上抓取数据。我正在抓取的页面真的很痛苦，因为主要是由javascript和AJAX请求组成的。页面的所有主体都放在允许使用submit按钮更改页面的<form>中。URL不会改变(而且是一个.aspx)。我已经成功地从第一页抓取了所需的所有数据，然后使用以下代码更改了单击此输入按钮的页面：

浏览 38提问于2019-02-21得票数 0

点击加载更多