使用Python抓取带有javascript格式的网站

使用Python抓取带有JavaScript格式的网站可以通过以下步骤实现：

安装必要的库：使用Python的pip工具安装以下库：requests、beautifulsoup4、selenium和webdriver_manager。这些库将帮助我们进行网页抓取和JavaScript渲染。
导入所需的库：在Python脚本中导入所需的库，例如：

import requests
from bs4 import BeautifulSoup
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager

初始化WebDriver：使用selenium库初始化一个WebDriver对象，例如：

driver = webdriver.Chrome(ChromeDriverManager().install())

这将自动下载并安装Chrome浏览器驱动程序。

使用WebDriver获取网页内容：使用WebDriver对象打开目标网页，并获取其内容，例如：

url = "https://example.com"
driver.get(url)
html = driver.page_source

解析网页内容：使用BeautifulSoup库解析网页内容，例如：

soup = BeautifulSoup(html, "html.parser")
# 进行网页内容的解析和提取

关闭WebDriver：在完成网页抓取后，关闭WebDriver对象，例如：

driver.quit()

这样，你就可以使用Python抓取带有JavaScript格式的网站了。

对于这个问题，腾讯云提供了一系列与云计算相关的产品和服务，例如：

云服务器（CVM）：提供弹性的云服务器实例，可满足不同规模和需求的应用场景。详情请参考：腾讯云云服务器
云数据库MySQL版（CDB）：提供高性能、可扩展的云数据库服务，适用于各种应用场景。详情请参考：腾讯云云数据库MySQL版
云存储（COS）：提供安全、稳定、低成本的对象存储服务，适用于海量数据存储和访问。详情请参考：腾讯云云存储
人工智能（AI）：提供丰富的人工智能服务，包括图像识别、语音识别、自然语言处理等。详情请参考：腾讯云人工智能
物联网（IoT）：提供全面的物联网解决方案，包括设备接入、数据管理、应用开发等。详情请参考：腾讯云物联网

请注意，以上仅为腾讯云的一部分产品和服务，更多详细信息请参考腾讯云官方网站。

从python中的字符串中删除除URL以外的所有内容

、

我从一个带有python和BS4的网站抓取了一系列链接，但是我需要清理它们，所以我只得到字符串中的URL。我得到的链接如下： javascript:changeChannel(''，20)；我需要它看起来像这样

浏览 3提问于2014-02-20得票数 1

回答已采纳

1回答

如何从javascript文件运行我的纯python (.py)文件

、、

我正在创建一个网站，从一个网站抓取数据，并在我的网站上显示该数据。我使用selenium进行抓取，这完全是用python编写的，它可以将抓取的数据转换为JSON。我使用Javascript从JSON获取数据并将其显示在HTML中。现在我想问两件事。首先，如何通过虚拟主机在web浏览器中运行python文件。其次，我想要的是每天我的Javascript代码运行python文件，这样每当网站更新时，更新的数据也会显示在我的网站上。谁能指导我如何从Javascript运行Python文件。我也看过Brython，但它不能运行我的python(.py)。下面是我如何使用Brython的这些

浏览 147提问于2021-01-03得票数 0

5回答

使用python抓取javascript生成的html

、、、

我需要用python抓取一个网站。我使用urlib模块获得了源代码html，但我还需要收集一些由javascript函数(包含在html源代码中)生成的html代码。这个函数在网站中的作用是，当你按下一个按钮时，它会输出一些html代码。我如何用python代码“按下”这个按钮？scrapy能帮到我吗？我捕获了带有firebug的POST请求，但是当我试图在url上传递它时，我得到了一个403错误。有什么建议吗？

浏览 0提问于2010-01-28得票数 18

回答已采纳

8回答

如何从Python中调用Javascript函数？

、、

我正在做一个网络抓取项目。我工作的一个网站有来自Javascript的数据。在上有一个建议，我可以直接从Python中调用Javascript，但我不确定如何实现这一点。例如:如果一个JavaScript函数被定义为：add_2(var,var2) 如何从Python中调用JavaScript函数？

浏览 1提问于2011-11-27得票数 40

回答已采纳

2回答

用JQuery还是Python抓取？

、、

因此，假设我在一个网站上抓取多个页面(比方说1000)。我想知道哪种语言最适合用来抓取这些页面- javascript还是python。此外，我听说过javascript抓取器更快(由于多个get请求)，但我不确定如何实现这一点-有人能告诉我吗？谢谢!

浏览 1提问于2012-03-04得票数 0

回答已采纳

2回答

使用Python抓取Javascript

、、、、

注意:我是个新手。这将在手头的问题中显而易见。我需要从以下网站抓取等待时间：我尝试过通过带有lmxml的XPath和带有BeautifulSoup的DOM进行抓取。有人告诉我，因为这些值没有加载到源代码中，所以它们是用Javascript呈现的。因此，我研究了用Python抓取JS元素。对我来说，Selenium看起来有点过头了，因为我不需要单击任何东西-内容加载，只是不是直接在我可以抓取的HTML中。PhantomJS需要用JS编写，我读到人们在将其移植到亚马逊网络服务或非图形用户界面服务器时遇到了问题。我见过Ghost.py，它看起来和BS4兼容，所以可能是最简单的。抓取这些

浏览 2提问于2014-02-23得票数 0

1回答

如何抓取HTML5网站并将其内容转换为PDF (使用Python或Ruby库)？

、、、、

我正在寻找一个可以登录网站，抓取HTML5内容(主要是画布上的图表)，并能够将其转换为engine/solution/framework/gem/egg/lib/whatever文件(或图像)的Ruby或Python。我可以用mechanize编写爬行脚本，这样我就可以登录网站并抓取数据，但是mechanize不理解复杂的JavaScript + HTML5。所以基本上我正在寻找一个HTML5/JavaScript解释器。

浏览 2提问于2012-08-24得票数 3

回答已采纳

1回答

使用javascript突出显示语法

、

我为Django网站创建了一个记录器窗口--基本上就是从我的.txt python创建的views.py日志文件中抓取行，并在弹出窗口中显示它们。我为此创建的代码每秒钟从日志文件中抓取行，并使用javascript将它们写入<span>元素。我希望能够根据消息级别(错误=红色、警告=黄色等)对消息进行颜色编码，但似乎无法理解。编辑我能够为第一条WARNING消息着色，但不知道如何将其全部着色。创建日志窗口的html/javascript代码如下所示： <body> <div class="container-fluid"> <

浏览 3提问于2015-11-03得票数 0

回答已采纳

1回答

抓取PHP cURL和XPath，如何提高速度？

、、、

目前我正在使用PHP cURL和XPath进行抓取，但速度非常慢。每个网站都有许多使用Javascript的带有许多子页面的URL。一个网站将有30个产品类别，每个类别有大约70个子页面，每个页面上有10个项目。我用上面的代码总共刮掉了大约150个网页。一个脚本获取一个网站，并一次一个地从该页面中抓取所有URL。与此同时，另一个脚本正在运行，执行相同的操作。每个脚本获取一个URL，将数据提取到一个变量中，然后使用XPath抓取该变量，然后将值存储在DB中。许多页面使用带有微软ASP.NET视图状态的Javascript，所以需要执行许多循环才能从页面1跳到页面2，等等。一个脚本可

浏览 1提问于2011-07-25得票数 1

7回答

使用JavaScript的程序化Python浏览器

、、、、

我想用屏幕抓取一个使用JavaScript的网站。还有，这是Python的程序化web浏览器。然而，它(可以理解)不能解释javascript。有没有针对Python的编程浏览器可以做到这一点？如果没有，我可以使用Python语言中的JavaScript实现来尝试创建一个吗？

浏览 0提问于2009-12-17得票数 14

回答已采纳

1回答

使用vpn会中断一次又一次使用相同cookie的python会话请求吗？

、、、

我从peoplefinders.com上抓取数据，这是一个无法从我的国家访问的网站，所以我基本上是在使用一个虚拟专用网络客户端。我用会话帖子登录这个网站，通过同一会话，我从同一网站的不同页面获得项目。问题是，我在一个带有get请求的for循环中进行了抓取，但由于某些原因，我在几次迭代后收到了响应400错误。错误发生在平均抓取4-5页之后。是不是因为我使用了vpn连接？不是所有来自同一会话的请求都包含相同的cookie，因此允许我在抓取同一网站的不同页面时保持登录吗？谢谢

浏览 1提问于2017-02-07得票数 1

1回答

如何在python语言中使用selenium和chromedriver抓取此页面？

我正在尝试使用selenium和chromedriver从网站“”中抓取数据。当我运行代码时，chromedriver成功地输入了url，但无法加载页面，显示了一个空白页面。我尝试将目标网站切换到google.com，但抓取成功。我的结论是目标网站服务器检测到selenium并拒绝发送回数据。那么如何在Python语言中使用selenium和chromedriver从网站抓取数据呢？我是一个Python初学者，感谢您的帮助。下面是我的简单代码： from selenium import webdriver my_driver_path = r"C:\python chrome driv

浏览 0提问于2020-05-29得票数 0

1回答

如何在Siteground托管服务器中运行Python脚本

、

我正在建立我的网站，其中包含一个python(.py)文件，超文本标记语言，css和JS文件。我想知道，我怎样才能运行我的python脚本在我的网站从我的托管帐户，以便它可以从一个网站抓取数据，并输出一个JSON文件到Javascript文件，可以显示在网页上。

浏览 15提问于2021-01-06得票数 0

3回答

使用python抓取此网站

、

我是网络抓取的新手，并试图抓取以下网站：我正在尝试使用python进行抓取。我已经尝试了请求，PhantomJS，selenium chromedriver来获取html。但是我得到的html与我在使用google chrome进行检查时看到的html不匹配。我对抓取非常陌生，对html的了解很少，对JavaScript几乎一无所知。我的主要难题是获得我在google chrome中看到的html，这样我就可以开始抓取了。提前感谢！

浏览 30提问于2018-02-01得票数 0

1回答

有没有任何快速的方法来刮一个有无限滚动的网站？

、

我正在尝试使用python来抓取一个用无限滚动实现的网站。实际上，网络就是pinterest。我知道如何使用selenium来抓取具有无限滚动的web。但是，WebDriver基本上模仿了访问web的过程，而且速度慢得多，比使用BeautifulSoup和urllib进行抓取要慢很多。你知道有什么时间有效的方法来刮一个无限滚动的网页吗？谢谢。

浏览 0提问于2014-12-29得票数 0

回答已采纳

1回答

与完整的网站相比，我抓取的HTML代码似乎并不完整。HTML会动态变化吗？

、

我目前正在抓取一个网站，以便能够在本地对数据进行排序，然而，当我这样做时，代码似乎不完整，我觉得在我滚动网站以添加更多内容时，可能会发生变化。这会发生吗？如果是这样的话，我如何确保我能够抓取整个网站进行处理呢？我目前只知道一些python和html用于web抓取，正在寻找其他可能影响这个问题的元素(javascript或ReactJS等)。我希望在抓取网站时得到50个名字的列表，但它只返回13个。我已经下载了整个HTML文件来浏览它，文件中似乎没有其他名字，也就是为什么我认为文件可能是动态变化的

浏览 0提问于2019-01-02得票数 0

1回答

Python 3:检测ajax查询

、

我尝试在Python和BeautifulSoup的帮助下抓取一些网站。当网站使用带有这种URL的ajax查询时：，我可以获取JSON内容并对其进行分析。但是，如何检测此链接以自动执行查询以获取JSON内容呢？谢谢，Rata

浏览 2提问于2018-10-11得票数 0

1回答

Python -抓取JavaScript对象中的文件

、、

我正试图用Python从VA数据集网站下载文件，但我很难找到如何在包含文件的HTML中解析JavaScript。这是网站的源代码(查看-源：)。我正在尝试下载".xlsx“文件，我认为这些文件(仅在Mac上使用command+F )位于JavaScript对象中。我已经环顾过这个网站和其他网站，但还没有找到如何从JavaScript内部抓取链接。我该怎么做呢？任何帮助都将不胜感激。

浏览 8提问于2022-05-17得票数 2

1回答

使用Selenium和Scrapy通过onclick抓取显示的数据

、、

我使用Scrapy用python编写了一个脚本，以便使用身份验证从网站上抓取数据。我正在抓取的页面真的很痛苦，因为主要是由javascript和AJAX请求组成的。页面的所有主体都放在允许使用submit按钮更改页面的<form>中。URL不会改变(而且是一个.aspx)。我已经成功地从第一页抓取了所需的所有数据，然后使用以下代码更改了单击此输入按钮的页面： yield FormRequest.from_response(response, formname="Form", clickdat

浏览 38提问于2019-02-21得票数 0

1回答

从其他网站捕获搜索数据

、、、

有没有办法从其他网站获取搜索数据？例如，如果用户访问任何带有搜索字段的网站，我感兴趣的是该用户在该搜索字段中键入了什么内容才能找到所需的blogpost/webpage/product。我想知道这是否可能通过抓取网站，或任何其他方式。此外，在第三方网站上执行抓取操作以记录此类数据是否违法？另外，是否可以使用PHP和Python？

浏览 0提问于2012-07-24得票数 2

2回答

在excel工作簿中查找截断的单元格

、

我已经使用python对SEC网站的特定部分执行了web抓取，并将数据导出到excel文件中。然而，由于excel中的字符限制，只有很少的单元格被截断，即这些单元格中并不是所有的数据都被成功提取。有没有办法突出显示或找到所有这些被截断的单元格？

浏览 0提问于2017-05-09得票数 1

4回答

Selenium Webdriver的替代方案

、、

我使用C#和Python的Selenium Webdriver从网站获取数据元素，但web抓取的速度非常慢。抓取35000个数据表花了我大约1.5天的时间。使用Selenium Webdriver，我可以执行Javascript来获取Java元素。有没有一些库可以不需要像Webdriver这样的东西来在网页上执行Javascript来检索元素，并且能够点击元素？或者有没有比硒更快的替代品？

浏览 5提问于2015-04-16得票数 13

2回答

如何从一个仅在页面执行javascript之后才填充的页面中获取信息？(C#)

、

嘿你好啊。我有一个CE程序，需要从网站获得信息。我不能简单地抓取源代码，因为只有在页面的javascript执行之后才会显示信息。在javascript完全加载信息后，有没有办法查看页面的信息/源/链接？谢谢！:)

浏览 2提问于2011-06-01得票数 0

回答已采纳

2回答

是否可以使用Selenium WebDriver来驱动PhantomJS？

、、、

我正在浏览Selenium WebDriver的文档，例如，它可以驱动Chrome。我在想，“驾驶”PhantomJS不是更有效率吗？有没有一种方法可以在PhantomJS中使用Selenium？我的预期用途是web抓取:我抓取的网站加载了AJAX和许多可爱的JavaScript，我认为这个设置可以很好地替代我目前正在使用的Scrapy Python框架。

浏览 4提问于2012-06-27得票数 35

回答已采纳

1回答

从Weedmap中抓取菜单数据

、、、、

我目前正在尝试找到一种方法来从weedmaps.com上的药房中抓取菜单数据。然而，到目前为止，我还没有足够的运气来直观地了解网站在数据所在的位置是如何实际工作的，以便抓取数据。我真的只想做3件事。获取每个菌株的名称，获取数量，并获取每个数量的相关价格。但是，当我查看页面的源代码时，我找不到任何实际引用菜单上显示的名称、数量或价格的特定行。我想找到这里列出的数据：然而，在浏览页面源代码时，我似乎找不到一种清晰的方法来找到显示这些内容的代码。以下是源代码(Chrome)的链接：视图-来源：由于我是一个新手，在使用web脚本语言方面，我希望得到任何关于这个问题的帮助或建议。如果有人有任

浏览 4提问于2018-05-01得票数 0

2回答

从远程页面获取JavaScript变量？

、、、

我目前正在为一家公司开发API。具体地说，这是我的问题。他们在网站管理员更新的网页上有JavaScript阵列。我必须将这些数组放入一个简单的JS脚本或PHP文件中，并获取这些数组的内容，然后根据API的规范进行排列，并将其输出为JSON。如何在PHP或jQuery/JS中从远程页面拉入JavaScript变量，并使其可用于其他应用程序？不，我没有访问公司网站的权限。为了这篇文章，我不得不从页面抓取工作。谢谢!

浏览 2提问于2013-05-29得票数 1

回答已采纳

1回答

如何从javascript运行python脚本？

、、、

所以我做了一个javascript discord机器人，如果这是相关的话。我编写了一个python脚本，它抓取一个网站并返回一个json对象。如何创建一个javascript函数来运行python脚本，并存储json对象，以便访问它的内容？提前谢谢..

浏览 28提问于2019-02-16得票数 0

回答已采纳

1回答

数千个指向json标记的URL

、

我做了一个Python程序，它可以抓取网站的所有URL，它以纯链接的形式下载数据。像这样： google.com quora.com/example 如何使用任何工具将这些链接放在JSON标记中，Javascript或Python？ { 'url':'google.com', }, { 'url':'quora.com/example', },

浏览 0提问于2020-05-14得票数 0

1回答

crawler抓取chrome扩展id

、、

我该如何为谷歌chrome扩展网站编写一个爬虫呢？我正在做一些关于chrome扩展的安全研究。每个类别大约有100个扩展，我现在遇到的问题是编写一个爬虫来至少抓取UID。这个网站似乎是用javascript更新的。如果我抓取html，我将什么也得不到，因为该站点似乎会在稍后阶段加载页面的其余部分。换句话说，我需要的核心内容(即包含所有扩展元素的DOM )似乎是在我使用python抓取HTML之后加载的。有什么想法吗？

浏览 2提问于2012-04-21得票数 1

回答已采纳

1回答

从网站中提取语义数据的可扩展解决方案？

、、、

假设我的磁盘上有很多(相当大的)网站，这些网站是从Common Crawl抓取或抓取的。我没有关于HTML结构的先验知识，假设每个页面的结构不同(通常是这样)。我想从它们中提取一些语义信息(预先知道)，比如带有元数据(日期、作者、标签、评论等)的文章/帖子。一种简单的方法是为每个网站编写一个简单的解析器，考虑到高质量的解析库，它应该足够简单。但这种方法显然不具有可伸缩性。这个问题有没有更聪明的解决方案？我该如何继续，这项任务的实际难度是什么？如果存在这样的服务，您可以包含付费服务。如果您知道有什么更好的方法来获取此类数据(在特定主题上；而不是手动抓取/公共爬网)，请也包括在内。

浏览 11提问于2017-01-11得票数 0

1回答

使用Python在远程网站上触发Javascript事件

、、、

我编写了一些基本的Python代码来抓取远程网页并获取一些数据。在我试图抓取的另一个页面上，数据从视图中隐藏，只有在更改<select>框的值后才会显示。在对远程网站的javascript进行清理和挖掘后，我确认它正在使用AJAX (我认为是原型的自定义实现)来切换我感兴趣的<table>的<tbody>。有没有办法使用Python (或通过Python使用Javascript )来触发该选择框的onChange事件，这样我就可以“刷新”DOM并获取新的超文本标记语言？

浏览 0提问于2012-01-20得票数 3

回答已采纳

3回答

用于web抓取的Selenium与BeautifulSoup

、、、

我正在使用Python从一个网站上抓取内容。首先，我在Python上使用了BeautifulSoup和Mechanize，但我看到网站上有一个通过JavaScript创建内容的按钮，所以我决定使用Selenium。既然我可以通过像driver.find_element_by_xpath这样的方法使用Selenium查找元素并获取它们的内容，那么当我可以使用Selenium做任何事情时，还有什么理由使用BeautifulSoup呢？在本例中，我需要使用Selenium来单击JavaScript按钮，所以使用Selenium进行解析更好，还是应该同时使用Selenium和Beautiful S

浏览 1提问于2013-07-03得票数 53

回答已采纳

4回答

使用Python下载URL的html -但启用了javascript

、

我正在尝试下载，这样我就可以抓取搜索结果。但是，当我下载页面并尝试使用BeautifulSoup处理它时，我发现页面的某些部分(例如，搜索结果)没有包括在内，因为网站检测到javascript没有启用。有没有办法在Python中启用javascript的情况下下载URL的HTML？

浏览 0提问于2011-07-09得票数 1

回答已采纳

2回答

漂亮的汤-数据不在HTML文件中

、

我是Python的新手。我试图从一个网站上抓取数据，但在浏览器的view > source上看不到我想要的数据。它来自另一个文件。是否可以使用Beautifulsoup和Python来抓取屏幕上的实际数据？示例站点wwwdotcatleylakemandotco(Dot)uk/cds_ site s.php 如果不是，是否可以使用其他路由？谢谢

浏览 0提问于2013-05-21得票数 0

回答已采纳

2回答

使用scrapy和xpath抓取::before和::after之间的HTML元素

、、

我正在尝试用scrapy和xpath从python的网页中抓取一些链接，但是我想抓取的元素是介于：：they和::after之间的，所以xpath看不到它们，因为它们不存在于HTML中，而是用javascript动态创建的。有没有办法去掉这些元素呢？ ::before <div class="well-white">...</div> <div class="well-white">...</div> <div class="well-white">...</div> ::a

浏览 2提问于2018-09-12得票数 2

1回答

用Python解析JavaScript web应用程序的选项

、

必须编写一个Python来进行通信，并从一个受密码保护的启用JavaScript的web应用程序中获取一些数据。遗憾的是，这个webapp需要运行JavaScript，如果JavaScript被禁用，则拒绝工作。因此，“urllib2”和“请求”在尝试获取数据时不起作用。在这一点上我有什么选择？如果我通过一些工具(如Firebug )抓取HTTP流量，并尝试通过一些Python方法重放这个流量，这会成功吗？脚本所需要做的就是：登录网站更改下拉项抓取一行文本并注销

浏览 3提问于2012-01-19得票数 1

回答已采纳

4回答

如何使用jQuery从其他网站抓取内容？

、、、

我正在用PHP做一个新闻网站项目，对于这个项目，我想使用jQuery/JavaScript从其他新闻网站获取内容。jQuery有没有从其他域名抓取内容的功能？另外，我不想使用大型服务器CPU，因为它是一台大学服务器。使用jQuery删除内容会占用大量的CPU吗？在Stack Overflow中，我读到了jQuery.get()函数，是否可以使用此函数从其他站点抓取内容？

浏览 3提问于2012-02-22得票数 2

回答已采纳

1回答

使用jQuery load()时的SEO问题

、、

我已经创建了一个带有load函数的模式窗口，在模式窗口中有链接。crawler无法读取和索引这些链接。我需要一种方法让爬虫索引这些链接。我看到使用angular js排名的网站，比如 (这个网站有一个类似的模式窗口)在谷歌搜索中排名靠前，我Google从不阅读或索引angular js制作的页面。他们设法抓取了它，所以肯定有一种方法可以抓取我制作的javascript模式窗口。我如何才能做到这一点？

浏览 0提问于2017-09-13得票数 1

1回答

试图通过RingCentral通过网络抓取或通过电子邮件发送.csv导出来生成自动的每日呼叫报告

、、、、

由于RingCentral (VOIP)电话提供商不提供任何通话统计报告，我正在寻找一个替代方案。我想尽可能的自动化这一点，避免每天都去网站，通过电子邮件发送报告，打开电子邮件，将.csv导入到Excel并运行脚本。我相信我在这里有两个选择(如果你知道更多的话，请告诉我)：从Ringcentral.com抓取网页创建一个电子邮件地址，以便每天发送自动报告。然后，我可能会使用Python访问这个.csv文件，应用宏，并将结果发送到另一封电子邮件。我正在寻找最好的方法来解决这个问题的指导。如果有人想看看这些数据是如何嵌入到网站中的，我可以提供源代码。这是JavaScrip

浏览 0提问于2014-03-14得票数 1

1回答

在抓取需要登录的网站时，我需要哪些信息？

、

我想在某个网站上访问我的业务数据库，并使用Python进行抓取(我使用的是Requests和BS4，如果需要，我可以做得更多)。但我不能。谁能提供我们的信息和简单的资源，如何抓取这样的网站。我不是在说提供用户名和密码。这个网站需要的远不止这些。除了UN和PW之外，我如何知道我需要为脚本提供的信息(例如，我如何知道我必须提供身份验证令牌)？当站点中没有HTTP，但却有javascript:__doPostBack形式的hrefs时，该如何处理？在这方面，我如何从登录页面转换到我想要的页面(包含在前面提到的javascript：__doPostBack中的页面)？我使用的库足够了吗？或者，

浏览 4提问于2018-08-02得票数 0

2回答

跨域请求和纯javascript

、、

在网站上，AAA.com将包括来自网站BBB.com的javascript，这必须是非阻塞执行脚本。在BBB.com上抓取的javascript将从AAA.com中提取meta keywords和meta title，并将这些数据发送到网站BBB.com的特定url BBB.com网站将发回一个视频播放器的url。我猜我会有问题，因为这显然是一个跨域请求，我想用JSON-P请求来解决它，但问题是我们不能使用jQuery。您将如何实现这一点？

浏览 0提问于2012-09-17得票数 1

回答已采纳

1回答

Web使用动态javascript内容抓取网站

、、、、

因此，我使用python和beautifulsoup4(我没有绑定)来抓取一个网站。问题是当我使用urlib获取页面的html时，它不是整个页面，因为其中一些是通过javascript生成的。有什么办法可以绕过这件事吗？

浏览 0提问于2014-03-28得票数 5

回答已采纳

1回答

使用Python抓取带有javascript格式的网站

、

我没有从网站上抓取数据的经验。我通常使用Python的"requests“和"BeautifulSoup”。我需要从这里下载表格，我会像往常一样用鼠标右键点击并检查，但格式不是我习惯使用的格式。我做了一些阅读，似乎是Javascript，在那里我可以从https://publons.com/static/cache/js/app-59ff4a.js中提取数据。我读过其他推荐Selenium和PhantomJS的文章。但是，我不能修改路径，因为我不是这台计算机的管理员(我使用的是Windows)。有什么办法解决这个问题吗？如果Python不是一个选项，我很乐意使用R。谢谢!

浏览 13提问于2019-09-16得票数 0

回答已采纳

2回答

使用javascript分页进行抓取

我试图抓取一个多页的网站，分页是用javascript完成的。该网页如下：网页只是一个例子。在网页上使用相同的分页来显示所有提出立法的法案，列表，这些法案最终将被刮掉。使用Chrome中的开发人员工具并检查网络活动，我无法找到点击页码时发送的参数。用于分页的javascript似乎是这样的(cbpHorizontalMenu.js)：我正在尝试用R进行抓取，但我对其他编程语言或程序(在Chrome、Python、Puppeteer、Phantomjs中运行的脚本)持开放态度。

浏览 1提问于2020-06-04得票数 0

1回答

带有刮刀的Web爬行器，使用木偶和刮除器

、、、、

请注意，我是一个新手，当涉及到网络技术。我必须抓取和刮相当多的网站，这些网站是由React / javascript / html技术组合而成的。这些网站在所有地方都有大约。10万至50万页。我计划使用Selenium和Scrapy来完成爬行和抓取。单是Scrapy就不能对页面进行抓取，使用Selenium来抓取常规的javascript/html是非常耗时的。我想知道是否有任何方法我的爬虫/刮刀可以理解反应页面与Javascript/html页面的区别。等待回应。

浏览 3提问于2019-12-04得票数 0

回答已采纳

2回答

Python、BS和Selenium

、、、

我试着用javascript dynamic + bs + python进行网络抓取，我读了很多东西，想出了这个代码，我试着在一个著名的网站上用javascript抓取一个价格，例如： from bs4 import BeautifulSoup from selenium import webdriver url = "https://www.nespresso.com/fr/fr/order/capsules/original/" browser = webdriver.PhantomJS(executable_path = "C:/phantomjs-2.1.

浏览 22提问于2019-12-18得票数 1

回答已采纳

2回答

尝试使用登录Python从网站中抓取

、、、

我试图从一个需要登录的网站上抓取我的数据，但我一直收到以下错误： <?xml version="1.0" encoding="UTF-8"?> <Error><Code>MethodNotAllowed</Code><Message>The specified method is not allowed against this resource.</Message><Method>POST</Method><ResourceType>OBJECT<

浏览 28提问于2021-11-27得票数 0

2回答

在python中抓取呈现的HTML页面

、、

我正在使用python抓取一个网站，但是这个网站是用javascript呈现的，所有的链接都来自javascript。因此，当我使用request.get(url)时，它只提供源代码，而不是使用javascript生成的其他链接。有没有办法自动刮掉这些链接？我还尝试了类似于这里描述的东西：。但这个速度太慢了。那么，是否有更快的方法，使用机械化，幻影或其他库？(注意:我已经尝试过使用PyQ4，但这太慢了--我正在寻找一个更快的解决方案)。

浏览 8提问于2016-04-11得票数 0

回答已采纳

3回答

如何使用Beautiful从python代码中获得javascript函数的结果？

、、、、

我想从一个使用Python中的“美丽汤”的网站上抓取数据。网站根据用户的选择更改下拉菜单的值。在更改下拉菜单的值时没有api调用。仔细看一下，我注意到有一个javascript函数在内部调用，以获取下拉菜单的值。我的问题是下拉菜单的值不在页面源中。它们是通过调用js函数获得的，但是没有api调用，我不能请求那个值。有人能告诉我如何从python代码中调用javascript函数吗？我在用漂亮汤刮网。谢谢

浏览 7提问于2014-04-06得票数 1

回答已采纳

1回答

Python web抓取与请求和漂亮的汤被需要的javascript阻止

、、、

我正在尝试从一个网站上抓取文本。我使用简单的代码: requests.get(url_here)。我的代码直到最近才能正常工作。现在，当我使用请求，而不是获取站点的文本时，我收到一条消息：该网站要求启用JavaScript！您使用的浏览器不支持JavaScript，或者JavaScript已关闭。我已经验证了我的浏览器确实启用了javascript。有什么办法可以解决这个问题吗？在Mac上使用Jupyter笔记本使用Python作为参考。

浏览 11提问于2020-12-19得票数 1