我正在创建一个脚本,在这个脚本中,我试图从网站上专门抓取m4a文件。目前,我正在使用BS4和selenium来实现此目的。
我在获取信息时遇到了一些麻烦。文件链接不在页面的HTML源中。相反,我只能在控制台中找到它。我尝试获取的链接在这个标记为"audio_url_m4a:“的图像()中。
下面是我正在使用的一些示例代码:
from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities\
d = DesiredCapabiliti
我有个问题需要帮助。我正在尝试从一个网站上抓取一些数字(参见下面代码中的链接)。因为网站是使用JavaScript加载的,所以我使用selenium首先加载页面,然后将其传递给xlml以解析数据。
我使用的代码如下:
from selenium import webdriver
from lxml import html
import time
url = "http://sebgroup.com/large-corporates-and-institutions/prospectuses-and-downloads/rates/swap-rates"
xpath =
我正试着从inc5000站点(“”)中抓取所有的公司名称。问题是公司名称是用JavaScript显示的。我尝试过使用selenium和requests_html来呈现站点,但是当我获取页面的源代码时,我得到了JavaScript。这就是我尝试过的。我对网络抓取很陌生,所以我可能犯了一些愚蠢的错误。请指导。
这是我的密码。
...
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.options import