我对python有点陌生,但我正在尝试制作一个网络爬虫脚本,它可以下载网站上的所有图片。我使用的是requests和PyQuery,因为很多人都是经过研究后推荐的。这就是我现在所有的东西,我不知道该去哪里。
r = requests.get("some url")
images = pq(r.text)
for image in images.find("img"):
我知道我需要获取img的源代码,但是在找到img标记之后,我该怎么做呢?另外,我查看了一些htmls的页面源代码,一些图片存储在它们的数据库中,所以src以“/”某个扩展名开头,所以我想知道如何才
我有一个搜索某些文件并下载它们的网络爬虫,但当“另存为或打开”对话框提示时,我如何下载pdf文件。我目前正在使用python selenium进行爬行。这是我的代码。
from selenium import webdriver
import time
browser = webdriver.Firefox() # Get local session of firefox
browser.get("http://www.tda-sgft.com/TdaWeb/jsp/fondos/Fondos.tda") # Load page
link = browser.find_ele