我正在尝试抓取:
为了一次抓取和抓取多个页面,我使用了多进程
def parse(self, response):
p = Pool(10) # Pool tells how many at a time
print("in herre")
self.product_url = response.xpath('//div[@class = "collection-grid js-filter-grid"]//a/@href').getall()
print(self.product_url)
reco
我想从具有相似页面结构的多个页面中提取一些信息。页面的所有URL都保存在一个file.txt中(一行中的每个URL)。我已经创建了代码来从一个链接中抓取所有数据(它可以工作)。
但我不知道如何创建一个循环来遍历txt文件中的所有URL列表,并刮取所有数据。
from bs4 import BeautifulSoup
from urllib.request import urlopen
import requests
import pandas as pd
import numpy as np
import json
import matplotlib.pyplot as plt
from bs
我写了从Python script.Now启动抓取爬虫的代码,我想要一致的绕过网站列表,即我为一个网站运行爬虫,当它完成抓取时,我关闭爬虫并重复调用另一个网站的爬虫。
from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings
from datetime import datetime
start_urls=['https://sentek.ru/','http://www.s-kab.ru/',https://sevkab.nt-
我正在尝试从Wikipedia中抓取几个编号的页面(以年份为单位):
for year in range(1991, 2000, 1):
url = "https://en.wikipedia.org/wiki/" + str(year)
source = requests.get(url)
x = BeautifulSoup(source.text, "html.parser")
x
但是,当检查'x‘时,我看到我只下载了1999年的页面。从1991年到2000年,我怎么才能抓取我需要的所有页面呢?
并将它们放在字典中,其中包含每年
目前,我正试图用我做的一个小脚本来抓取一个网站的图片:
for url in $my_url/{1..100}'.png'
do
wget "$url" || break
done
快速的是,有时图像被命名为1.png或01.png或001.png
因此,我想尝试下载每一个名字的图片,以避免错过任何图片。
类似于:
for url in $my_url/{1..100}{01..100}{001..100}'.png'
谢谢你的帮助!
我正在创建一个传递URL并获取页面内容的函数。如果这个页面包含"Next>",我想抓取它的url并继续到下一个页面,该页面不再包含next。
如何做到这一点?while循环?
check_url("http://site.com");
-> url contains 'next', href is http://site.com/ggkdoe
-> does http://site.com/ggkdoe contain next? if so, hit it again and check if that contains &
对于如何用Selenium、BS4和UserAgent抓取多个URL,我一直在尝试一些不同的解决方案,到目前为止,我已经能够抓取1个URL来提取我想要的内容。只是当涉及到1+地址时,我遇到了麻烦。
目前,我有下面的代码,它可以抓取第一页。如果您将urls参数更改为url,取消url变量的注释,去掉for url in urls并删除for content in sel_soup循环的缩进,您就会明白我的意思。
我想创建一个循环来抓取,开始时,只有2个网页,当它可以循环通过这2个我可以附加与其他网址的列表。
import requests
from bs4 import BeautifulSou