我想抓取链接的下一页:https://www.thetoptens.com/animals/,使用scrapy-selenium点击next按钮,但它抓取了链接的第一页。我也尝试过使用webdriver,但显示了相同的结果。 使用scrapy-selenium的代码: import scrapy
from scrapy_selenium import SeleniumRequest
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as
当我运行我的抓取器时,它从一个站点抓取大约200条记录,而这个站点包含大约250条记录。我找不出我在创建它时所犯的任何错误。任何帮助都将不胜感激。
"items.py“包括:
import scrapy
class WiseowlItem(scrapy.Item):
Name = scrapy.Field()
Url= scrapy.Field()
名为"wiseowlsp.py“的爬虫包括:
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextracto
我的目标是遍历每个页面并将内容抓取到一个DataFrame中。到目前为止,我可以得到前20个没有问题。我似乎想不出如何使用python selenium chrome webdriver在javascript表格上导航到下一页。我已经尝试了一些解决方案(下面似乎是最接近的),但无法复制结果。我会张贴的网站,但它是一个你需要登录凭证才能访问。提供了相关ul和li元素的页面源屏幕截图。 尝试的堆栈溢出解决方案:How to click on the list of the elements in an elements with selenium in python? 我可以使用以下命令获取
我正在为最近的客户评级刮一个网站,有几个页面。
问题是,我能够与"sortby“选项交互,并使用Selenium选择”最近“,并使用Scrapy为第一页抓取数据。但是,我无法提取其他页面的数据,Selenium Web驱动程序不知何故不呈现下一页。我的意思是自动抓取数据。
我是一个网络刮刮的新手。代码片段附在这里(一些信息由于机密性而被删除)
import scrapy
import selenium.webdriver as webdriver
from selenium.webdriver.edge.service import Service
from selenium.webd
我对Scrapy很陌生,我需要刮一页,而且我在抓取这一页时遇到了困难。
不填充页面上的任何字段,直接单击"PESQUISAR“(翻译:搜索)按钮,我需要刮掉下面显示的所有页面。
看起来我的问题就在页面javascript ..。我从来没有用过javascript。
from scrapy import Spider
from selenium import webdriver
from scrapy.selector import Selector
class CarfSpider(Spider):
name = 'carf'
allowed_doma
我正在尝试使用Selenium+Scrapy来抓取一个以恐龙方式生成的网站。
我已经成功地从第一页抓取了条目,但是当我试图进入下一页时,为selenium生成的浏览器似乎总是在搜索同一个页面。
我想做的是:
1.-执行解析函数以提取第一页数据。
2.-提取完成后,搜索next按钮并获取href属性。
3.-再次调用发送新url的相同函数。
import scrapy
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui impor
好的,所以我正在开发一个基于抓取的网络爬虫,它有一些简单的功能。机器人应该从一个页面转到另一个页面,解析然后下载。我已经让解析器工作了,下载也开始工作了。我不能让爬虫开始工作。我读过Spider类的文档,阅读了解析应该如何工作的文档。我已经尝试过回归和屈服,但我仍然无处可寻。我不知道我的代码哪里出错了。根据我编写的调试脚本,所发生的事情如下。代码会运行,它会很好地抓取第1页,它会得到到第二页的链接,它会转到第二页,然后它会很高兴地停留在第二页,而不是抓取第三页。我不知道代码中的错误在哪里,也不知道如何修改它来修复它。因此,任何帮助都将不胜感激。我相信这个错误是基本的,但我不知道发生了什么。
i
我正在抓取,您可以看到有体裁部分,我想作为一个csv返回到最初的18页,在显式体裁之前停止,,我怎么能这样做呢?这是我的密码
# -*- coding: utf-8 -*-
import scrapy
from scrapy.exceptions import CloseSpider
class Link(scrapy.Item):
link = scrapy.Field()
class LinkListsSpider(scrapy.Spider):
name = 'link_lists'
allowed_domains = ['ht
简介你好,我用Scrapy来获取雅虎答案中的数据。我的成就是把所有的问题和答案都集中在一个精确的部分。
--我尝试使用scrapy和selenium --首先,我尝试在一节中记录一个问题列表,这个列表是在蜘蛛类中记忆的。之后,我使用For循环来解析每个页面。
for url in self.start_urls_mod:
yield scrapy.Request(url, callback=self.parse_page)
i = i + 1
parse_page方法是用于抓取问题页、最佳答案和所有其他答案的结构。这个很好用。
当我尝试使用页面右侧下面链接上的
我试图使一个网络爬虫,去一个链接,并等待Javascript内容加载。然后,在进入下一页之前,它应该获得所有指向列出的文章的链接。问题是它总是从第一个url ("")抓取,而不是遵循我给它的url。为什么下面的代码不能从我在reqeusts中传递的新urls中抓取?我没主意了.
import scrapy
from scrapy.http.request import Request
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver
我能够从第一页抓取所有的故事,我的问题是如何移动到下一页,继续抓取故事和名字,请检查下面的代码。
# -*- coding: utf-8 -*-
import scrapy
from cancerstories.items import CancerstoriesItem
class MyItem(scrapy.Item):
name = scrapy.Field()
story = scrapy.Field()
class MySpider(scrapy.Spider):
name = 'cancerstories'
allowed_doma
我是一个刮刮和硒的新手。我想要抓取的页面使用按钮上的js脚本转到下一页。我在SO上找到了部分代码(Click a Button in Scrapy),但我似乎无法让它工作。 from selenium import webdriver
import scrapy
class chSpider(scrapy.Spider):
name = 'spidypy'
allowed_domains = ['117.145.177.252']
start_urls = ['http://117.145.177.252/login.do?
我是python和web scraping的新手。您的帮助我们将不胜感激。我在编程和练习方面是新手。我正在使用python和selenium进行web抓取。 我正在试着从事实上抓取数据。目标是找到过去24小时内发布的所有工作,并刮刮外部链接,这是在工作详细信息页面上与链接文本“申请公司网站”,标题,公司,名称,位置,工作描述。 我写了以下代码,但是它正确地获取了页面上的所有链接,然后当我试图打开每个链接时,它只打开了第一个链接。我怎样才能打开我一个接一个的链接。提前感谢,下面是我的代码示例: import time
from selenium import webdriver
from se
你好,我正在尝试进入单词抓取器和爬虫,但是我不明白为什么我的代码不能转到下一页和循环。 import scrapy
from scrapy import*
import scrapy
from scrapy import*
class SpiderSpider(scrapy.Spider):
name = 'spider'
start_urls = ['https://www.thehousedirectory.com/category/interior-designers-architects/london-interior-desi
from scrapy_selenium import SeleniumRequest
import scrapy
from selenium import webdriver
class testspider1(scrapy.Spider):
driver=webdriver.Firefox(executable_path=r"C:\Users\test\Desktop\geckodriver")
name = 'test5'
start_urls=['http://httpbin.org/ip']
def p
我一直在努力使用“下一页”按钮;抓取器设法单击下一页并转到它,然而,它一直转到第一页,并最终断开。我只想抓取接下来的所有页面(在本例中只有一页,但将来可能会有更多)。对于这里可能出现的问题有什么想法吗?代码如下: class DatatracSpider(scrapy.Spider):
name = 'data_trac'
start_urls = [
# FOR SALE
'https://www.milieuproperties.com/search-results.aspx?paramb=ADVANCE%20SE
我真的不明白为什么登录后的一个基本请求--在登录后用scrapy标记我退出--我在各种Scrapy论坛(问题链接、、、)上提出了几个问题,但它们并不是简单地给出了答案。我可以很容易地用selenium实现这一点,没有任何问题,用scrapy复制也是一个问题,我已经尝试了50多种不同的解决方案。我只需要一个理由,当我在登录后产生另一个请求时,我会被注销。
这是基本的Selenium和Scrapy脚本,需要登录虚拟帐户的详细信息。
from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.chrome.
对于我来说,用selenium和scrapy刮多个页面是我面临的最大挑战。我搜索了许多问题,如何用selenium和scrapy刮多个页面,但是我找不到任何解决方案,我面临的问题是它们只会刮1页。
我使用selenium来抓取多个页面,它对我来说是有效的,但是selenium对多个页面的抓取速度并不比我要移动到scrapy上的要快,因为它们比selenium快得多,这是页面链接。
import scrapy
from selenium import webdriver
class TestSpider(scrapy.Spider):
name = 'test'
我正在尝试获取所有的“下一页”,并通过单击页面底部的按钮“下一步”,使用Selenium继续抓取这些页面。我想要得到所有的(第2,3,4页等)。然而,我不确定我在这里做错了什么,但我无法让'click‘选项工作。 下面是我的代码: import scrapy
import re
import math
from selenium import webdriver
import time
class PropertyFoxSpider(scrapy.Spider):
name = 'property_fox'
start_urls = [