我的目标是遍历每个页面并将内容抓取到一个DataFrame中。到目前为止,我可以得到前20个没有问题。我似乎想不出如何使用python selenium chrome webdriver在javascript表格上导航到下一页。我已经尝试了一些解决方案(下面似乎是最接近的),但无法复制结果。我会张贴的网站,但它是一个你需要登录凭证才能访问。提供了相关ul和li元素的页面源屏幕截图。 尝试的堆栈溢出解决方案:How to click on the list of the elements in an elements with selenium in python? 我可以使用以下命令获取
我正在写我的第一个真正的刮板,虽然总的来说进展顺利,但我使用Selenium时碰到了一道墙。我没办法把它转到下一页。
下面是我的代码头。下面的输出现在只是在终端中打印数据,这一切都很好。它只是停止在第1页的末尾刮,并向我显示我的终端提示。它从来没有在第二页开始。如果有人能提出建议,我将不胜感激。我尝试在页面底部选择按钮,尝试使用相对Xpath和完整Xpath(您在这里看到完整的Xpath),但两者都不起作用。我正试着按一下右箭头键。
我构建了自己的错误消息,以指示驱动程序是否通过Xpath成功地找到了元素。当我执行我的代码时,会触发错误消息,所以我猜它找不到元素。我只是不明白为什么不。
# I
我正在修我的第一个刮刀,遇到了一个问题。我的刮刀访问一个网站,并从每个结果页保存链接。现在,我只想看10页。当搜索结果不到10页时,问题就出现了。我尝试使用while循环和try语句,但它似乎不起作用。在刮取器通过结果的第一页之后,它不会在后续的页面上返回任何链接;但是,它不会给我一个错误,并在到达10页或异常时停止。
下面是我的代码片段:
links = []
page = 1
while(page <= 10):
try:
# Get information from the propertyInfo class
properties = We
我为应用程序中的一个元素创建了一个对象。此元素是屏幕上显示的记录的文本。因此,在第一页上,它将显示类似于"displaying 1-10 of 2100“的内容
public static final String VTeam_M_Detail_VRecordsText = "css=#UserList:last-of-type > div:last-child";
当我更改页面时,该元素的文本也会更改。因此,如果我转到第二页,它将显示"displaying 11-20 of 2100“。如何让webdriver在继续测试之前等待该元素的文本更改。因此,当
我一直在努力使用“下一页”按钮;抓取器设法单击下一页并转到它,然而,它一直转到第一页,并最终断开。我只想抓取接下来的所有页面(在本例中只有一页,但将来可能会有更多)。对于这里可能出现的问题有什么想法吗?代码如下: class DatatracSpider(scrapy.Spider):
name = 'data_trac'
start_urls = [
# FOR SALE
'https://www.milieuproperties.com/search-results.aspx?paramb=ADVANCE%20SE
我正在抓取,您可以看到有体裁部分,我想作为一个csv返回到最初的18页,在显式体裁之前停止,,我怎么能这样做呢?这是我的密码
# -*- coding: utf-8 -*-
import scrapy
from scrapy.exceptions import CloseSpider
class Link(scrapy.Item):
link = scrapy.Field()
class LinkListsSpider(scrapy.Spider):
name = 'link_lists'
allowed_domains = ['ht
在一个链组件中有以下spring集成代码:
<int:chain input-channel="PQIssueDetails-PQMemberSearchMemAltID-Request" output-channel="PQIssueDetails-PQMemberSearchRequest-CheckLegacySystem">
<!-- Transformer to transform the resultXml to the user understandable form using XSLT -->
我想在这个站点上触发分页:
我在chrome检查器中找到了带有这个XPATH的元素:
driver.find_element(By.XPATH,"//a[@class='kick__pagination__button kick__icon-Pfeil04 kick__pagination--icon']").click()
现在,我想单击这个元素,以更进一步--但是我得到了一个错误。
这是我的密码:
import time
from bs4 import BeautifulSoup
from selenium import webdriver
from sel
当我运行我的抓取器时,它从一个站点抓取大约200条记录,而这个站点包含大约250条记录。我找不出我在创建它时所犯的任何错误。任何帮助都将不胜感激。
"items.py“包括:
import scrapy
class WiseowlItem(scrapy.Item):
Name = scrapy.Field()
Url= scrapy.Field()
名为"wiseowlsp.py“的爬虫包括:
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextracto
我正在尝试使用标签来标识网页搜索页面上的下一页按钮,我目前有代码 next_page = driver.find_element_by_xpath(//label[contains(text(),'Page'+str(page_no+1))]//ancestor:div//input) 我是通过这里的链接到达这个阶段的:Unable to locate element for LABEL with the XPath expression 我在Spyder中工作,它说这是无效的语法,不会运行代码。我不知道为什么,因为根据我之前的回答,这似乎是正确的。 有人能给我指出这有什么问
我试着刮,想把所有的公寓都放在所有可能的页面上。在本例中,只有两页,我想:
“单击next按钮”/转到第2页
如果没有next按钮,请转到最后一页。
在我所见过的教程中,比如,在他正在抓取的页面上有一个指向next按钮的href链接。在我的例子中,页面列表的HTML代码不包含任何href链接,但如下所示:
在其他教程中,他们可以通过查找网页中的链接来找到指向next按钮的href链接。当我这样做时,我只获得网站的主链接(尽管加载了一个嵌套的url),而没有找到任何next按钮。
nav = soup.nav
for url in nav.find_all('
我正试图浏览一个包含纽约股票的网站。
每页包含20个股票的信息,有95页。HTML代码只包含前20页的信息。不知怎么的,我能够导航到下一页,但是我可以检索的股票列表没有更新。有人能帮我看看我的密码吗?
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
fr
我有一个简单的代码,可以帮助我爬行到谷歌结果页面的第二页:
var ie= new IE();
ie.Link(Find.ByText("2")).Click();
我想要的是用输入的页数爬行到更多的下一页,这样我就像这样做了一个循环:
string[] page = null;
for (int i = 0; i < NumOfPage; i++)
{
Array.Resize<string> (ref page, i+1);