网页抓取:用于分页的XPath_网页抓取，html表格分页_如何使用分页来抓取网页 - 腾讯云开发者社区

、、

我正在试着用章鱼刮几个公司的网站。我似乎不能让我的XPath正确地进行分页。网站页面没有“下一步”按钮。我正在尝试从每个页面中抓取数据。有什么建议吗？我尝试了以下XPath (以及其他一些失败)： //*[@id="main"]/div[2]/section/div[1]/nav/ul/li[1]/a/following-sibling::li[1]/a 这是

浏览 33提问于2020-11-07得票数 0

回答已采纳

1回答

智能web抓取c#

、、

有许多产品提供了gui来挑选出你想要从网页上抓取的标签。(例如像WebHarvy这样的东西)类似于Evernote和iOS如何知道“文章”在页面上的位置。然而，理想情况下，它适用于重复区域和分页

浏览 0提问于2012-10-17得票数 0

2回答

使用javascript分页进行抓取

我试图抓取一个多页的网站，分页是用javascript完成的。该网页如下：网页只是一个例子。在网页上使用相同的分页来显示所有提出立法的法案，列表，这些法案最终将被刮掉。使用Chrome中的开发人员工具并检查网络活动，我无法找到点击页码时发送的参数。用于分页的javascript似乎是这样的(cbpHorizo

浏览 1提问于2020-06-04得票数 0

2回答

我正在使用beautifulsoup.Some构建一个网络爬行器，网站有javascript内容，不使用urllib3加载，因此我使用them.But的selenium，selenium需要太长的时间和太多的响应，我需要构建一个更高效的网络爬行器，因为我需要为多个网站使用相同的通用爬行器。因此，我在想，如果有什么方法可以找出网站是否只有js内容，那么我将使用selenium，否则我将使用更快的urllibfrom bs4 i

浏览 2提问于2019-06-24得票数 0

1回答

在没有BeautifulSoup的Python语言中将HTML表解析为列表

、、

我想知道是否有一种方法可以从HTML表中提取数据，并仅使用HTMLParser将其解析到字典中。由于某种原因，我不能做这件事..

浏览 1提问于2012-03-04得票数 0

2回答

Iphone cocoa touch -如何从网页中获取未知url的图像

、、、

推特上的链接是一个plixi.com链接....有一件事可能会有帮助，也可能没有帮助，那就是图像总是来自同一个plixi账户。我们该如何扫描页面内容以获取这样的url并获得特定的图像呢？

浏览 0提问于2011-02-17得票数 0

1回答

如何使用XPath在iOS上进行刮擦？

、、、、

我正在寻找关于如何在XPath平台上使用iOS的信息。在苹果文档中，我发现了关于XPath 的信息，XPath只能在macOS上使用。我的目标是通过XPath抓取网页，但是我找不到任何有关这方面的信息，而不是XPath，我使用HTMLKit。有没有一种使用XPath脚本在iOS平台上抓取网页的方法？

浏览 2提问于2021-04-22得票数 2

回答已采纳

3回答

如何查找xpath表单网页

、

我正在尝试查找xpath表单网页。我使用了3个附加组件从网页中查找xpath2) FireFinder这些函数返回一些xpath。我复制了这些xpath。在我的应用程序中，我使用nokogiri gem进行屏幕抓取。如果我在我的试验中输入这些xpath。这不是回应。我也尝试了以下步骤。如果我检查将在firefug的html选项卡中

浏览 0提问于2011-10-18得票数 0

回答已采纳

3回答

如何使用Selenium和Python浏览网站内的页面

、、、、

我正在使用Python和Selenium抓取这个网站( )。我有代码工作，但它目前只刮第一页，我想迭代所有的网页和刮刮所有的视图在其中，但他们处理分页的方式奇怪，我如何通过页和刮他们一个一个？我的源代码：from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support("//*[@id='liS

浏览 5提问于2020-06-01得票数 0

回答已采纳

2回答

Scrapy:按照分页链接到刮取数据

、、、

我正在尝试从页面中抓取数据，并在分页链接之后继续抓取。我要刮的页面是-> import scrapy name = 'alibaba")]'): 'product_name': products.xpath('.if next_page_url:

浏览 3提问于2018-09-09得票数 0

回答已采纳

1回答

在Web抓取过程中修改HTML内容

、、、、

我试着做一些网页抓取我不知道该怎么做。我试着使用Selenium和XPATH，但是什么也找不到。这是HTML代码：(红色是我需要修改的内容。)编辑:实际上，我们的目标是根据邮政编码收集带有名称和补救类型的分页，这就是为什么

浏览 0提问于2017-10-19得票数 2

2回答

XPath、简单HTML或REGEX在刮取网页时

、、、、

可能重复：我正在构建一个系统(PHP/JS/MySQL)，它将自动从指定的网页中删除特定的信息字段。该系统需要一种功能，在您(半)手动在该网站上抓取第一页后，逻辑将转到db，并用于在网站上以该格式刮取任何其他页面。我能够快速地找到和保存HTML (标记名称+类+ id)和XPath，并添加一些筛选规则

浏览 3提问于2012-03-01得票数 0

1回答

如何做网页抓取使用php，curl的网页，无限滚动和ajax调用？

、、、、

一些网站有无限的滚动条，并使用AJAX分页加载信息。我想用我在PHP和curl中使用的代码抓取web数据。我是个从网页上抓取数据的新手。<?= curlUrl('restaurants page url'); // n

浏览 12提问于2016-07-22得票数 0

2回答

用于检测网页上列表项的Java库

、、、

现在大多数的网页每天都包含很多东西，或者是大量重复的html模式。例如：是否有用于检测此类列表的Java库。它涉及到一定数量的模式匹配和智能。谢谢。

浏览 2提问于2010-08-25得票数 0

1回答

抓取oddsportal信息

、、、、

我使用的是Python3.5，实际上我关注的是使用BeautifulSoup/lxml/Selenium/PhantomJS进行3.5抓取我只是想用Python代码抓取我需要的所有数据。我可以很容易地用BeautifulSoup从静态HTML中抓取信息。我最近也发现了如何从动态url中获取信息，使用Chrome的网络选项卡，并在XHR选项下查看出现的HTTPrequest。它通常会给我从JS生成的htm

浏览 2提问于2016-01-14得票数 1

1回答

如何使用xpath检查对象在网页中是否可见？

、、、、

我正在使用R中的RSelenium包进行网络抓取。有时在加载网页之后，需要检查一个对象在网页中是否可见。, browserName = "firefox")#xpath',x_path))){} 我的问题是，我应该使用什么功能“存在”？我还找到了

浏览 2提问于2015-12-07得票数 8

回答已采纳

1回答

将HTML div转换为Java/JSON对象？

、、、、

有没有一种方法可以在我的代码中读取整个HTML格式的网站，然后将HTML转换成java或json对象？抓取一个站点并从某些div中提取文本是很酷的。有没有什么方法可以使用编组程序来做这件事？

浏览 97提问于2021-07-30得票数 0

1回答

Web爬行/Web抓取

、、

我正在尝试学习如何抓取/抓取网络，需要一些帮助。我目前正在从以下网站上抓取网页：。然而，我有困难的网络刮这个网站上的价格，评级和覆盖网址。有人能帮我吗？下面列出了我尝试使用的代码。在文章中查看(“//data.xpath@class=‘product_pod’”)：price = i.xpath

浏览 17提问于2020-03-06得票数 0

1回答

使用XPath抓取网页

、、

为了获取一些信息，我正在抓取一些网页。我使用的是Scrapy和XPath语言。<li ckIgnore="false" codmod="3857" ccar="A" area="NEW" versArea="NEW" shorturl="1" modurl/h5>

浏览 2提问于2014-07-05得票数 0

1回答

需要在Python中刮分页

、

我有一个selenium / python脚本，它可以抓取页面标题和一些其他信息。在页面底部有一个" next“按钮和一些分页，当我单击next时，它会加载接下来的20个结果。所有这些都是在不加载页面的情况下发生的。我需要能够刮剩余的网页，直到“下一步”按钮不再可见，这意味着没有更多的结果要加载。下面是我到目前为止给你们一个想法的逻辑。我已经把它简化了，所以很容易被跟踪。我可以刮第一页的标题，但一旦浏览器单击“下一

浏览 1提问于2018-05-27得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云