腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
网页
抓取
:
用于
分页
的
XPath
、
、
我正在试着用章鱼刮几个公司
的
网站。我似乎不能让我
的
XPath
正确地进行
分页
。网站页面没有“下一步”按钮。我正在尝试从每个页面中
抓取
数据。有什么建议吗?我尝试了以下
XPath
(以及其他一些失败): //*[@id="main"]/div[2]/section/div[1]/nav/ul/li[1]/a/following-sibling::li[1]/a 这是
浏览 33
提问于2020-11-07
得票数 0
回答已采纳
1
回答
智能web
抓取
c#
、
、
有许多产品提供了gui来挑选出你想要从
网页
上
抓取
的
标签。(例如像WebHarvy这样
的
东西)类似于Evernote和iOS如何知道“文章”在页面上
的
位置。然而,理想情况下,它适
用于
重复区域和
分页
浏览 0
提问于2012-10-17
得票数 0
2
回答
使用javascript
分页
进行
抓取
我试图
抓取
一个多页
的
网站,
分页
是用javascript完成
的
。该
网页
如下:
网页
只是一个例子。在
网页
上使用相同
的
分页
来显示所有提出立法
的
法案,列表,这些法案最终将被刮掉。使用Chrome中
的
开发人员工具并检查网络活动,我无法找到点击页码时发送
的
参数。
用于
分页
的
javascript似乎是这样
的
(cbpHorizo
浏览 1
提问于2020-06-04
得票数 0
2
回答
如何检查网站是否有javascript?
、
、
、
、
我正在使用beautifulsoup.Some构建一个网络爬行器,网站有javascript内容,不使用urllib3加载,因此我使用them.But
的
selenium,selenium需要太长
的
时间和太多
的
响应,我需要构建一个更高效
的
网络爬行器,因为我需要为多个网站使用相同
的
通用爬行器。因此,我在想,如果有什么方法可以找出网站是否只有js内容,那么我将使用selenium,否则我将使用更快
的
urllibfrom bs4 i
浏览 2
提问于2019-06-24
得票数 0
1
回答
在没有BeautifulSoup
的
Python语言中将HTML表解析为列表
、
、
我想知道是否有一种方法可以从HTML表中提取数据,并仅使用HTMLParser将其解析到字典中。由于某种原因,我不能做这件事..
浏览 1
提问于2012-03-04
得票数 0
2
回答
Iphone cocoa touch -如何从
网页
中获取未知url
的
图像
、
、
、
推特上
的
链接是一个plixi.com链接....有一件事可能会有帮助,也可能没有帮助,那就是图像总是来自同一个plixi账户。我们该如何扫描页面内容以获取这样
的
url并获得特定
的
图像呢?
浏览 0
提问于2011-02-17
得票数 0
1
回答
如何使用
XPath
在iOS上进行刮擦?
、
、
、
、
我正在寻找关于如何在
XPath
平台上使用iOS
的
信息。在苹果文档中,我发现了关于
XPath
的
信息,
XPath
只能在macOS上使用。我
的
目标是通过
XPath
抓取
网页
,但是我找不到任何有关这方面的信息,而不是
XPath
,我使用HTMLKit。 有没有一种使用
XPath
脚本在iOS平台上
抓取
网页
的
方法?
浏览 2
提问于2021-04-22
得票数 2
回答已采纳
3
回答
如何查找
xpath
表单
网页
、
我正在尝试查找
xpath
表单
网页
。我使用了3个附加组件从
网页
中查找
xpath
2) FireFinder这些函数返回一些
xpath
。我复制了这些
xpath
。在我
的
应用程序中,我使用nokogiri gem进行屏幕
抓取
。如果我在我
的
试验中输入这些
xpath
。这不是回应。 我也尝试了以下步骤。如果我检查将在firefug
的
html选项卡中
浏览 0
提问于2011-10-18
得票数 0
回答已采纳
3
回答
如何使用Selenium和Python浏览网站内
的
页面
、
、
、
、
我正在使用Python和Selenium
抓取
这个网站( )。我有代码工作,但它目前只刮第一页,我想迭代所有的
网页
和刮刮所有的视图在其中,但他们处理
分页
的
方式奇怪,我如何通过页和刮他们一个一个?我
的
源代码:from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support("//*[@id='liS
浏览 5
提问于2020-06-01
得票数 0
回答已采纳
2
回答
Scrapy:按照
分页
链接到刮取数据
、
、
、
我正在尝试从页面中
抓取
数据,并在
分页
链接之后继续
抓取
。我要刮
的
页面是-> import scrapy name = 'alibaba")]'): 'product_name': products.
xpath
('.if next_page_url:
浏览 3
提问于2018-09-09
得票数 0
回答已采纳
1
回答
在Web
抓取
过程中修改HTML内容
、
、
、
、
我试着做一些
网页
抓取
我不知道该怎么做。我试着使用Selenium和
XPATH
,但是什么也找不到。 这是HTML代码:(红色是我需要修改
的
内容。)编辑:实际上,我们
的
目标是根据邮政编码收集带有名称和补救类型
的
分页
,这就是为什么
浏览 0
提问于2017-10-19
得票数 2
2
回答
XPath
、简单HTML或REGEX在刮取
网页
时
、
、
、
、
可能重复: 我正在构建一个系统(PHP/JS/MySQL),它将自动从指定
的
网页
中删除特定
的
信息字段。该系统需要一种功能,在您(半)手动在该网站上
抓取
第一页后,逻辑将转到db,并
用于
在网站上以该格式刮取任何其他页面。我能够快速地找到和保存HTML (标记名称+类+ id)和
XPath
,并添加一些筛选规则
浏览 3
提问于2012-03-01
得票数 0
1
回答
如何做
网页
抓取
使用php,curl
的
网页
,无限滚动和ajax调用?
、
、
、
、
一些网站有无限
的
滚动条,并使用AJAX
分页
加载信息。我想用我在PHP和curl中使用
的
代码
抓取
web数据。我是个从
网页
上
抓取
数据
的
新手。<?= curlUrl('restaurants page url'); // n
浏览 12
提问于2016-07-22
得票数 0
2
回答
用于
检测
网页
上列表项
的
Java库
、
、
、
现在大多数
的
网页
每天都包含很多东西,或者是大量重复
的
html模式。例如:是否有
用于
检测此类列表
的
Java库。它涉及到一定数量
的
模式匹配和智能。谢谢。
浏览 2
提问于2010-08-25
得票数 0
1
回答
抓取
oddsportal信息
、
、
、
、
我使用
的
是Python3.5,实际上我关注
的
是使用BeautifulSoup/lxml/Selenium/PhantomJS进行3.5
抓取
我只是想用Python代码
抓取
我需要
的
所有数据。我可以很容易地用BeautifulSoup从静态HTML中
抓取
信息。我最近也发现了如何从动态url中获取信息,使用Chrome
的
网络选项卡,并在XHR选项下查看出现
的
HTTPrequest。它通常会给我从JS生成
的
htm
浏览 2
提问于2016-01-14
得票数 1
1
回答
如何使用
xpath
检查对象在
网页
中是否可见?
、
、
、
、
我正在使用R中
的
RSelenium包进行网络
抓取
。有时在加载
网页
之后,需要检查一个对象在
网页
中是否可见。, browserName = "firefox")#
xpath
',x_path))){} 我
的
问题是,我应该使用什么功能“存在”?我还找到了
浏览 2
提问于2015-12-07
得票数 8
回答已采纳
1
回答
将HTML div转换为Java/JSON对象?
、
、
、
、
有没有一种方法可以在我
的
代码中读取整个HTML格式
的
网站,然后将HTML转换成java或json对象?
抓取
一个站点并从某些div中提取文本是很酷
的
。有没有什么方法可以使用编组程序来做这件事?
浏览 97
提问于2021-07-30
得票数 0
1
回答
Web爬行/Web
抓取
、
、
我正在尝试学习如何
抓取
/
抓取
网络,需要一些帮助。我目前正在从以下网站上
抓取
网页
:。然而,我有困难
的
网络刮这个网站上
的
价格,评级和覆盖网址。有人能帮我吗?下面列出了我尝试使用
的
代码。在文章中查看(“//data.
xpath
@class=‘product_pod’”):price = i.
xpath
浏览 17
提问于2020-03-06
得票数 0
1
回答
使用
XPath
抓取
网页
、
、
为了获取一些信息,我正在
抓取
一些
网页
。我使用
的
是Scrapy和
XPath
语言。<li ckIgnore="false" codmod="3857" ccar="A" area="NEW" versArea="NEW" shorturl="1" modurl/h5>
浏览 2
提问于2014-07-05
得票数 0
1
回答
需要在Python中刮
分页
、
我有一个selenium / python脚本,它可以
抓取
页面标题和一些其他信息。在页面底部有一个" next“按钮和一些
分页
,当我单击next时,它会加载接下来
的
20个结果。所有这些都是在不加载页面的情况下发生
的
。我需要能够刮剩余
的
网页
,直到“下一步”按钮不再可见,这意味着没有更多
的
结果要加载。下面是我到目前为止给你们一个想法
的
逻辑。我已经把它简化了,所以很容易被跟踪。我可以刮第一页
的
标题,但一旦浏览器单击“下一
浏览 1
提问于2018-05-27
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用XPath进行网页爬取的Python实现
如何抓取网页中的表格
理解网页数据抓取的原理
网页抓取常见的问题有哪些?
使用Python进行网页抓取的介绍
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券