腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
从一
个
网站
抓取
多个
页
面的
URLS
r
、
url
、
web-scraping
我最近才开始在R中进行文本挖掘和网络
抓取
。而且我很难理解html代码(以前也没有用过html ),我可以
从一
个
网站
/页面上
抓取
我想要的所有信息。但我希望我可以从这个
网站
的所有“下一
页
”。我编写了一
个
替代程序,但它使用起来不是很方便。31&start="paste0(U
浏览 6
提问于2021-07-02
得票数 0
回答已采纳
1
回答
scrapy中的动态start_
urls
web-crawler
、
scrapy
我正在使用scrapy在一
个
网站
上
抓取
多个
页面。变量start_
urls
用于定义要爬行的页面。我最初会从第一
页
开始,因此在文件example_spider.py中定义start_
urls
= [1st page] 在从第一
页
获得更多信息后,我将确定下一
页
将被
抓取
,然后将相应地分配start_
urls
因此,我必须用对start_
urls
= [1st page, 2nd page,
浏览 1
提问于2012-01-10
得票数 12
回答已采纳
2
回答
如何使用chrome的webdriver点击节点/角度脚本生成的‘下一
页
’按钮?
python
、
beautifulsoup
、
webdriver
我试图
从一
个
网站
上
抓取
数据,这个
网站
返回了跨越
多个
页
面的
搜索条件的结果……使用硒,Python上的精美汤。第一
页
很容易阅读。移动到下一
页
需要点击'>‘按钮。scraping the first page #now need to click on the ">" , so that it can take me to the next page 控件应转到下一
页
,以便我可以<
浏览 24
提问于2019-05-25
得票数 1
回答已采纳
2
回答
如何用R中的几个页面从
网站
中
抓取
特定信息
r
、
function
、
web-scraping
我刚刚开始在R中进行网络
抓取
,我很难找到如何
从一
个
有几个页
面的
网站
中
抓取
特定的信息,而不必为每个个人url运行代码。到目前为止,我已经使用这个示例成功地完成了第一
页
的操作。我还设法使用以下代码根据分页编号生成
urls
:问题是集成它,并使用生成的
urls
来获取我需要的信息,使用一
个
函数并将其存储在一<em
浏览 7
提问于2020-12-05
得票数 2
回答已采纳
2
回答
我想通过属性来标识特定的
urls
,但是如果感兴趣的属性是外文字符呢?
xpath
、
encoding
、
scrapy
我想使用Scrapy来递归地刮取数据--在下一
个
页面之后
从一
个
页面中
抓取
数据。我的蜘蛛需要遵循“下一
页
”按钮。原则上,response.xpath("a[@title = 'next page']")可以识别“下一
页
”
urls
。然而,由于
网站
是中文(),我使用的选择器命令是response.xpath("a[@title = '下一
页
']")。下一
浏览 7
提问于2015-10-18
得票数 0
回答已采纳
1
回答
网站
刮取特定表格
python
、
web-scraping
、
beautifulsoup
对于一
个
额外的学校项目,我正在学习如何刮一
个
网站
。从下
面的
代码中可以看到,我可以
从一
个
页面中
抓取
一
个
名为“elqFormRow”的表单。 如何在整个elqFormRow上刮掉所有的“”事件?
浏览 3
提问于2016-11-21
得票数 0
回答已采纳
2
回答
如何使用XML和ReadHTMLTable
抓取
多个
页面?
xml
、
r
、
web-scraping
问题是,该
网站
只能在一
个
页面上显示1000名跑步者,所以我必须
抓取
多个
页面。到目前为止,我编写的脚本适用于第一
页
:
urls
<- paste(page_numbers, ) tables
浏览 1
提问于2011-10-15
得票数 3
1
回答
零散出口空csv
python
、
csv
、
xpath
、
scrapy
regiao-de-bauru-e-marilia/eletrodomesticos/fogao-industrial-itajobi-4-bocas-c-forno-54183713"]$ nano dataextract.csv 看是空的。
浏览 7
提问于2014-12-12
得票数 0
回答已采纳
2
回答
递归使用Scrapy从
网站
抓取
网页
python
、
web-scraping
、
scrapy
我正在尝试
从一
个
被分成几页(大约50
页
)的大列表中收集一些信息。我可以很容易地从第一
页
中提取我想要的内容,包括start_
urls
列表中的第一
页
。但是,我不想将这50
个
页
面的
所有链接都添加到这个列表中。我需要一种更有活力的方式。有人知道我如何迭代地
抓取
网页吗?有谁有这样的例子吗? 谢谢!
浏览 7
提问于2011-02-03
得票数 1
1
回答
中断时phantomJS擦伤不起作用
node.js
、
web-scraping
、
phantomjs
、
sleep
我正在尝试
从一
个
web服务中
抓取
一些
URLS
,它的工作非常完美,但我需要从同一
个
web服务中
抓取
大约10,000
个
页面。我通过创建
多个
phantomJS进程来做到这一点,每个进程都打开和评估一
个
不同的URL (相同的服务,我所更改的只是
网站
URL中的一
个
参数)。问题是我不想一次打开10,000
页
,因为我不希望他们的服务崩溃,我也不想让我的服务器崩溃。 我试图使一些逻辑打开/
浏览 3
提问于2014-04-22
得票数 0
回答已采纳
2
回答
Python web
抓取
返回错误
python
、
python-2.7
、
web-scraping
我目前正在学习Python,并尝试学习web
抓取
。我一直在使用我
从一
些教程中获得的示例代码,但我在查看的一
个
网站
上遇到了问题。下
面的
代码应该返回
网站
的标题:import rei=0pattern = re.com
浏览 1
提问于2013-10-18
得票数 0
1
回答
如何使用Scrapy进行多
页
抓取
?
python
、
python-2.7
、
web-scraping
、
scrapy
-------- * <-- START / #-----*-----/ 这是一
个
我想用scrapy处理的
网站
的结构,其中*是一
个
页面,-表示链接。我想
抓取
#
页
的数据。我已经做了一
个
可以
从一
个
页面
抓取
数据的
抓取
器。QuotesSpid
浏览 2
提问于2017-03-07
得票数 1
2
回答
scrapy -如果关注无限
网站
,则终止爬行
python
、
web-scraping
、
scrapy
、
scrapy-spider
假设我有一
个
像这样的网页。>但是,如果我想像这样使用scrapy
抓取
这个页面并跟随链接,scrapy永远不会停止
抓取
。示例爬虫:class TestSpider(CrawlSpider): allowed_domains = [&
浏览 9
提问于2018-10-29
得票数 3
1
回答
如何使递归
抓取
工作?
python
、
scrapy
我的目标是
从一
个
网站
上
抓取
一
个
网址和标题的列表,作为一
个
更大项目的一部分--这就是促使我学习刮刮的原因。现在,使用basespider刮取给定日期的第一
页
(格式是/存档/日期/)可以正常工作。但是,尝试使用爬行器(一些教程之外的内容)来
抓取
给定日期的每个顺序页面是不起作用的,我不知道为什么。我试过很多解决办法。allowed_domains = "phys.org" start_url_str
浏览 0
提问于2014-01-09
得票数 0
回答已采纳
1
回答
用Scrapy爬行
多个
页面
python
、
web-scraping
、
scrapy
、
web-crawler
问题->website.com--->
浏览 2
提问于2017-07-17
得票数 0
1
回答
刮,刮链接,然后刮
页
。
python
、
python-3.x
、
web-scraping
、
scrapy
我对这种格式的站点相当满意: Stsrt页面>页面1>
页
2>我想刮的页面。 但我有点卡住了,当涉及到一
个
网站
,每个网页都有许多链接到我想要刮的网页。我想我需要首先
抓取
和刮掉我需要的所有链接,在这个表格中:第1
页
,刮掉所有的链接,跟随到第2
页
>第2
页
,刮到所有的链接,然后重复到第3
页
**,然后一旦所有的链接建立,跟随和刮去我想要的数据。这样做的最佳方法是使用一
个
函数来创建链接列表,然后将其传递给一
个</e
浏览 0
提问于2018-10-04
得票数 0
回答已采纳
1
回答
从具有跨越
多个
页
面的
表格的网页中
抓取
信息
r
、
web-scraping
、
rvest
我正在使用R中的rvest包,我想
从一
个
只包含大约40%的总信息的表中
抓取
一些数据。我关注了HTML,但它没有指定当不同页
面的
地址没有差异时如何
抓取
数据。我正在尝试从获取一些工作列表数据。我已经使用以下代码成功地检索了第一
页
上的数据: read_html( ) html_node('table') %>
浏览 2
提问于2018-06-20
得票数 0
1
回答
抓取
Url并将其用于LWP Perl
perl
、
scrape
但我想知道,是否有可能
从一
个
网站
抓取
一
个
网址,并自动地把它放在网址访问也在循环中?? print $response->code,' ', $response->message,"\n"; 因此,现在我想
从一
个
域中
抓取
一
个
url,并将其用于example.co
浏览 0
提问于2013-03-19
得票数 0
3
回答
如何
抓取
/索引频繁更新的网页的策略?
web-crawler
、
search-engine
我正在尝试建立一
个
非常小,利基搜索引擎,使用Nutch来
抓取
特定的
网站
。其中一些
网站
是新闻/博客
网站
。如果我爬行,比方说,techcrunch.com,并存储和索引他们的首页或任何主页,那么在几个小时内,我对该页
面的
索引就会过期。像Google这样的大型搜索引擎有没有一种算法可以非常频繁地重新
抓取
频繁更新的页面,甚至每小时一次?或者只是频繁更新的页面得分非常低,所以它们不会被返回? 我如何在我自己的应用程序中处理这个问题?
浏览 0
提问于2012-04-26
得票数 20
2
回答
wordpress中的语言开关
wordpress
、
content-management-system
、
multilingual
我正在寻找一
个
简单的WordPress插件,以便能够在前端切换语言。我尝试了很多没有人工作的插件。
浏览 3
提问于2015-02-17
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
目前最快的Python爬虫速成法!两步即可学会
16行 Python 代码极速下载无版权高清图
从零开始的 Python 爬虫速成指南
python爬虫系列开发scrapy掌握(一)
如何使用Photon高效率提取网站数据
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券