R从多个唯一的urls中抓取表_Web抓取:抓取表中的urls_使用R从dataframe中的urls抓取内容 - 腾讯云开发者社区

r、rvest

我希望从多个，唯一的网址，我已经在一个列的excel表中列出的表格。我已经准备好了从单个url抓取的正确代码： library(rvest)library(readxl) onepage <- read_html("https:ContentPlaceHolder1_divSoleSource.table.table-condensed.ta

浏览 16提问于2021-08-05得票数 0

回答已采纳

1回答

从r中的多个urls中进行from抓取

r、web-scraping

我正在尝试从多个urls中抓取表。我使用以下代码从单个url中抓取表：library(rvest) html_element('table.table_s

浏览 4提问于2022-08-05得票数 0

回答已采纳

5回答

一种高效的算法，用于将唯一的单词保存到文件中

php、file、unique

我目前所做的是，从URL解析文本，然后清理文本并按空格将其分解并保存到文件中。我发现最难的是，案例:从site.com/page1抓取单词并将唯一单词保存到文件中。在抓取site.com/page2时，我需要检查每个单词是否已经在文件中，只有在不存在时才保存。我的想

浏览 1提问于2012-04-10得票数 1

回答已采纳

2回答

如何使用python收集一组连续的网页？

python、regex、url、beautifulsoup、matching

这里，x是一个介于1到200000之间的数字。我想运行一个循环来获取所有的URL，并使用漂亮的汤从每个URL中提取内容。bs4 import BeautifulSoupimport re 我只需要从每个网页中</em

浏览 5提问于2015-05-20得票数 0

回答已采纳

1回答

如何处理复制的数据？

python、sqlite、web-scraping、scrapy、data-integrity

我正在从另一个站点抓取数据，我经常处理以下情况： IdEntityB IdEntityD上面提到的每个实体都有自己的页面，我想将它们插入到SQL数据库中。然而，我报废物品的顺序并不是最理想的。到目前为止，我的解决方案(没有处理外键或任何类型的映射)是废弃EntityA的页面，查找到相应的EntityB页面的链接

浏览 1提问于2015-10-06得票数 0

2回答

Python -在线程化脚本中遍历列表

python、multithreading

我正在尝试编写一个线程化的Python脚本，它将遍历urls列表，并在单独的线程中打开每个urls。Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.2.10) Gecko/20100914 Firefox/3.6.10')] t.start() 我知道我需要一个nextTicker = ne

浏览 10提问于2011-02-01得票数 0

回答已采纳

1回答

从多个网页中抓取urls

html、python-3.x、web-scraping、beautifulsoup

我试图从多个网页中提取URL(在本例中为2)，但出于某种原因，我的输出是从第一页提取的URL的重复列表。我做错了什么？我的代码：urls = [] baseUrl = 'https://www.goodreads.comstartswith('/author/

浏览 0提问于2020-05-28得票数 0

回答已采纳

2回答

一个网站有一个URL列表，我需要写一个循环来访问每个URL并抓取两个表

r、url、xpath、scrape

最后，我试图在R中从几个不同的URL中(在同一个父站点内)刮表。首先，我想我必须从的“季后赛系列”中抓取单个游戏链接--该链接表的xpath为//*@id="all_all_playoffs“。然后，我想从每一个单独的游戏链接中抓取表格(看起来如下：) --我想要的表格是每个队<

浏览 1提问于2017-11-07得票数 0

回答已采纳

2回答

使用Rvest抓取文本、表格，并从多个页面中组合这两者

r、web-scraping、screen-scraping、purrr、rvest

我有一种情况，我想要在不同的urls上抓取多个表。我确实设法抓取了一个页面，但是当我试图抓取页面并将表堆叠为dataframe/list时，我的函数就失败了。library(rvest)library(purrr) urls <- paste0("https:electdmemberde

浏览 21提问于2020-11-02得票数 2

回答已采纳

1回答

R从页面中抓取多个表

我正在尝试通过网络抓取页面上的5个表: www.lme.com/copper.asp 我可以对整个页面进行webscape，但在没有HTML格式的情况下，我在将表格抓取成适当的数据帧时遇到了问题。

浏览 0提问于2012-03-15得票数 1

回答已采纳

1回答

使用getURIAsynchronous()抓取多个网页

r、web-scraping、rcurl

我是R中的新手，我正在尝试使用getURIAsynchronous()函数从RCurl包中刮取多个https网页。但是，对于每个url，该函数作为结果返回"“。由于我使用的这些https urls是我的公司特定的urls，因此由于保密原因，我无法在这里提供示例。但是，使用readLines()可以成功地从网站中提取所有html内容。但是对于成千上万的<e

浏览 2提问于2017-10-08得票数 1

回答已采纳

1回答

如何在继续下一页时提取数据，并将其作为数据帧保存到csv文件中？我使用的代码只给出了一个页面的输出

python-3.x、web-scraping

我已经通过多个帖子，并尝试他们，但我不能解决这个问题。我无法从'‘网站上找到5000页的表格。我对页面中的n使用- urls = []：urls = url+n print(urls) 我有一个左右的5000+网页的网站，我需要从这些使用python的每个人提取表。在该表中，电子邮件是作为我能够抓取的

浏览 1提问于2019-02-13得票数 0

2回答

https://www.nyse.com/quote/XNYS:A 访问上面的URL后，我在Firefox中打开了开发人员工具。然后在HISTORIC PRICES中更改日期，然后单击“GO”。将更新该表。但我在devtools中看不到相关的HTTP请求。因此，这意味着数据已经在第一个请求中下载。但是我不知道如何提取表的原始数据。有人能看看如何从表中提取原始数据吗？(请注意，我不想使用selenium这样<em

浏览 33提问于2021-06-19得票数 0

1回答

Python:通过缓冲区进行分区，以便在

python、search

堆栈溢出的第一篇文章。我会尽我最大的努力使格式正确。*******.png 变成一个元

浏览 2提问于2014-05-13得票数 0

回答已采纳

1回答

如何抓取列表中存储的多个链接

python、python-3.x、list、loops、web-scraping

我试图通过将每个页面编号应用于url，然后将url存储在一个列表中，来抓取url的多个页面。在执行迭代时，只抓取第一个页面中的内容，而不抓取其余的内容。故障出在哪里？Page=' urls = url + str(link) list_of_links.append(urls)#Establish c

浏览 13提问于2019-03-29得票数 0

回答已采纳

4回答

从一个表中删除sql中的重复项

sql、sqlite

我想要删除数据库中我的表中的副本。Databasename - > urls我试过了，但没用： url urls;url website

浏览 0提问于2018-12-04得票数 1

回答已采纳

2回答

Web抓取:抓取表中的urls

python、web-scraping、beautifulsoup

我正在尝试抓取下面的网站：(请注意这是韩语) https://law.go.kr/lsSc.do?menuId=1&subMenuId=15&tabMenuId=81&query= 我需要抓取“법령명”列中每个链接的所有内容，该列紧挨着索引列(请参见下面的图片以供参考)，但这些链接似乎并不唯一。menuId=1&subMenuId=15&tabMenuId=81&query=#undefined的url，但是这

浏览 19提问于2021-07-01得票数 1

回答已采纳

1回答

scrapy中的动态start_urls

web-crawler、scrapy

我正在使用scrapy在一个网站上抓取多个页面。变量start_urls用于定义要爬行的页面。我最初会从第一页开始，因此在文件example_spider.py中定义start_urls = [1st page] 在从第一页获得更多信息后，我将确定下一页将被抓取，然后将相应地分配start_urls因此，我必须用对start_urls = [1st page, 2nd page, ..., Kth page]

浏览 1提问于2012-01-10得票数 12

回答已采纳

3回答

我有12000个已知的URL，用Python抓取它们最快的方法是什么？

python、web-scraping、scrapy

因此，我有一个从数据库中提取的URL列表，我需要抓取和解析每个URL的JSON响应。一些URL返回null，而其他URL返回发送到csv文件的信息。我目前使用的是Scrapy，但它需要大约4个小时来抓取这12000个URL。我研究过像、和这样的东西，但我不确定它们是否适合我的用例，因为它们似乎是围绕着抓取网站上找到的URL。对于单机抓取的如此多的URL来说，4小时

浏览 0提问于2020-08-25得票数 0

2回答

R: Web从表中抓取多个变量

r、scrape

我试图使用以下代码在R中搜索网页()：library(rvest) colnums = seq(1,length(variables)) # create final table with all va

浏览 0提问于2018-04-06得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云