在R中抓取数据

文章/答案/技术大牛

发布

1回答

r、web-scraping

有没有办法将R中的数据报废：到目前为止，我已经使用了以下代码，但是生成的XML文件不包含我需要的信息：library(XML) url

浏览 2提问于2018-08-09得票数 0

回答已采纳

1回答

在R中抓取Twitter数据的数据

我把推特上的数据输入R，我遇到了两个绊脚石。") corpus=Corpus(VectorSource(twit_text))A corpus with 30 text documents ( 2)我试图将语料库中的所有文本小写，但我没有取得什么成功。

浏览 1提问于2016-08-19得票数 0

回答已采纳

1回答

R中的数据抓取

我想用英超网站上的统计数据来做一个班级项目。这是一个网站：20 20 Emile Heskey - England 110 但是，当更改站点上的筛选器(例如，在我的用例中，将表限制在当前季节)，并使用箭头访问表中接下来的20个条目时，URL不会更改。currentStatContain

浏览 0提问于2018-05-12得票数 6

回答已采纳

1回答

用R屏幕抓取实际页面，而不是源html

r、screen-scraping

我试图用R从这个页面中筛选出网球赛结果数据(点对点数据，而不仅仅是最终结果)。使用常规的R屏幕抓取函数(如readline()、htmlParseTree()等)，我能够为页面抓取源html，但这不包含结果数据。是否有可能从页面中抓取所有文本，就好像我在浏览器中的页面上，选择了所有文本，然后进行复制？

浏览 0提问于2014-07-19得票数 3

回答已采纳

1回答

在R中从pdf文件中抓取数据

r、pdf、tabula

statistic_documents/ACEA_Report_Vehicles_in_use-Europe_2018.pdf")head(tab[[1]]) 但在2012201320152016年的o/p专栏中，这一栏正被追加到一栏中。

浏览 0提问于2019-03-07得票数 0

1回答

R从Highcharts中抓取数据

javascript、r、highcharts

我想摘录一下这个交互式图表中的数据：独立地址在这里：data: {谢谢!

浏览 0提问于2020-11-04得票数 0

1回答

抓取R中的iframe数据

r、selenium、iframe、screen-scraping、rvest

我正在尝试使用r抓取网页，但问题是抓取的html只包含iframe标签链接()。有没有办法使用任何包从r中的iframe标签获取数据(最好是revst或RSelenium？我要抓取上述链接(id=pagebody)中的所有(150)个渠道合作伙伴名称谢谢

浏览 0提问于2016-06-28得票数 0

1回答

R中的数据web抓取

r、web-scraping、rvest

我使用R和rvest从www.nseindia.com中抓取web数据。我第一次能够下载数据，但在那之后出现了以下错误消息...

浏览 0提问于2017-09-13得票数 0

2回答

如何抓取数据帧中列中的所有url

python、pandas、dataframe、web-scraping

我正在做这个csv (https://www.kaggle.com/jtrofe/beer-recipes)，我需要做抓取。问题是，在数据帧的列(URL)中有一个链接的一部分，并且没有声明主要部分(https://www.brewersfriend.com)。我想从每个网址抓取各种啤酒的评级。对我来说，这非常复杂。

浏览 18提问于2019-06-13得票数 0

2回答

Web抓取(在R?中)

r、html-parsing、web-scraping

基本上，我想要一个包含两列的表(或数据框)，一列用于公司，另一列用于位置。有什么想法吗？

浏览 2提问于2011-04-29得票数 2

回答已采纳

1回答

在R中抓取Yellowpages

r、web-scraping

代码可以很好地处理每个部分(姓名、电话号码、电子邮件)，但当我将它们放在一个函数中构建tibble时，它会出错，因为有些部分没有电话号码或电子邮件。

浏览 18提问于2021-01-13得票数 0

回答已采纳

2回答

在不重复已保存数据的情况下抓取数据

python、beautifulsoup

我有一个简单漂亮的脚本，它定期从页面中抓取数据，并将其保存为json文件。然而，每次运行时，它都会遍历同一组urls中的许多，并抓取大量相同的数据，以及发布的任何新数据。如何避免重复？我已经尝试过对已经被抓取的urls进行酸洗，但不知道如何构建逻辑来阻止在抓取过程中不必要的重复。page=' req =

浏览 22提问于2019-02-01得票数 0

1回答

网络抓取r。如何抓取数据(“+更多”等)？

r、xpath、web-scraping

它只在可见部分工作正常。但是如何从"+More“按钮中提取剩余的内容呢？pJS <- phantom()shell.exec(paste0("C:\\Users\\Daniil\\Desktop\\R-language

浏览 0提问于2016-06-08得票数 1

1回答

R中的Web抓取数据映射

r、ggplot2、sf

我试图在一张世界地图上可视化一张从维基百科上刮来的Polity系列数据集中的表格。在去掉一些变量之后，我希望通过颜色编码来可视化国家及其政权类型(编码为Polity数据集IV类)。我查阅了来自这个的文档，似乎我需要将我的数据集与打包的地理数据结合起来。不过，我不知道该怎么做。

浏览 2提问于2021-01-19得票数 0

回答已采纳

1回答

在工作中遇到了一个问题，我正在努力想办法解决这个问题。然而，我在网络抓取方面非常新手，需要一些帮助，或者只是一个很好的起点，关于网络抓取。我有一个教育委员会的网站。~readHTMLTable(doc=content(.x, "text")))) %>% pull(list_data) 我的第一个想法是以列表格式创建多个数据帧网页抓取对我来说很奇怪。第二次尝试是将表作为三元组复制并粘贴到R中，一次一个状态。这是可行的，但并不是每一列的

浏览 17提问于2021-01-12得票数 0

回答已采纳

2回答

从url下载xls文件到dataframe (Rcurl)？

r、xls、rcurl、geturl

我正在尝试将以下url下载到一个R数据文件中：但是，我不知道如何‘解析’数据？

浏览 10提问于2013-10-25得票数 3

回答已采纳

1回答

使用requests html python库，如何滚动？到页末

web-scraping、python-requests、python-requests-html、web-scraping-language

问题是，我需要抓取数据，但只有在滚动时才会生成整个数据。asession = AsyncHTMLSession() r = await asession.get(link.format("mouse")) await r.html.arender()

浏览 30提问于2020-05-15得票数 0

1回答

使用R从TripAdvisor中抓取数据

r、xpath、rselenium

我想要创建一个爬虫，将刮一些数据从。理想情况下，它将(A) (a)识别到所有地点的链接，(b)收集到每个地点所有景点的链接，(c)将收集所有评论的目的地名称、日期和评级。我现在想重点谈谈(a)部分。'27' src='http://e2.tacdn.com/img2/x.gif'/>我已经为R找到了一些有用的webscraping包，比如

浏览 3提问于2015-04-18得票数 9

回答已采纳

1回答

使用R从PDF中抓取数据

r、pdf、web-scraping、screen-scraping

我想从这个PDF 中提取数据(滑雪跳伞)。我对所有数据都感兴趣，除了bib、club和pdf_text("raw/data.pdf") %>% strsplit(split = "\n") 而我却被困在这里。

浏览 0提问于2018-11-19得票数 2

1回答

用R抓取期货数据

javascript、r、httr、rselenium

我正在从洲际交易所抓取能源期货数据，需要一些与js相关的帮助。我正在处理ICE Futures数据，特别是我想访问NGX FIN FF，FP for 7A，(CA/GJ)，AB-NIT合同结算。因此，我希望他们的下拉菜单看起来像这样，然后单击submit并读取到R中的数据帧。 ? 我被困在“我需要使用Rselenium来做这件事吗？”问题所处的阶段。我已经查看了devtools，看看我是否可以解析执行，但我的JS很弱，所以我希望你们中的一个人能给我指出正

浏览 16提问于2020-04-29得票数 0

点击加载更多