R中的Web抓取:解析HTML表的问题

R中的Web抓取是指使用R语言编写程序，从互联网上抓取网页数据并进行处理和分析的过程。解析HTML表是其中的一个问题，指的是从HTML网页中提取表格数据并进行处理的任务。

在R中，可以使用多种方式来实现Web抓取和解析HTML表的功能。以下是一种常用的方法：

安装必要的包：首先，需要安装一些R包来支持Web抓取和HTML解析。其中，rvest是一个常用的包，可以帮助抓取网页数据并解析HTML内容。

install.packages("rvest")

抓取网页内容：使用rvest包中的read_html()函数，可以获取网页的HTML代码。

library(rvest)
url <- "https://example.com"  # 替换成目标网页的URL
html <- read_html(url)

解析HTML表格：使用rvest包中的html_table()函数，可以解析HTML中的表格数据。

tables <- html_table(html)

处理和分析表格数据：获取到表格数据后，可以将其转换为R中的数据框，并进行进一步的处理和分析。

data <- tables[[1]]  # 假设抓取的网页中只有一个表格
# 进行数据处理和分析

需要注意的是，不同网页的HTML结构可能会有所不同，因此在实际应用中可能需要根据具体情况进行适当的调整和处理。

对于R中的Web抓取和HTML表解析，可以应用于许多场景，如数据爬取、网络监测、舆情分析等。以下是一些应用场景的示例：

数据爬取和挖掘：通过抓取网页数据，可以获取各种类型的数据，如新闻、股票数据、天气信息等。
网络监测和分析：可以抓取网页内容进行网络流量分析、网络状况监测等。
舆情分析：通过抓取社交媒体或新闻网站的评论和文章，进行舆情分析和情感分析。

腾讯云相关产品中，提供了一些适用于Web抓取和数据分析的服务，如腾讯云云服务器、腾讯云数据库等。具体可以参考以下链接：

腾讯云云服务器：提供高性能的云服务器，可用于运行R程序和进行Web抓取。
腾讯云数据库：提供稳定可靠的云数据库服务，可以存储和管理抓取到的数据。

请注意，以上推荐的腾讯云产品仅作为示例，并不代表其他品牌商的产品不适用或不好用。在选择合适的云计算产品时，建议根据具体需求和实际情况进行评估和选择。

页面内容是否对你有帮助？

有帮助

没帮助

具有多个表的时间表Web抓取(Python)

、、、、

我只是在找一些关于python web抓取的信息。我正在尝试从时间表中获取所有数据，我想让课程与其开始的时间联系起来。查看html，有多个表(表中的表)。我计划将Google App Engine与Python (或许也包括BeautifulSoup )一起使用。对最好的方法有什么建议吗？谢谢更新：我已经设法使用以下代码从表中提取了所需的数据： import urllib from lxml import etree import StringIO url = "http://ttcache.dcu.ie/Reporting/Individual;Locations;id;lg

浏览 0提问于2013-03-15得票数 1

回答已采纳

1回答

使用rvest从HTML表中进行Web抓取

、、、

我是web抓取的新手，我正在尝试抓取下表： <table class="dp-firmantes table table-condensed table->striped"> <thead> <tr> <th>FIRMANTE</th> <

浏览 17提问于2018-06-16得票数 0

1回答

从表中通过网络抓取链接

、、、

我想从网上抓取的链接和他们各自的文本从一个表。我计划使用正则表达式来完成此任务。假设在这个页面中我有多个<a href="url_i">text_i</a>标记。我想把所有的text_i放到一个列表中，然后把所有的href放到一个单独的列表中。我有： web = requests.get(url) web_text = web.text texts = re.findall(r'<table .*><a .*>(.*)</a></table>, web_text)' 正则表达式在HTM

浏览 15提问于2020-09-16得票数 1

1回答

pdf文件中表格内容的剪贴画

、、

我正在使用python对pdf文件中的表格进行web抓取。有人能建议我一个好的模块来获取唯一需要的表我已经尝试了pypdf，pdf2html，ocr，slate，但都不起作用谢谢

浏览 0提问于2012-06-07得票数 0

1回答

R:使用rvest从FIFA抓取表时出现的问题

、、、

我试图从过去30年中至少参加过一次世界杯的每一支球队中收集数据。我对如何使用R包rvest从web上抓取表格和其他东西的知识充其量也是最基本的。目前，我的代码看起来像这样 library(rvest) library(dplyr) fifadata <- read_html("http://www.fifa.com/fifa-tournaments/teams/association=BRA/index.html") fifa_data_html <- html_nodes(fifadata, xpath='/html/bod

浏览 1提问于2017-11-22得票数 0

1回答

美丽的汤-更好的方法刮表的特定元素。

、、

我正在从这个网址：的表中抓取一些公开可用的零售数据。我的目标是为每个列在python中创建一个列表，例如一个"Name_list“，其中包含web表该列中的所有条目，一个"County_list”等等。下面是我开始刮刮的代码： r = requests.get(url_to_scrape) soup = BeautifulSoup(r.text, 'html.parser') all_text = soup.get_text() 在我看来，我的all_text变量可能没有必要。看起来一定有一种比我现在意识到的更花哨的方法来做到这一点。例如： all_text

浏览 3提问于2017-06-20得票数 1

回答已采纳

1回答

BeautifulSoup不读取请求获得的整个HTML

、、

我试图使用BeautifulSoup和请求库从一个体育统计数据表中抓取数据。我在Python3.5上运行它们。我似乎成功地通过请求获得了HTML，因为当我显示r.content时，我尝试刮取的网站的完整HTML就会显示出来。但是，当我将它传递给BeautifulSoup时，BeautifulSoup会删除大量的HTML，即统计数据本身的表。如果您查看问题中的，就会删除“得分过程”中的HTML。我认为这个问题与HTML中包含在括号('‘和'')之间的部分有关，但是我还没有开发出一个解决办法。我尝试过用于BeautifulSoup的html、lxml和Beautiful

浏览 5提问于2016-03-16得票数 5

回答已采纳

2回答

WebScraping一张表不适用于

、、、、

我只是从web抓取开始，想尝试从这个中抓取表，但是当我开始查找表的类时，它不工作，而是显示了None 以下是我的守则： from bs4 import BeautifulSoup import requests import json url = 'https://www.nseindia.com/market-data/top-gainers-loosers' headers = {'User-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/537.36 (KHT

浏览 7提问于2021-04-02得票数 0

回答已采纳

2回答

Xpath从所有表中抓取数据，而不是从我想要的表中抓取数据

、、

借助问题的答案：，我正在尝试从一个网页上抓取“持股模式”信息。代码如下： import lxml.html as LH import pprint import requests def screenerdata (symbol): with requests.Session() as sess: resp = sess.get('https://www.screener.in/company/'+symbol+'/consolidated/') root= LH.fromstring(resp.content)

浏览 27提问于2021-12-01得票数 1

1回答

如何从web中抓取数据并读取表中的所有数据

我正在尝试从web中抓取数据，特别是从具有不同过滤器和页面的表中抓取数据，并且我有以下代码： library (rvest) url.colombia.compra <- "https://colombiacompra.gov.co/tienda-virtual-del-estado-colombiano/ordenes-compra?&number_order=&state=&entity=&tool=IAD%20Software%20I%20-%20Microsoft&date_to = & date_from = "

浏览 5提问于2021-07-21得票数 0

回答已采纳

1回答

用漂亮汤将硒html表格放入熊猫数据

、、

我已经成功地使用selenium来抓取一个html表，它需要在抓取之前点击按钮。因此selenium可以工作，并成功地将html表存储为变量‘r’。不过，我很难把这个解析成熊猫的数据。与URL一样，dataframe应该有5列和大约30行。有人能看到问题出在哪里吗？ import pandas as pd from selenium import webdriver from bs4 import BeautifulSoup browser = webdriver.Firefox(executable_path=r'/Users/computer_name/Documents

浏览 1提问于2020-04-03得票数 2

回答已采纳

2回答

如何使用URL获取Python中的.csv数据

、、、

第一步-温柔点！我开始学习Python，并希望从网页()中的表中获取信息给熊猫。我正在使用Google，从研究中我了解到这个过程与'web抓取‘有关，将HTML提交给.CSV。欢迎任何想法。值得注意的是，由于工作的安全性，我无法下载更多的软件，这限制了我的工作。谢谢。

浏览 9提问于2022-04-13得票数 -1

2回答

一个网站有一个URL列表，我需要写一个循环来访问每个URL并抓取两个表

、、、

最后，我试图在R中从几个不同的URL中(在同一个父站点内)刮表。首先，我想我必须从的“季后赛系列”中抓取单个游戏链接--该链接表的xpath为//*@id="all_all_playoffs“。然后，我想从每一个单独的游戏链接中抓取表格(看起来如下：) --我想要的表格是每个队的“基本方块得分统计”。 (我打算重复几年，所以输入每个URL--就像我下面所做的那样-不是很有效) 到目前为止，我只能弄清楚如何一次从一个url (或一个游戏)中抓取表： games <- c("201705190BOS","201705190BOS","201

浏览 1提问于2017-11-07得票数 0

回答已采纳

3回答

查找信息检索/文本挖掘应用程序或库

、、、、

我们从电子邮件中提取各种信息-航班、汽车租赁、酒店等。方法是提取邮件的正文，通常是HTML格式，但有时是文本，或者我们使用PDF/Word/RTF附件中的信息。然后，我们应用正则表达式(有时分几个步骤)来获取信息，这些信息是以表格形式提供的(您可以想到航班表、酒店表等)。请注意，即使我们解析HTML，这也不是web抓取。目前我们正在使用QL2的WebQL引擎，但出于业务原因，我们正在寻求替换它。你能推荐用另一个引擎吗？它必须在Linux上运行，并且可以从Java访问( Java API是最好的，但Web服务也是很好的解决方案)。它还必须支持用于文本提取的正则表达式，而不仅仅是基于HTML结构

浏览 5提问于2009-09-23得票数 1

回答已采纳

2回答

使用rvest进行Web抓取

、、

我正在尝试使用rvest将web抓取到以下网页：https://www.superu.ad/oli-de-girasol_c360259/ 但似乎rvest (R)不能找到url中已经存在的一些css选择器，如.product-name webpage<-read_html('https://www.superu.ad/oli-de-girasol_c360259/') rank_data_html <- html_nodes(webpage,'.product-name') #returns nothing 我期望出现在url中的不同产品名称的输

浏览 17提问于2019-05-25得票数 0

回答已采纳

1回答

美汤4在表格中查找文本

、、、、

我一直在尝试使用BS4从网页中抓取。我找不到我想要的数据(表中的球员名字，即"Claiborne，Morris")。当我使用： soup = BeautifulSoup(r.content, "html.parser") PlayerName = soup.find_all("table") print (PlayerName) 没有球员的名字甚至在输出中，它只显示了一个不同的表。当我使用： soup = BeautifulSoup(r.content, 'html.parser') texts = soup.findAl

浏览 11提问于2016-07-23得票数 1

回答已采纳

2回答

如何在R中处理迭代过程中的错误问题？

、、

我在处理for循环中的错误时遇到了一个问题。在下面的代码中，我想要抓取数据表并将其集成为一个数据帧。在web抓取过程中，某些地址链接不起作用，web抓取会在抓取过程中停止和结束。(错误位置: doc = read_html(i，encoding = 'UTF-8') ) 我如何继续下一步的抓取过程并完成对整个向量的迭代，而忽略错误链接？ fdata = data.frame() n = 1 for (i in data$address) { doc = read_html(i, encoding = 'UTF-8') dtable = doc %&

浏览 17提问于2019-01-21得票数 0

回答已采纳

1回答

角7无法获得http标头

我试着在没有python的情况下进行一些抓取，只是一个简单的http从web角度应用程序获得请求，问题是响应，我需要访问头部，才能得到csrftoken头。 error: SyntaxError: Unexpected token < in JSON at position 0 at JSON.parse (<anonymous>) at XMLHttpRequest.onLoad (http://localhost:4200/vendor. 代码： const headers = new HttpHeaders().set('Content-Type', &

浏览 0提问于2019-01-15得票数 0

回答已采纳

1回答

使用R从网站中的表中抓取数据

、、

我正在尝试学习R中的web抓取，并且尝试从下面的链接中从各种表中抓取数据。在页面的底部，有几张表格列出了不同的菜系，我想单独读一读。我尝试使用css-选择器，但我认为我使用它们是错误的，下面是我的代码片段： require(rvest) require(magrittr) connection = html_session("https://en.wikipedia.org/wiki/List_of_cuisines") connection %>% html_nodes("table:nth-child(1) a") %>% html_text()

浏览 3提问于2015-10-19得票数 0

回答已采纳

2回答

使用R从网页中抓取表格和链接

、、、、

我正在尝试抓取一个网站与R。我需要的表和该表中与表中正确的行相关联的链接。我可以得到表和链接，但是因为在web表中有两列有链接，表中的一些行没有链接，并且链接不能通过文件名进行排序和连接。我不知道如何使用与正确行相关联的列和链接来创建日期框。 library(rvest) #Read HTML from EPA website content <- read_html("https://www.epa.gov/national-aquatic-resource-surveys/data-national-aquatic-resource-surveys") ta

浏览 30提问于2021-01-29得票数 2

1回答

如何从使用javascript生成的工具提示中刮取文本

、、、

我编写了下面的代码来获取地图中所有蓝色标记的位置。 from bs4 import BeautifulSoup from requests_html import HTMLSession session = HTMLSession() url="https://emf2.bundesnetzagentur.de/karte/Default.aspx?lat=52.4107723&lon=14.2930953&zoom=14" r = session.get(url) r.html.render(sleep = 3) data = r.html.html so

浏览 2提问于2020-02-03得票数 0

回答已采纳

1回答

使用R和XPath获取单元格表中的文本

、

我是一个R和XPath的乞讨者，我正在尝试抓取CRAN中的对象，以了解抓取的工作原理。我想从的包中获取依赖项元素是"bitops，RCurl“ XPath应该是这一个/html/body/table/tbody/tr[4]/td[2] 这是我的R码 urlContent <- htmlParse("http://cran.r-project.org/web/packages/abc/index.html") xpathSApply(doc=urlContent,path="/html/body/table/tbody/tr[4]/td[2]")

浏览 2提问于2013-05-31得票数 0

回答已采纳

2回答

HTML抓取的最佳可用选项是什么？

、、

我目前正在使用PHP与CURL和简单的HTML DOM分析器进行HTML抓取。我需要刮大量的内容，它需要存储。我使用PHP作为我的主要语言，使用MySQL作为存储DB，但是我对任何语言的选项都感兴趣，并且可以将它集成到我的工作流中。还有其他的HTML抓取包我应该调查吗？我听说过基于Python的名为“Scrapy”和“Beautiful”的web抓取库。非常感谢你的建议。)

浏览 0提问于2014-03-05得票数 0

回答已采纳

1回答

使用R中的JavaScript抓取页面

、、、

我是R中的web抓取的新手，最近在引用javascript的网站上遇到了一个问题。我正在尝试从下面的网页中抓取数据，但没有成功。我相信javascript链接会阻止我访问该表。结果，带有函数"readHTMLTable“的R包"XML”出现null。 library(XML) library(RCurl) url <- "http://votingrights.news21.com/interactive/movement-voter-id/index.html" tabs <- getURL(url) tabs <- htmlParse(ur

浏览 1提问于2014-12-06得票数 1

1回答

如何在R中从HTML选择/选项标记中刮取值

、

我有一个类似的问题，如这个问题所示：。我正在抓取这个，我想下载选项值中的文本，我的意思是，您可以在其中阅读"Seleccionar“，即html代码中的下一个节点： <select name="txtMunicipio" id="txtMunicipio" class="inputText"><option value="">-------------------------------------</option> <option value="001"&g

浏览 0提问于2018-10-11得票数 1

回答已采纳

2回答

在c#中模拟无限滚动以获得页面的完整html

、、

有很多网站使用这种(imo)恼人的“无限滚动”风格。这方面的例子有tumblr、twitter、9gag等网站。最近，我尝试用HtmlAgilityPack程序从这些站点上抓取一些图片。就像这样： HtmlWeb web = new HtmlWeb(); HtmlDocument doc = web.Load(url); var primary = doc.DocumentNode.SelectNodes("//img[@class='badge-item-img']"); var picstring = primary.Select(r => r.

浏览 3提问于2013-07-24得票数 7

1回答

相当于Python在Go中的HTML解析函数/模块？

、、、

我现在正在学习Go自己，并且被困在获取和解析HTML/XML中。在Python中，我通常在进行web抓取时编写以下代码： from urllib.request import urlopen, Request url = "http://stackoverflow.com/" req = Request(url) html = urlopen(req).read() ，然后我可以以string或bytes的形式获得原始的HTML/XML，然后继续使用它。在围棋中，我该如何应对呢？我希望得到的是原始的HTML数据，这些数据存储在string或[]byte中(虽然可以很容易地转换，

浏览 5提问于2013-09-03得票数 0

回答已采纳

1回答

php dom xpath从站点中的所有文件夹中提取所有链接

、、

我已经在stackoverflow和网络上搜索过了，一定是这里漏掉了什么。我还没有找到我要找的东西。也许它叫别的什么..我有下面的代码，它将抓取第一个文件夹中的所有内容，但不会从其他文件夹中抓取其他项目。例如，它会抓取第一个/前面的所有内容，但如果你有一个站点mysite.com/ folder2 /，它就不会抓取folder2。一切都是联系在一起的。它也会向后移动。如果你把最长的链接放在网站的前面就会一直走到网站的前面。我不确定我错过了什么任何指针将是伟大的。该网站是一个joomla网站，我正试图废止。 <?php function storelink($web,$taken) { $

浏览 0提问于2013-02-19得票数 0

1回答

访问HTML注释中的标记

、、、

我已经通过BS4熟悉了使用Python进行web抓取的过程。我还没有找到嵌入在注释中的DOM标记的解决方案。例如，当试图从.html页面()获取数据时，检查页面上的表显示： <div class='table_outer_container"> ... </div> 我通常可以用BeautifulSoup抓取。但是，当我查看实际的页面源时，上述表被包含在注释标记中：  我一直无法找到通过BS

浏览 0提问于2018-12-11得票数 0

回答已采纳

1回答

Chrome自动更改了DOM，或者与cheerio获得的DOM不同

、、、

所以我使用cheerio.js编写了一个web抓取应用程序。事情一直很顺利，直到我注意到cheerio $('tbody tr')没有返回任何东西，而当我在chrome中打开同一个网站时，jquery $('tbody tr')返回了表体中的所有行。在cheerio的body中，没有tbody，它的结构类似于<table><theader></theader><tr></tr><tr></tr></table>。Chrome做了这样的改变吗?是否cheerio错误地传

浏览 0提问于2015-08-17得票数 0

1回答

Python请求-HTML()无法加载css

、、、

我想下载一个页面的css，并实现与浏览器中相同的外观。问题是抓取的结果看起来不同。例如，我想下载google的登录页面。这是我使用的代码： import requests from requests_html import HTMLSession session = HTMLSession() r = session.get('https://www.google.com') r.html.render() file = open("start.html", "w") file.write(r.text) file.close()

浏览 19提问于2020-02-02得票数 0

3回答

Python错误：'NoneType‘对象没有使用Beautiful Soup的属性'find_all’

、、

我在运行一些网络抓取代码时遇到了问题。要从一系列链接中抓取信息，如下所示： http://www2.congreso.gob.pe/Sicr/TraDocEstProc/CLProLey2006.nsf/ec97fee42a2412d5052578bb001539ee/89045fe8ae896e2e0525751c005544cd?OpenDocument 我正在尝试从表中抓取某些元素，但收到以下错误： Python Error: 'NoneType' object has no attribute 'find_all' 我知道这与它实际上没有找到表有关，因

浏览 44提问于2020-04-18得票数 1

回答已采纳

1回答

R:使用RSelenium捕获删除线文本

、、、

我正在使用RSelenium从一个网站抓取数据表。使用循环遍历多个页面。下面的代码成功地抓取了有问题的表(尽管它丢失了UTFC格式)，但是在某些情况下，表中的条目具有“删除线”，在这种情况下，忽略删除线并执行操作的代码是不存在的。示例：但在R as中记录有没有人可以帮助我，当我刮桌子时，如何通过信息来保持罢工？我的代码抓取表： Data_table_html <- remDr$getPageSource()[[1]] %>% read_html() %>%

浏览 15提问于2020-11-18得票数 1

回答已采纳

4回答

如何从ajax加载的html中获取类名和属性

、、、

我通过ajax加载页面，需要从解析的html中抓取某个类。我使用的方法似乎不起作用，只返回'undefined‘。 $.ajax({ type:'post', url:"path/to/page", success:function(r){ r = $(r);//parse html var page = r.find('#siteWrap').attr('class');//pull off class name alert(page);//returns

浏览 1提问于2011-02-15得票数 0

回答已采纳

1回答

如何将最优惠产出转化为表

、、、

全新的R，所以我会尽我最大的努力来解释这一点。我一直在玩数据抓取使用"rvest“包。在这个例子中，我从维基百科上的一个表格中抓取了美国的州人口。我使用的代码是： library(rvest) statepop = read_html("https://en.wikipedia.org/wiki/List_of_U.S._states_and_territories_by_population") forecasthtml = html_nodes(statepop, "td") forecasttext = html_text(forecasthtml

浏览 6提问于2017-02-17得票数 0

1回答

红背心刮网

、、

我试图使用read_html从r包中获取一个数据表。我尝试了以下代码： library(rvest) raw <- read_html("https://demanda.ree.es/movil/peninsula/demanda/tablas/2016-01-02/2") 我不认为上面从表中提取的数据，因为我看到'raw‘是一个列表2： 'node:<externalptr>' and 'doc:<externalptr>' 我也尝试过抓取xpath： html_nodes(raw,xpath =

浏览 1提问于2016-03-31得票数 2

回答已采纳

2回答

如果<td>标签是相同的，还可以从HTML Table中web抓取数据吗？

一般来说，我对R和web抓取是非常陌生的。我试图通过R从HTML表中获取特定的数据片段，但是所有标记在表中都具有相同的名称，这意味着如果我尝试使用该名称获取数据，它将获取比我需要的更多的数据。我试图从中获取的表显然是显示统计数据的巨大表。例如，整个表中都有< td class= "zientriert“>，所以当我尝试从该行获取数据时，它会从每个”zientriert“行获取数据。有没有办法获取我需要的数据，而不是从每一行都获取数据？

浏览 10提问于2018-12-14得票数 0

2回答

我如何知道哪个浏览器被用来在Scrapy框架中爬行？

、、、、

我的背景是：正如你所知道的，Chrome，Firefox，Safari上的网站HTML结构是非常不同的。因此，当我使用CSS-Selector从HTML结构中获取元素标记中的数据时，有时这个标记已经在Chrome浏览器中有了，而另一个则没有。因此，我只想专注于一个浏览器，以减少我的工作量。当我使用Scrapy框架从urls抓取数据时，我不知道Scrapy将使用哪个浏览器来抓取数据。因此，我也不知道返回哪种HTML响应体。我检查了响应，我发现，有时结构是相同的，从Chrome，但有时它不是。看起来Scrapy框架使用了许多不同的web浏览器来抓取数据。我想要的：我只想

浏览 0提问于2018-12-05得票数 0

回答已采纳

2回答

使用BeautifulSoup调用JAVA函数

、、

我正在尝试从下面的网站中搜集一些数据 http://www.pro-football-reference.com/teams/crd/2000_roster.htm 特别是，我想要抓取花名册表格中的数据。在名为" csv“的表的标题处有一个红色链接，如果您单击它，页面将以csv格式加载表信息。此链接的HTML代码为 <span tip="Get a widget to embed this table on your site" class="tooltip" onclick="sr_display_embed(this,'game

浏览 0提问于2013-11-24得票数 0

1回答

跳过R循环中的错误，并在每次迭代中暂停该过程

、、、

我有两个关于R循环的问题。我使用XML包从网站上抓取一些表，并使用rbind将它们组合起来。我正在使用下面的命令，如果价格数据和表格在给定的网站中存在，它是没有问题的。 url.list <- c("www1", "www2", "www3") for(url_var in url.list) { url <- url_var url.parsed <- htmlParse(getURL(url), asText = TRUE) tableNodes <- getNodeSet(url.parsed, &#

浏览 0提问于2018-04-14得票数 0

回答已采纳

1回答

处理javascript生成的动态HTML的Ruby on Rails库的最佳web抓取

、、、、

我正在使用Ruby on Rails和机械化库来抓取商店网站。问题是很多时候我不能抓取某些元素。然而，当我在网站上“查看源代码”时，我可以看到这一点。例如，沃尔玛的类别(在这种情况下是“健康”)是不可推卸的。我相信这是因为它是动态生成的HTML (例如，从javascript)。为了解决这个问题，我需要一个浏览器来处理web请求。我也在亚马逊EC2上使用linux机器。安装用于UI抓取的浏览器将会很困难。有没有什么Rails gem/plugin可以帮助我？谢谢大家！！

浏览 0提问于2011-12-13得票数 2

回答已采纳

1回答

R:抓取嵌套的带链接的html表格(单元格中的表格)

、、

对于大学研究，我尝试抓取FDA的表格(robots.txt允许抓取此内容) 该表包含19行和2列： https://www.accessdata.fda.gov/scripts/cdrh/cfdocs/cfpmn/pmn.cfm?ID=K203181 我尝试提取的格式是： col1 col2 url_of_col2

浏览 21提问于2021-02-27得票数 1

回答已采纳

1回答

使用rvest从交互式网站上抓取表格

、、、、

我正在尝试抓取这个交互式网页上的表格以下是我的原始代码： url='https://games.crossfit.com/leaderboard/open/2019?country_champions=0&division=1&citizenship=US&citizenship_display=United+States&sort=0&scaled=0&page=1' US_male=read_html(url)%>% html_nodes('#leaderboard')%>% html_n

浏览 9提问于2019-07-24得票数 0

回答已采纳

1回答

额外的HTML导致bs4出现问题

、、

我试图从网站上的一个表中获取一些信息--特别是，我想从“按姓氏代表目录”表中获得有关代表的信息。到目前为止，我能够从站点下载HTML并将其写入文件，但是当使用bs4解析和抓取我想要的特定表时，它只是抓取每个表的第一行。这是因为HTML表的每一行都有一个额外的标记： <tr> <td><a href="https://abraham.house.gov/"> Abraham, Ralph </a> </td> <td>Louisiana 5th District</td> <td>

浏览 4提问于2017-04-29得票数 0

回答已采纳

3回答

选择正确的css元素使用rvest抓取时出错

、、、

目标:我正在努力从篮球参考网站上为NBA球队争取胜负记录。更广泛地说，我试图更好地理解如何正确地使用CSS选择器小工具从网站中刮取指定的元素，但希望能找到解决这个问题的解决方案。我使用的url ()上有多个表，所以我尝试使用CSS选择器小工具来指定我想要的元素，即“展开的站立”表，大约是页面向下的1/3。我读过关于rvest和dplyr包以及CSS选择器web浏览器外接程序(我已经安装在我选择的浏览器Chrome中)的各种关于web抓取的教程。这就是我想要的。到目前为止，我的代码如下： url <- "https://www.basketball-reference.co

浏览 0提问于2018-10-14得票数 1

回答已采纳

0回答

Python BeautifulSoup找不到表ID

、、

我在使用BeautifulSoup抓取表时遇到了一些问题。以下是我的代码 from urllib.request import urlopen from bs4 import BeautifulSoup site = "http://www.sports-reference.com/cbb/schools/clemson/2014.html" page = urlopen(site) soup = BeautifulSoup(page,"html.parser") stats = soup.find('table', id = 't

浏览 4提问于2017-06-08得票数 1

回答已采纳

4回答

使用C#和.NET框架进行屏幕抓取、Web抓取、Web获取、Web数据提取等

、、、、

我正在开发一个用于网络采集、网络抓取、网络数据提取、屏幕抓取等功能的Microsoft .NET Application in C#，不管你怎么称呼它。对于解析HTML，我尝试合并HTML，但它并不像我想象的那么简单。我已经包括了一些规格和图像，我有到目前为止，并希望得到您的意见，我可以继续下去。基本上，我想做一些类似于Visual开膛手使用的布局，但我不知道他们是如何做到的。有什么想法吗？ Specifications: 我的目标是使一个非常用户友好的点击式应用程序下载数据和图像从网上。我希望使用web浏览器加载HTML页面，并将分析过的数据和图像链接输出到文本框中。用户可以指定需要哪些HT

浏览 6提问于2012-02-28得票数 3

回答已采纳

1回答

减少创建BeautifulSoup对象时的开销

、

我对网络抓取和使用Python语言中的BeautifulSoup库非常陌生，所以我遇到了这个问题:我必须从大量的网页中下载和抓取内容，下载它们不是问题，但是当我为每个页面创建一个BeautifulSoup对象(为了解析它)时，我的程序变得非常慢。我在问您，是否有一种方法可以减少这种开销，并且可能避免为我要分析的每个新页面创建一个不同的全新BeautifulSoup对象。下面是我执行的代码： for action in actions[:100]: #Here I download the pages I need curr_url = base_url

浏览 0提问于2020-10-08得票数 0

1回答

使用R和rvest抓取web表

、、

我是使用R进行web抓取的新手，我正在尝试抓取这个链接生成的表格：。在这个特定的例子中，它只是表中的一条记录，但也可以更多(我实际上对第一列感兴趣，但整个表都没问题)。我试着遵循艾伦·卡梅隆在这里给出的建议()，因为这个问题似乎完全相同，但没有成功，可能是因为我对网页的工作原理知之甚少。我总是得到一个“无数据”表。也许我没有正确地遵循建议的步骤"#从页面上Javascript生成的链接中获取JSON作为纯文本“。我可以在哪里获得这个链接？在这个特定的例子中，我使用了""，是这个吗？下面是我的代码。提前谢谢你！ library(httr) library(rlist)

浏览 15提问于2020-03-10得票数 0

2回答

Python 3 web抓取选项

、

我是Python的新手，所以很抱歉这是一个新手问题。我正在尝试构建一个涉及web抓取的程序，我注意到Python3的web抓取模块似乎比Python2.x系列少得多。美汤、机械化和scrapy -这三个模块向我推荐--似乎都是不兼容的。我想知道这个论坛上有没有人有使用python3进行网络抓取的好选择。任何建议都将不胜感激。谢谢，威尔

浏览 1提问于2011-08-11得票数 5