html抓取网页数据_网页抓取，html表格分页_网页抓取数据php - 腾讯云开发者社区

java、web-scraping、jsoup

我正在尝试使用JAVA中的JSoup库从网页中抓取数据。然而，这里的问题是，我想要抓取的数据是基于XML加载的，所以当我试图从HTML解析它时，它会显示出来 <div id="report-details-container">  </div> 而不是完整的HTML，它只显示这个注释。我如何抓取数据，因为在inspect元素中我可以看到完整HTML。

浏览 0提问于2017-10-14得票数 1

1回答

使用简单的Html Dom通过ajax动态加载Div的内容

php、html、ajax、web-scraping、simple-html-dom

我想从其他网站页面上抓取数据，这些页面动态加载表格的数据。我正在使用Php和简单的Html Dom进行抓取，搜索后没有找到任何解决方案，如何从网页中抓取动态数据？或者有另一种方法可以做到这一点？我必须从这个url->中抓取表数据。我使用下面的代码来做这件事。 $url = "https://fantasy.premierleague.com/a/leagues/standings/313/classic"; $html = file_get_html($url); $html->find('div#ismr-classic-standings')

浏览 3提问于2016-08-23得票数 2

1回答

使用python pandas的Datareader获取雅虎财经的关键统计网页与默认的雅虎财经的历史价格网页

python、pandas、web-scraping、yahoo-finance

我正在尝试使用python的pandas库从雅虎财经中抓取数据，使用DataReader从熊猫中提取历史价格数据，但我也想从雅虎财经的关键统计网页中提取数据，比如“价格/账面比”。但我不确定如何修改DataReader来拉取历史价格以外的数据。我想使用pandas库来做我所有的网页抓取，pandas中有没有不同的函数可以让我为雅虎财经的不同网页拉取数据，或者修改DataReader函数来拉取其他数据？就像将所有内容都保存在HTML中？

浏览 0提问于2015-08-17得票数 0

1回答

当我抓取一个循环而不是直接访问它时，这个网页是如何阻止我的？

python、web-scraping

我正在试着抓取一组网页。当我直接从一个网页上抓取时，我就能够访问html了。但是，当我迭代pd数据帧来抓取一组网页时，即使是只有一行的数据帧，我也会看到一个截断的html，并且无法提取我想要的数据。迭代通过1行的数据帧： import pandas as pd from urllib.request import urlopen from bs4 import BeautifulSoup import requests import re first_names = pd.Series(['Robert'], index = [0]) last_names = pd.Se

浏览 8提问于2019-03-20得票数 0

回答已采纳

2回答

网络抓取雅虎的关键统计数据！有R的金融

r、web-scraping、quantmod、rvest、quandl

是有经验的人从雅虎抓取数据！财务关键统计页面与R？我熟悉使用read_html、html_nodes()和html_text()包直接从html中抓取数据。但是，这个网页有点复杂，我不确定是否所有的统计数据都保存在XHR、JS或Doc中。我猜数据存储在JSON中。如果有人知道用R提取和解析这个网页的数据的好方法，请回答我的问题，非常感谢！或者，如果有更方便的方法通过quantmod或Quandl提取这些指标，请告诉我，这将是一个非常好的解决方案！

浏览 4提问于2016-10-25得票数 2

回答已采纳

1回答

使用内部滚动条滚动

python-3.x、selenium-chromedriver

我有一个网站，我正在抓取，需要滚动水平(到最右边)和垂直(到最底部)的一个网页上的表格。我使用的是Python3、Selenium和Chrome Driver。我可以抓取表格数据，但它只能抓取我网页上可见的内容。当我检查网页时，我找不到任何滚动信息。通过在线搜索，我看到了使用Selenium进行滚动的各种方法，甚至可以通过xpath查找，然后以这种方式进行滚动。到目前为止，我没有任何幸运的选择，但可能做错了。这是我尝试过的一个例子，但它不起作用： html=browser.find_element_by_xpath('/html/body/form/div[3]/div[2]/d

浏览 0提问于2019-10-26得票数 1

1回答

如何使用web scraper获得动态生成的JavaScript数据

php

大多数网页的数据都可以通过简单地下载HTML然后解析出所需的内容来抓取。然而，有些网页在加载后使用JavaScript动态加载其内容，从而导致在原始的HTML中找不到所需的数据。请告诉我如何才能获得动态生成的JavaScript数据使用网络刮板。

浏览 4提问于2012-05-12得票数 0

1回答

R-如何使用rvest或rcurl点击网页

r、web-scraping、rcurl、rvest

我想从下载数据使用rvest可以很容易地抓取数据。代码可能如下所示： library(rvest) library(pipeR) url <- "http://www.tradingeconomics.com/" css <- "#ctl00_ContentPlaceHolder1_defaultUC1_CurrencyMatrixAllCountries1_GridView1" data <- url %>>% html() %>>% html_nodes(css) %>>% ht

浏览 0提问于2015-03-22得票数 20

回答已采纳

1回答

从具有跨越多个页面的表格的网页中抓取信息

r、web-scraping、rvest

我正在使用R中的rvest包，我想从一个只包含大约40%的总信息的表中抓取一些数据。我关注了HTML，但它没有指定当不同页面的地址没有差异时如何抓取数据。我正在尝试从获取一些工作列表数据。我已经使用以下代码成功地检索了第一页上的数据： job_page <- read_html( 'page_address' ) data_raw <- job_page %>% html_node('table') %>% html_text() 当多个页面的数据的HTML地址没有不同时，是否可以抓取网页？我希望使用lappl

浏览 2提问于2018-06-20得票数 0

1回答

抓取R中的iframe数据

r、selenium、iframe、screen-scraping、rvest

我正在尝试使用r抓取网页，但问题是抓取的html只包含iframe标签链接()。有没有办法使用任何包从r中的iframe标签获取数据(最好是revst或RSelenium？我要抓取上述链接(id=pagebody)中的所有(150)个渠道合作伙伴名称谢谢

浏览 0提问于2016-06-28得票数 0

1回答

如何使用python/大熊猫从这个网页中读取表格？

python、pandas、web-scraping

网页链接- 我试过使用熊猫、read_html和bs4这样的网络抓取库，但是没有运气，因为网页上的数据没有包装在一个表标签中。请帮帮我!

浏览 3提问于2021-02-17得票数 0

回答已采纳

1回答

如何在web浏览器的页面源代码中查看html实体代码

html、entity

我通过php cURL抓取/提取了一个远程网页。为此，我必须查看php脚本的页面源代码。问题是在远程页面中，一些文本在<pre></pre>标记内。因此，我可以看到换行或其他html实体代码，我想要抓取该网页的一部分。例如，如果您看到的页面源代码，就可以看到TODAY'S SHARE MARKET下的数据显示在<pre></pre>标记下。因为<pre>保留了换行符，所以我不能假设每行数据之后是什么。如何使用换行符/newline/查看页面源代码等html实体代码？

浏览 3提问于2017-03-19得票数 0

1回答

Python请求-HTML-找不到特定的数据

python、python-requests-html

我正在尝试使用python请求-html库来抓取一个网页。链接到那个网页是，下面的图片显示(红色四舍五入的数据)我想要得到的数据。我的代码是这样的 from requests_html import HTMLSession session = HTMLSession() r = session.get('https://www.koyfin.com/charts/g/USADebt2GDP?view=table') r.html.render(timeout=60) print(r.text) 像这样的网页html，问题是，当我刮网页时，我找不到我想

浏览 5提问于2020-09-05得票数 1

回答已采纳

1回答

抓取html文本文档

python、html、web-scraping

我需要网络抓取一个特定的网站，但它不允许网络抓取(403错误)。我正在考虑复制我需要的网站的html数据，并将其放入txt文档中，这样我就可以把它当做一个网页来抓取。这是可能的吗，还是有更好的方法来做这件事？

浏览 40提问于2018-07-19得票数 -3

回答已采纳

2回答

在内存中浏览网页

web、screen-scraping

他们是否有办法在没有任何浏览器的情况下，在抓取html之后执行网页javascript的加载事件。即我需要抓取网页内容通过javascript呈现例如bbc新闻网页的视频在页面加载后通过javacscript呈现，我对抓取视频链接和镜头描述感兴趣。

浏览 0提问于2012-06-27得票数 1

1回答

抓取我们当前所在网页的url

python、web-scraping、scrapy

我想知道我们是否能刮到我们目前所在网页的网址？例如，如果我想从scrapy.org中抓取数据，那么我可以定义规则来提取数据和页面中提供的链接。但是，我可以把url scrapy.org本身作为一个url从那个网页上刮下来吗？由于我们当前所在的url将不会在html文件中提及，那么有什么方法可以这样做吗？下面是我想要解决的问题：我正试着从网页上抓取工作描述。我想知道我们是否也可以提取到该页面的超链接。

浏览 1提问于2014-02-20得票数 0

回答已采纳

3回答

无法下载网页的完整源代码

python

我正在尝试使用python请求库来抓取网页。但我无法下载完整的html源代码。当我使用我的web浏览器检查元素时，它给出了完整的html，我相信它可以用于抓取，但当我使用python请求库访问这个url时，那些包含数据的html标记就消失了，我无法从这些标记中抓取数据。下面是我的示例代码： import requests from bs4 import BeautifulSoup as BS import urllib import http.client url = 'https://www.udemy.com/topic/financial-analysis/?lang=en&#

浏览 5提问于2019-07-30得票数 1

1回答

从android应用程序中抓取网页的最好方法是什么

android

我在android应用程序上工作，从html网页上获得一些数据，并解析它，以便在应用程序中使用。我试过使用Web- seems，但它似乎与android不完全兼容。应用程序应该获取网页，解析它，获取所需的数据，并在应用程序中使用它。那么在android中抓取html页面的标准和推荐方式是什么呢？

浏览 2提问于2012-06-03得票数 0

3回答

无法使用BeautifulSoup抓取数据

python、selenium、web-scraping、beautifulsoup

我正在使用Selenium登录到网页，并获得网页进行抓取，我能够获得该页面。我已经在html中搜索了我想要抓取的表。这就是： <table cellspacing="0" class=" tablehasmenu table hoverable sensors" id="table_devicesensortable"> 脚本是这样的： rawpage=driver.page_source #storing the webpage in variable souppage=BeautifulSoup(rawpage,'html

浏览 0提问于2018-02-21得票数 1

1回答

通过知道R中的CSS类来抓取嵌入式交互式地图的详细信息

css、r、web-scraping、rvest

我打算在这个中从地图中抓取数据首先我抓取了地图中所有标记的所有经度，但我无法捕捉到标记的其他信息。在对此网页的检查中，我发现所需数据的类是"infodetail“，如下图所示：因此，我使用rvest提取数据，如下所示： webhtml <- read_html(webpage) webnod <- html_nodes(webhtml, 'div.infodetail') 但即使在尝试infodetail或.infodetail时，我也会得到一个空列表。如何找到html_nodes的确切类或参数？这个类是否从所有标记中提取信息？

浏览 1提问于2018-05-22得票数 0

2回答

使用BeautifulSoup4从网站获取要抓取的pdf文件

python、web-scraping、beautifulsoup

网页的html源代码如下所示 <html> <body> <embed name= "random for each page" type = "application/pdf" src = "somesrc" internalid = "random"> </body> </html> 我需要从pdf文件中抓取具有不同数据的多个页面的数据(它们具有不同的名称和内部I)。我试着用find_all嵌入标签，但不起作用

浏览 34提问于2020-07-20得票数 0

回答已采纳

1回答

使用Python从带有多行独立头的表单创建的特定网站表中抓取历史数据。自动化所需

python、html、forms、web-scraping、datatables

我正在尝试从这个网站做一些数据抓取：我基本上是寻找从2012年1月至2013年12月的每月天气数据(30 dni A noci)。我希望自动抓取数据，并将数据保存在txt或cvs文件中。然而，表的编译方式似乎有问题--我的不会捡到它。我编写代码是为了查看我可以从表中获得哪些数据： import requests from bs4 import BeautifulSoup url = 'http://www.meteoprog.sk/sk/fwarchive/Bratislava/' response = requests.get(url) html = respons

浏览 5提问于2015-02-17得票数 0

回答已采纳

1回答

如何从此网页上的Google表中刮取数据？

python、web、beautifulsoup、screen-scraping

我正在尝试使用Python从这个网页上的表中抓取数据。我尝试使用请求和bs4。我得到了原始的HTML，但是看起来数据是隐藏的。我该怎么做？

浏览 1提问于2016-12-19得票数 0

回答已采纳

1回答

R: Webscraping抓取不规则的值块

r、web-crawler、rvest

因此，我试图在网页上刮起一个不规则数据块的网页，这些数据是以一种易于用眼睛识别的方式组织起来的。让我们想象一下我们在看维基百科。如果我从以下链接的文章中抓取文本，我将得到33个条目。如果我只抓取标题，最后只得到7(参见下面的代码)。这一结果并不令我们感到惊讶，因为我们知道，条款的某些部分有多个段落，而其他部分只有一个或没有段落文本。我的问题是，我如何把我的标题和我的文本联系起来。如果每个标题有相同数量的段落或多个段落，这将是微不足道的。 library(rvest) wiki <- html("https://en.wikipedia.org/wiki/Web_scraping

浏览 2提问于2015-07-21得票数 2

回答已采纳

2回答

使用selenium和python抓取数据时遇到问题

python、python-3.x、selenium

我正在尝试使用selenium从网页中抓取一些数据。我已经成功地让selenium在树莓派上无头工作，我可以连接到我试图抓取的网页，返回页面的标题，并返回我连接到的URL。我一直在看教程中关于如何抓取数据的示例，它们都是这样的： titles_element = browser.find_elements_by_xpath(“//a[@class=’text-bold’]”) 然而，我试图抓取的网页中的每一块数据都有相同的类名。举一个我试图抓取的第一位数据的例子，我试图得到wins的值是4：第二个示例是im尝试抓取的数据，在本例中为kill，值为559：我试图抓取的两个数字共享相同的

浏览 5提问于2021-03-16得票数 0

1回答

Python代码监控和检测当前/实时网站抓取内容/HTML代码的变化

python、html、web-scraping、beautifulsoup

我开始使用抓取网站内容和HTML代码。我想要一个Python代码，可以存储抓取的内容或HTML代码在当前/实时。然后，在特定的手动分配的时间间隔之后，代码应该再次执行，并抓取相同网站或网页的内容或HTML代码。然后，它应该比较两个抓取的数据，并显示发生的任何更改。我想要这个代码来监控网站上发生的变化，并报告它们。到目前为止，我所做的是： import requests from bs4 import BeautifulSoup url ="https://www.uetmardan.edu.pk/uetm/" # Step1: Get the HTML content

浏览 0提问于2021-11-22得票数 0

3回答

以压缩格式存储mongodb数据

mongodb、compression

我正在使用mongodb来存储使用scrapy框架的网页的原始HTML数据。在一天的web抓取中，25 up的磁盘空间就被填满了。有没有办法以压缩格式存储原始数据？

浏览 6提问于2013-08-02得票数 8

回答已采纳

1回答

如何在Python中抓取具有动态ID的文本变量

python、selenium、selenium-webdriver

目前，我正试图在整个网页中获取一些文本数据。一开始，我抓取所有的网页，然后慢慢地在网页中筛选，从每一页抓取我需要的数据。例如，由于动态ID的原因，我在抓取诸如平方英尺或邻居之类的项目时遇到了困难。我通过XPath或CSS选择器看到的许多例子都涉及到搜索文本，但在我试图抓取的每一页上都会发生变化。有什么办法能捕捉到这片土地或社区吗？ from bs4 import BeautifulSoup from selenium import webdriver as wd from selenium.common.exceptions import StaleElementReferenceExcep

浏览 3提问于2019-02-05得票数 0

1回答

在R中刮取<div>标记中的所有链接

r、web-scraping

我是一个网络抓取新手，需要帮助。我试图从一个有大约20页的属性站点中抓取数据，在每个页面中有到不同属性的18条链接。我的最终目标是从每个属性链接中抓取所有数据。为此，我考虑通过将页面参数增加1来运行20页的循环。但在这样做之前，我需要从单个页面上的每个属性中抓取数据，为此我需要链接到单个页面上的所有属性，因此需要从页面中抓取所有链接(指向属性)。我试图使用html_nodes("a")来实现这一点，但没有成功。这是我想要刮的网页和网站。下面是用于获取单个页面上所有链接的代码，但没有获得所需的输出。我也尝试过使用不同的类和CSS选择器。 url <- 'ht

浏览 1提问于2018-09-26得票数 0

回答已采纳

1回答

如何配置Scrapy以使用BeautifulSoup解析器

python、web-scraping、beautifulsoup、scrapy

我使用BeautifulSoup的默认html.parser从任何网页中提取数据，没有什么原因让我觉得它比使用XPATH/CSS选择器更灵活、更强大。在抓取之前，我学习了使用BeautifulSoup进行网络抓取。我想不出一种让Scrapy使用bs4作为解析器的方法。有可能吗？

浏览 2提问于2019-08-18得票数 0

回答已采纳

2回答

从R中的html页面中提取元素

html、r、web-scraping

我是R的新手，正在尝试从以下网页抓取地图数据：。这张地图被称为“电流图”。我正在尝试获取容量数字(蓝色)和相应的国家/地区。到目前为止，我还没有找到一个如何在HTML代码中找到国家名称并抓取它们的解决方案。下面是我需要的数据示例：你有什么想法吗？在此之前非常感谢。

浏览 0提问于2020-03-24得票数 1

1回答

我是否可以使用HTMLUnit访问HTML5存储

html、local-storage、htmlunit、session-storage

我有一个需求，那就是我需要确定是否有任何页面正在存储或读取HTML5数据存储。我正在使用HTMLUnit抓取网页。我查看了sourceforge列表，发现已经构建了对HTML5存储的支持。HTMLUnit真的为localStorage、sessionStorage等创建对象吗？如果是，我如何访问它们？我还想过抓取页面上的所有Javascripts并搜索关键字，但有比这更好的方法吗？

浏览 2提问于2012-02-10得票数 0

回答已采纳

1回答

统计网页上HTML属性的数量

r、web-scraping

我需要在多个网页上计算不同数量的特定HTML属性。然后，我将使用这个数字来抓取那些href属性中包含的所需数据。 page_a<-"http://www.ufcstats.com/statistics/fighters?char=a&page=all" fighter_links<-read_html(page_a)%>% html_nodes("tr")%>% html_nodes("td")%>% html_nodes("a")%>% html_attr("

浏览 12提问于2020-10-22得票数 1

回答已采纳

1回答

有没有可能用漂亮的汤刮出一个“动态网页”？

python、html、selenium、beautifulsoup

我现在开始用漂亮的汤来抓取网站，我想我已经掌握了基本的知识，虽然我缺乏网页的理论知识，但我会尽我最大的努力来表达我的问题。我所说的动态网页是这样的:一个网站，它的HTML会根据用户的动作而改变，在我的例子中，它是可折叠的表格。我想获得一些"div“标签中的数据，但是当你加载页面时，数据在html代码中似乎是不可用的，当你点击表格时，它会展开，这个"div”的"class“从类似于"something blabla collapsible”变成了"something blabla collapsible active“，这是我可以用我的知识抓取的。我

浏览 1提问于2016-11-22得票数 4

1回答

rbind by for循环从网页抓取

r、for-loop、rbind

我正在尝试从一个网页上抓取数据并对其进行rbind。 1.从网页中抓取数据 for (i in 1:10) { url <- paste0("https://www.nest.co.uk/pendants?page=",i) Pandents <- read_html(url) PanInfos <- html_nodes(Pandents, css = '.fn.name') PanInfos[1] %>% html_nodes('.brand') %>% html_text() 2.提取“品牌” BRAN

浏览 10提问于2017-03-02得票数 0

回答已采纳

1回答

R编程Web抓取

r、web-scraping

我试着从下面的链接中抓取网页，使用R编程中的R背心包。我抓取的链接是我的代码是： library("xml2") library("rvest") url<-read_html("http://dk.farnell.com/c/office-computer-networking-products/prl/results") tbls_ls <- url %>% html_nodes("table") %>% html_table(fill = TRUE)%>% gsub("^

浏览 13提问于2017-12-22得票数 1

2回答

如何使用javascript添加的动态内容爬行webPage

javascript、web-crawlers

我想有消息说Google机器人有能力理解我们的javascript代码。这意味着这是可能的，完全抓取一个网页，其中有延迟加载功能启用。我正在使用Apache来抓取网站，但我认为它没有能力在页面向下滚动时获取HTML页面中注入的URL。我看到很多网站都在为性能问题做延迟加载。那么，请有人解释一下，我如何在懒惰的加载下爬行HTML页面中的数据。(向下滚动页面)。

浏览 0提问于2012-08-31得票数 5

2回答

Xpath从所有表中抓取数据，而不是从我想要的表中抓取数据

python-3.x、web-scraping、xpath

借助问题的答案：，我正在尝试从一个网页上抓取“持股模式”信息。代码如下： import lxml.html as LH import pprint import requests def screenerdata (symbol): with requests.Session() as sess: resp = sess.get('https://www.screener.in/company/'+symbol+'/consolidated/') root= LH.fromstring(resp.content)

浏览 27提问于2021-12-01得票数 1

1回答

Web-从图表中抓取数据

python、web-scraping

我正在处理来自opensecrets.org的游说数据，特别是行业数据。我希望从90年代开始，每个行业的游说支出都会有一个时间序列。我想要在网上自动抓取数据。数据为以下格式的Urls：它很容易嵌入到循环中，问题是我所需要的数据在网页中不是一种简单的格式。它在条形图中，当我检查图形时，我不知道如何获取数据，因为它不在html代码中。当数据在html代码中时，我熟悉python中的web抓取，但在这种情况下，我不知道如何进行。

浏览 1提问于2019-08-28得票数 0

回答已采纳

4回答

如何从nutch获取html内容

nutch

有没有办法在nutch中获取每个网页的html内容，同时抓取网页？

浏览 1提问于2011-02-26得票数 6

1回答

从动态网页抓取数据时，从Select对象中选择一个选项

python、html、selenium、web-scraping

我正在做一些网络抓取，我想知道如何从下拉框中选择数据并刮掉它。这是页面：正如你所看到的，它是一个动态网页，有一个选项可以显示你想要多少条目。我想要做的是选择最大值(100)，然后再从表中抓取数据。知道我该怎么做吗？下面是一些您可以构建的代码： Firefox = Firefox() Firefox.get(source["Exchange Rates by Currency"]) sleep(30) html = Firefox.page_source html = bs(html,"html.parser") table = html.fin

浏览 2提问于2020-11-10得票数 0

回答已采纳

1回答

运行nutch爬虫时，爬行数据存储在哪里？

web-crawler、nutch

我是Nutch的新手。我需要抓取网页(比如说，几百个网页)，读取爬行的数据并做一些分析。我遵循链接 (以及集成Solr，因为我将来可能需要搜索文本)，并使用几个URL作为种子运行爬行。现在，我在本地机器中找不到text/html数据。在哪里可以找到数据，以文本格式读取数据的最佳方法是什么？版本 apache-nutch-1.9 solr-4.10.4

浏览 2提问于2015-03-30得票数 6

回答已采纳

2回答

如何使用PHP Simple HTML DOM Parser用file_get_contents抓取flash视频和下载视频数据

php、html、flash、dom

我只是在寻找屏幕抓取包含flash视频的网页。在使用抓取网页时，我喜欢抓取嵌入的代码片段并下载视频数据。有人能帮上忙吗？参考可能的帮助：

浏览 0提问于2015-01-19得票数 1

1回答

抓取通过JavaScript呈现的网页。PhtantomJs或其他工具？

javascript、html、web-crawler、phantomjs

我正在构建一个工具来抓取页面并将其html存储在本地。还可以使用iframe在网页上加载该HTML。所以我在抓取的页面上有解除绑定和绑定事件。我正在使用PhantomJS来获取网页数据。通过JavaScript呈现数据的网页不适合爬行。PhantomJs中有什么方法可以做到这一点吗？使用PhantomJs加载页面后获取网页数据的代码如下： PHP代码到shell执行phantomJs命令 $shelldata = exec(PHATOM_JS_PATH."bin/phantomjs ".PHATOM_JS_PATH."/phantomcode.js $WEB_U

浏览 0提问于2019-04-03得票数 1

1回答

建议在R中使用Sys.sleep()

r、sleep、rvest、sys

我正在使用R包rvest抓取数千个网页。为了不使服务器过载，我给Sys.sleep()函数计时了5秒。它的工作原理很好，直到我们达到了一个值~400个网页刮过。但是，除了这个值，我什么也得不到，所有数据都是空的，尽管没有抛出错误。我想知道是否有可能修改Sys.sleep()函数，使350个网页每个刮5秒，然后等待5分钟，然后再继续350个网页.诸若此类。我正在检查Sys.sleep()函数文档，只有time作为参数出现。那么，如果这个函数不可能完成这个任务，那么在抓取大量的页面时，是否还有其他的可能或功能来处理这个问题呢？用示例更新这是我代码的一部分。对象links由8000多个链接

浏览 0提问于2018-10-13得票数 0

1回答

使用rvest和for循环进行高效抓取

r、for-loop、web-scraping、rvest

我正在尝试使用rvest来收集大量的辩论。辩论发生在不同的网页上，我从搜索结果中收集这些网页的urls。有超过1000页的搜索结果，其中有20,000页的辩论(即20,000个urls)。我目前的方法成功地从辩论页面中抓取了我需要的数据，然而，对于任何超过20页的搜索结果(即20,000个urls中只有400个)，处理过程需要非常长的时间。我目前正在使用一个forloop，它遍历我的urls列表，并用我需要的内容抓取5个html节点(见下文)。这将为我抓取的每个内容节点创建一个向量，然后将其合并到一个数据帧中进行分析。我认为这种方法意味着对于我需要的不同的html节点，我分别调用每个网页

浏览 18提问于2019-12-11得票数 1

1回答

如何在R中保存列表列表？

r、rvest

我在一个列表中存储了一些我用rvest::read_html收集的网页。现在我想保存这个很大的网页列表，以便以后使用(这样我就不必再次抓取数据)。我尝试过saveRDS，但生成的文件只有1kb，读回数据会导致崩溃。我怀疑我试图保存的对象的动态特性会妨碍我的工作。保存数据的最佳方式是什么？非常感谢您的帮助！

浏览 7提问于2016-07-28得票数 1

1回答

从Android中的url获取异步加载的html (通过ajax)

javascript、php、android、html、ajax

我想从网页中抓取数据，并将其显示在我的Android应用程序中。问题是，我想要从HTML中获得的元素必须首先由ajax调用创建。因为数据是通过Javascript加载的，所以我的方法是使用Webview返回HTML。我在这里使用jluckyiv概述的方法：然而，我意识到这并不起作用，因为当javascript完成运行时，ajax调用还没有返回。有什么解决方案吗？我没有权限修改网页上的代码。

浏览 0提问于2013-11-08得票数 0

2回答

优美汤对象不包含来自网页的完整表，而是抓取前100行。

python、parsing、web-scraping、beautifulsoup

我试图从spotrac.com网站上抓取表格，并将数据保存到熊猫的数据中。无论出于什么原因，如果我正在抓取的表超过100行，则对象只会抓取表的前100行。如果您在下面运行我的代码，您将看到生成的数据只有100行，并以"David“结尾。如果您访问网页()和ctrl+F "David“，您将看到还有其他行。如果您将代码的get行中的网页更改为"“，您将看到同样的事情发生了。只有前100行包含在BeautifulSoup对象和dataframe中。 import pandas as pd import requests, lxml.html from bs4 import

浏览 5提问于2020-07-01得票数 0

回答已采纳

1回答

R:使用rvest从FIFA抓取表时出现的问题

r、web-scraping、dplyr、rvest

我试图从过去30年中至少参加过一次世界杯的每一支球队中收集数据。我对如何使用R包rvest从web上抓取表格和其他东西的知识充其量也是最基本的。目前，我的代码看起来像这样 library(rvest) library(dplyr) fifadata <- read_html("http://www.fifa.com/fifa-tournaments/teams/association=BRA/index.html") fifa_data_html <- html_nodes(fifadata, xpath='/html/bod

浏览 1提问于2017-11-22得票数 0