R:在web抓取多个页面时获取选择器的问题_使用R在多个页面上进行Web抓取_R在多个页面上进行web抓取图表 - 腾讯云开发者社区

r、web-scraping

我试图在多个页面中获取网页抓取的分数，遗憾的是，我在选择器中遇到了问题(我使用了SelectorGadget，但没有成功)。我已经成功了，只有个人网页抓取 library(rvest) points <- read_html("https://www.winemag.com/buying-guide/lagar-de-bezanaaluvion

浏览 13提问于2020-01-24得票数 0

回答已采纳

1回答

使用python从同一网页中的多个链接中提取数据

python、web-scraping、beautifulsoup、python-requests

我是蟒蛇和网络抓取的新手。测试索引有用于各种临床测试的测试组件的名称列表。单击每个名称将带您到另一个页面，其中包含有关单个测试组件的详细信息。我想从这一页中提取出有共同问题的部分。最后，将包含测试组件名称的数据框架放在一列中，将常见<

浏览 1提问于2018-01-19得票数 0

2回答

如何从flipkart审查页面中获得正确的选择器以进行web抓取？

python、xpath、web-scraping、scrapy、selector

评论位于具有多个类“行_3wYu6I _3BRC7L”的选择器中。但是在抓取时，响应没有上面的选择器，而是有"row _3wYu6I _1KVtzT“selector.And --这个选择器有空的list.Actually -- flipkart页面中所有值为"_3BRC7L”的类都被转换成具有值"_1KVtzT“的类，以响应我完成的

浏览 5提问于2016-11-10得票数 1

回答已采纳

2回答

Twitter API vs Web抓取？

ruby-on-rails、ruby、twitter、nokogiri、mechanize-ruby

首先，我想获得我twitter账户的所有追随者。我做了一点研究，发现我们可以用Ruby on rails做web抓取，使用: Nokogiri或Mechanize gem。我还得到了一个css选择器，用于web抓取。现在，如果我查找HTML页面源代码，它不会显示该帐户的所有追随者。我真的可以使用web抓取代码来获取我所有的twitter追随者，还是应该使用Twitter API？

浏览 2提问于2012-11-08得票数 0

回答已采纳

1回答

我不能用bs4提取帖子的instagram标签

python-3.x、web-scraping、beautifulsoup、python-requests、instagram

我想使用BeautifoulSoup4从特定的帖子(给定url)中提取hashtag。首先，我使用请求获取页面，并尝试使用find_all()获取每个哈希标记，但似乎存在一个隐藏的问题。utm_source=ig_web_copy_link' soup = bs(r.content,'html.parser') items = soup.find_all(&#

浏览 1提问于2020-06-25得票数 0

回答已采纳

2回答

Web抓取R中的多个页面

r、for-loop、web-scraping、rvest

我是新来的R，我希望得到一些帮助。我试图从一个关于狗品种的网站上搜集数据。每个品种配置文件的url有一个的基础，然后添加到这个品种的名称(例如)上。我已经成功地使用以下代码为一个品种的数据，但我现在想收集所有392品种的数据在网站上，并将结果存储在一个数据框架。我想，我将需要使用一个for循环来运行每个不同的url为个别品种，但我不知道我将如何写这个，鉴于'i‘

浏览 7提问于2021-12-18得票数 0

1回答

Chrome或Firefox中的模式:如何获得对象的CSS全选择器？

javascript、html、css-selectors、google-chrome-devtools、firefox-developer-tools

当我打开Web工具并检查页面时，有时我希望选择一个元素并复制它的CSS选择器(即获取整个文本)。由于某些原因，该框中的文本不可选，右击不显示任何菜单或选项。有没有办法抓取或导出文本，以便在代码中进行处理？

浏览 1提问于2021-01-21得票数 1

回答已采纳

1回答

使用大型搜索引擎API之一获取搜索结果的数量

php、api、bing

我正在寻找一种方法来检索给定查询的搜索结果(如在google结果页面上)的数量。其目标是使用搜索api实现标准化的google distance ()；主要问题是请求的数量不应该太有限(google api似乎每天只允许大约100个查询)。

浏览 3提问于2012-05-28得票数 0

1回答

如何在NodeJS中通过值获得元素的CSS选择器？

javascript、node.js、dom、css-selectors、cheerio

我正在用Node编写一个网络抓取器，并考虑使用像Cheerio或JSDom这样的模块来将HTML解析成一组URL的DOM。然而，我有一个特定的功能是必要的。我的目标是构建一个可以在一个网站上抓取多个相似页面的抓取器，以获取几个关键信息。但是，我有一些包含这些信息的样本数据，我想使用它们为这些页面动态构建一个模型，然后使用该模型抓取</em

浏览 14提问于2017-01-25得票数 2

2回答

使用CSS选择器查找存储在javascript元素中的某些数据

javascript、css、perl、web-scraping、selector

我正在做一些网络抓取(与网站所有者的ok )，并遇到了一些数据，当滑块移动时更新。问题是这些数据在某个javascript中。我使用的是perl Web::Scraper，它同时允许CSS选择器和xpath选择器，但我似乎就是无法分离出javascript。我尝试过属性选择器；scriptsrc="path_to.js“普通节点选择器'script‘和绝对css path -它

浏览 0提问于2013-08-08得票数 0

2回答

是否需要为每个目标站点编写抓取器？

python、html、web-scraping、beautifulsoup、html-parsing

我是个刮东西的新手。我写了一个刮板它将擦伤 Maplin 商店。我使用Python语言和BeautifulSoup来抓取存储。我想问的是，如果我需要清理一些其他的eCommerce商店(比如亚马逊、Flipkart)，我是否需要定制我的代码，因为它们具有不同的HTML ( 和名字是不同的，另外还有其他东西)。所以，我写的刮板不适用于其他eCommerce商店。我想知道比价网站是如何从所有在线商店中抓取数据的？

浏览 40提问于2014-12-28得票数 7

回答已采纳

3回答

从Morningstar网站抓取财务数据

python、json、beautifulsoup

我正在尝试从下面的morningstar网站上获取数据： import requests, os, bs4, string soup = bs4.BeautifulSoup(c, "h

浏览 3提问于2016-02-27得票数 3

1回答

从SQL中选择行，忽略多重时的限制

sql、database、salesforce

我试图从我的表中获取一些数据，但我担心它可能会被多个部分破坏。我的意思是，为了运行时的目的，我在选择的末尾有一个带有LIMIT 100子句的LIMIT 100选择器。然而，有一种可能性，因为这个限制，它不会获取所有相关的信息，这意味着下次我运行这个过程时，它会抓取所有其他的，现在我有两个摘录指向一个帐户。这是我写的。SELEC

浏览 5提问于2022-10-28得票数 0

回答已采纳

2回答

数据挖掘，用于收集网站的详细信息并放入CSV或SQL中

data-mining

我看过ABC网站，上面也列出了商店，但只在澳大利亚。他们是一页一页的，没有ID。我如何开始编写一个程序，它将抓取他们的页面，并将页面的选择性信息放入CSV格式，然后我可以将其导入到我的网站中？

浏览 9提问于2011-03-26得票数 0

回答已采纳

1回答

Ruby on Rails从另一个站点拉取信息

html、ruby-on-rails、ruby、database

我有一个ruby on rails项目，在那里我必须制作一个新闻页面，但我不想只是将文章放在数据库中(这将花费太长时间)，无论如何，您可以从另一个网站提取信息，并将其显示在您自己的网站上。

浏览 0提问于2013-06-27得票数 0

回答已采纳

1回答

Python3抓取网爬虫

html、python-3.x、web-scraping、scrapy、web-crawler

对于我的工作，我必须写一个爬虫，它只保存页面的标题，交付状态和产品的数量。以下是我的默认蜘蛛代码： name = "quotes" f.write(response.body)我需要一个只包

浏览 2提问于2020-07-20得票数 0

回答已采纳

2回答

使用XMLHttpRequest时，单源策略妨碍了我

javascript、xmlhttprequest

这是我的情况--我在一个允许API访问的站点上有一个帐户。因此，从理论上讲，我可以编写一个程序来通过它的API查询站点。我想建立一个使用javascript的本地html页面，它显示了从API调用这个网站返回的一些结果。我的第一个想法是使用XMLHttpRequest，它不会从站点返回任何内容--这是由于单一来源策略造成的已知问题。我无法控制API返回的内容--要么返回XML，要么什么都不返回。我

浏览 4提问于2013-11-11得票数 0

1回答

从具有跨越多个页面的表格的网页中抓取信息

r、web-scraping、rvest

我正在使用R中的rvest包，我想从一个只包含大约40%的总信息的表中抓取一些数据。我关注了HTML，但它没有指定当不同页面的地址没有差异时如何抓取数据。我正在尝试从获取一些工作列表数据。我已经使用以下代码成功地检索了第一页上的数据： read_html( ) data_raw <- job_page %>%

浏览 2提问于2018-06-20得票数 0

1回答

无法使用请求从网页中抓取两个字段

python、python-3.x、web-scraping、beautifulsoup、python-requests

我试图使用请求从这个中抓取两个字段。我使用了精确的选择器来定位内容，但是我无法获取它们，因为它们是动态生成的，在页面源中不可用。但是，我使用选择器作为占位符。我知道如何使用selenium抓取这两个字段，但我想知道如何使用请求获取它们。我要找的领域：我试过：from bs4 import BeautifulSoup url = "https:

浏览 0提问于2020-05-18得票数 0

回答已采纳

2回答

android:使用webview仅显示页面的一部分

android、webview

我试图在WebView中只显示页面的一部分，例如。从html代码的第400行到第600行。(这部分包含我想要显示的网页上的数据框架)提前感谢！

浏览 5提问于2012-05-17得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云