使用R中的url列表进行Web抓取_使用R进行web抓取_使用R进行Web抓取多个链接 - 腾讯云开发者社区

r、url、screen-scraping

我正在尝试从我收集的多个网站中抓取一些URL。我将已经收集的网站保存在一个名为meetings2017_2018的数据帧中。问题是，除了URL的第一部分：https://amsterdam.raadsinformatie.nl之外，URL看起来并不是很相似。urls的第二部分保存在数据帧中。web_scrape <- function(m

浏览 21提问于2019-03-18得票数 0

回答已采纳

1回答

使用R进行web抓取

r、web-scraping、rvest

我需要从很多这样的网页中获取列表：我尝试过使用几个R包，比如rvest和XML，但没有弄清楚如何工作。有人能帮我解决这个问题吗？非常感谢。

浏览 5提问于2020-02-17得票数 1

回答已采纳

1回答

使用R进行Web抓取

r、web-scraping、rvest

我正在试图从复制医院列表、地址和电话号码。我使用的代码是：library('rvest')chi <- html_text(chihtml)library(stringr) chi <- str_r

浏览 2提问于2016-03-21得票数 1

回答已采纳

1回答

网络抓取是安全的吗？

windows

我正在为Alexa世界排名第一的网站进行网络抓取和数据挖掘。我不认为使用一个像样的抓取/ web请求库来进行网络抓取是安全上的</em

浏览 0提问于2020-12-26得票数 0

1回答

从URL列表中使用Selenium进行Web抓取

python、selenium、web-scraping

我在一个csv文件中有一个urls列表，我想从中抓取内容。csv有200个以上的urls。我正在运行的代码是选择第一个url，然后失败。csv_writer = csv.writer(f)urls = [url.strip() for url in f.readlines(

浏览 3提问于2021-06-10得票数 0

1回答

web爬虫如何构建URL目录以抓取所需内容

web、web-scraping、web-crawler、search-engine

我在试着了解网络爬行是如何工作的。有三个问题：有没有用python编写的开源web爬虫？哪里是学习更多关于网络爬虫的最好的地方？

浏览 2提问于2018-10-11得票数 1

2回答

使用R、内容进行Web抓取

r、web、html-parsing、screen-scraping、rvest

我刚开始在R中进行网络抓取，我把下面的代码： html_text() 以获取我在文本文件中输入的所需内容。我的问题是我想消除这些红点，但我不能。你能帮帮我吗？我认为这些点正在取代html代码

浏览 4提问于2017-05-07得票数 3

回答已采纳

3回答

并行处理urls集合并返回IEnumerable

c#、parallel-processing、web-scraping、system.reactive

我有一个用于抓取的urls集合，我想并行下载资源，同时返回一个强类型结果的集合。拥有一个WebClient.DownloadString()和一个"MyTypedResult Process(string s)“List<MyTyp

浏览 0提问于2013-02-07得票数 2

回答已采纳

3回答

如何在python中并行抓取多个html页面？

python、django、multithreading、beautifulsoup、python-multithreading

我正在用Django web框架用Python制作一个网络抓取应用程序。我需要用漂亮的汤库抓取多个查询。下面是我写的代码的快照： r = requests.get(url) links= soup.find_all("a", {"class":&qu

浏览 0提问于2017-05-29得票数 2

1回答

WebScraping Aliexpress -延迟加载

python、selenium、beautifulsoup

我正在尝试使用Selenium和Python对Aliexpress进行web抓取。我是按照youtube的教程来做的，我遵循了每一个步骤，但我似乎就是不能让它工作。我尝试使用requests，BeautifulSoup也是如此。但是Aliexpress似乎在他们的产品列表中使用了惰性加载器。我尝试使用窗口滚动脚本，但它不起作用。看起来内容在我亲自滚动之前是不会加载的。这是我想要<

浏览 0提问于2021-04-07得票数 0

1回答

使用R-非表内容/列表进行Web抓取

html、r、web-scraping、rvest

我试图从这个网站上删除复合同义词列表：dl <- read_html("https://pubchem.ncbi.nlm.nih.gov/compound/440917#section% html_text()} 我希望能够对来自PubChem的多个化合物这样做，所以我使用了一个函数。根据网站

浏览 1提问于2022-07-21得票数 0

回答已采纳

4回答

如何在抓取的CrawlSpider中访问特定的start_url？

python、django、scrapy

我正在使用Scrapy，特别是Scrapy的CrawlSpider类来抓取包含某些关键字的web链接。我有一个相当长的start_urls列表，它从一个连接到Django项目的SQLite数据库中获取条目。我想将抓取的web链接保存在此数据库中。所有抓取的网页链接都是start_urls列表中的</em

浏览 1提问于2012-05-15得票数 7

回答已采纳

2回答

我不能抓取每个链接内容的具体时间段从确实

python、selenium、selenium-webdriver、web-scraping、selenium-chromedriver

我是python和web scraping的新手。您的帮助我们将不胜感激。我在编程和练习方面是新手。我正在使用python和selenium进行web抓取。我正在试着从事实上抓取数据。目标是找到过去24小时内发布的所有工作，并刮刮外部链接，这是在工作详细信息页面上与链接文本“申请公司网站”，标题，公司，名称，位置，工作描述。我写了以下代码，但是它正确地获取了页面上的所有链接，然后当我试图打开每个链接时，它只打开了第

浏览 33提问于2020-07-15得票数 1

回答已采纳

1回答

使用R进行Web抓取多个链接

r、web-scraping、lapply、rvest

我正在开发一个网页抓取程序，用于从多张工作表中搜索数据。下面的代码是我正在使用的一个示例。我只能得到关于这个的第一张纸。如果有人能指出我的语法错误在哪里，那将是非常有帮助的。finaldf <- do.call(cbind, dflist) 下面是链接，我需要从那里抓取有127页的数据。

浏览 1提问于2017-07-19得票数 0

1回答

使用R进行web抓取，单击链接

r、web-scraping、rvest

我是一个初学者，我想刮所有的文章与所选的关键字从页面上。我只能抓取单个页面上显示的文章标题，文章描述及其链接的一部分。我不仅想抓取搜索结果，还想抓取每个显示的链接的内容。网址：url<- "http://search.time.com/?site=time&q=bitcoin" webpage <- read_html(url

浏览 2提问于2018-02-22得票数 2

3回答

使用rvest和R进行Web抓取

r、web-scraping、rvest

我试图通过网络从那里获取特定基金的总资产，在这种情况下是ADAFX。但是结果总是charecter (空)；我做错了什么？我以前使用过rvest，结果好坏参半，所以我觉得有时间从值得信赖的大师社区(那就是你)那里获得专家的帮助。library(rvest) url <-Paste("http://www.morningstar.com/funds/xnas/",S

浏览 18提问于2017-02-21得票数 0

回答已采纳

1回答

从表中通过网络抓取链接

python、regex、web-scraping、data-science

我想从网上抓取的链接和他们各自的文本从一个表。我计划使用正则表达式来完成此任务。假设在这个页面中我有多个<a href="url_i">text_i</a>标记。我想把所有的text_i放到一个列表中，然后把所有的href放到一个单独的列表中。我有： web = requests.get(url) w

浏览 15提问于2020-09-16得票数 1

1回答

使用data.frame Rvest中的循环在R中进行Web抓取

r、web-scraping、rvest、stringr

所以我有一个我想在R Studio中抓取的url列表"https://www.ebay.in/sch/i.html?_nkw=Mobile+Phones&_pgn=2&_skc=10&_skc=1800&rt=nc"library

浏览 0提问于2018-05-01得票数 1

1回答

当URL不改变时，您如何使用R进行web抓取？

r、web-scraping、rvest

我需要一些帮助刮多个网页，因为所有的URL类似于第一页。请提出一个解决办法。webpage <- read_html("http://www.yellowpages.com.sg/search/all/legal")glimpse(df) write_c

浏览 1提问于2018-02-15得票数 0

回答已采纳

4回答

用web抓取来填写(和检索)搜索表单？

forms、search、screen-scraping、doi

我想知道是否有可能“自动化”输入条目以搜索表单并从结果中提取匹配的任务。例如，我有一个想要获取DOI(数字对象标识符)的期刊论文列表；为此，我将手动转到期刊文章搜索页面(例如，)，键入作者/标题/卷(等)。然后从返回的结果列表中找到文章，选择DOI并将其粘贴到我的参考列表中。我经常使用R和Python进行数据分析(我的灵感来自于RCurl上的一

浏览 1提问于2009-07-23得票数 8

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云