从维基百科表中抓取数据_从维基百科中抓取条目列表_从R中的维基百科抓取表格 - 腾讯云开发者社区

python、pandas、beautifulsoup、wikipedia

我只是想把维基百科表格中的数据整理成一个熊猫数据框。我需要复制三列：“邮政编码，自治市，邻里”。

浏览 26提问于2019-02-27得票数 0

回答已采纳

1回答

通过R实现维基百科上的Sumbit查询

我正在尝试开发一个R脚本，它接受一个字符串，并将其提交到维基百科搜索框中。在到达该字符串所在的页面之后，R程序应该从该页面提取所有的表。例如，如果字符串是曼彻斯特联队，R脚本应该在维基百科上提交一个查询，该查询将它带到曼彻斯特联队页面，并提取所有表并将其转换为数据帧。附言:我刚刚开始在R中尝试web抓取，所以如果有任何帮助，我将不胜感激。

浏览 1提问于2014-09-04得票数 0

2回答

从维基百科页面中抓取表数据

python、html

我正在学习如何将BeautifulSoup库与Python一起使用，并且为了实践，我试图从维基百科的页面：中删除体裁标题。在我的代码中，我已经做到了这一点：soup"html.parser") td = table.f

浏览 3提问于2020-10-13得票数 1

回答已采纳

1回答

我想知道是否有人有有用的想法或代码来从维基百科上抓取表格。具体来说，我对维基百科上“各县选举结果”部分的总统选举结果表很感兴趣。可以使用以下链接找到示例表，并向下滚动到“按县列出的结果”部分：https://en.wikipedia.org/wiki/1948_United_States_presidential_election_in_Texas我尝试了以下StackOverflow帖子中的一些解决方案：Importing w

浏览 51提问于2021-06-29得票数 0

回答已采纳

4回答

从多个表维基百科中抓取表

python、html、web-scraping、beautifulsoup

我正试着从这个url 中抓取表。那里有五张不同的桌子。但我的目标是第一张表。它没有太多的标识，那个表只包含这个标识。class="wikitable sortable jquery-tablesorter"My_table = soup.find('table',{'class':'wik

浏览 0提问于2020-09-11得票数 2

回答已采纳

6回答

如何抓取整个维基百科？

java、web-crawler、wikipedia、websphinx

那么，如何抓取整个维基百科呢？有人能给我一些指导吗？我是否需要专门找到这些URL并放置多个起始URL？关于使用WebSphinx的API的教程，谁有好的网站的建议？

浏览 1提问于2010-02-23得票数 8

回答已采纳

1回答

从维基百科提取个人日期数据

wikipedia、dbpedia、wikidata、date

我试图从维基百科中提取出生和死亡数据。我使用过DBpedia和维基数据，但在这个特殊的例子中，日期与维基百科不匹配。为什么会有这种差异？这个日期信息可以通过编程方式从<

浏览 2提问于2019-10-21得票数 2

回答已采纳

1回答

ImportXML解析错误-使用excel工作表抓取维基百科

xpath、web-scraping、google-sheets、google-sheets-formula、google-sheets-importxml

我正在尝试使用ImportXML公式从维基百科网站收集一些数据到excel表格中。这是维基百科的页面。这是我从浏览器XPath选择器中获得的代码。

浏览 12提问于2019-11-10得票数 1

回答已采纳

1回答

如何从维基百科打印表格

python

我正在尝试抓取维基百科网站作为一个小任务，以了解网络抓取。我要抓取的链接是：https://en.wikipedia.org/wiki/List_of_countries_by_population_in_2000 我想根据他们的人口在维基百科链接中列出这些国家的名单我已经签出了HTML标记，该表在class = wikitable中可用。但是当我运行我的代码时，它正在打印其他表的结果，这些<e

浏览 33提问于2019-09-26得票数 0

回答已采纳

2回答

重用Google工作表中导入公式中的数据数组(通过查询语句)

google-sheets、google-sheets-formula

我试图从不同但相同的模式表中检索值列表。然而，我正在努力减少ImportHTML调用次数，因为sheets必须使性能达到最佳。我遇到了一些问题：在新的工作表中，其中A1 = =ImportHtml("https://en.wikipedia.org/wiki/List_of_countries_by_population_(Unit

浏览 4提问于2020-10-07得票数 0

回答已采纳

1回答

将大量维基百科表刮到MySQL数据库的最佳方法

mysql、sql、screen-scraping、wikipedia

什么是抓取维基百科主要文章页面中所有HTML表格的最佳编程方法，其中页面标题与某些关键字匹配？然后，我想把列名和表数据放到数据库中。还会获取URL和页面名称以进行属性设置。

浏览 8提问于2013-07-31得票数 0

3回答

从维基百科抓取数据

web-scraping、wikipedia、wikipedia-api

我研究了一些框架，比如Scrapy，然后我发现有一些网站是专门为维基百科服务的，比如。这两种方法中的任何一种都有什么特定的优势，或者哪一种更适合将信息加载到在线数据库中？

浏览 0提问于2012-09-14得票数 6

回答已采纳

1回答

从各个维基百科页面中抓取特定的表。

r、xpath、css-selectors、rvest

我试图从维基百科(如)中为过去两届奥运会中的每一个国家“竞争对手”，并把它变成一个数据格式。我可以找到每个国家的URL列表，但是当我开始抓取时，我会面临这样的问题:每一页都有一个不同顺序的“竞争对手”表(有时是第一个，有时是第二个)，再加上我可以找到一个唯一的标题来标识该表()。

浏览 2提问于2022-04-20得票数 1

1回答

使用python从维基百科中刮表？

python、pandas、web-scraping、beautifulsoup

我试着从维基百科的页面上抓取表格数据：，我试过使用pd.read_html语法，但它不适用于我试图刮的表(尼泊尔按地区分列的新冠肺炎确诊病例)。我试着用“美丽汤”和“熊猫”来收集数据，但是它不起作用 url = 'https://en.wikipedia.org/wiki/2020_coronavirus_pandemic_in_Nepal'

浏览 0提问于2020-04-06得票数 1

回答已采纳

1回答

我在数据清理方面有一些问题

python、pandas、dataframe、data-cleaning

我已经从维基百科页面上抓取了一个表格，接下来我将清理数据。我已经将数据转换为Pandas格式，现在我在清理数据时遇到一些问题import requestswebsite_url中删除"Not assigned“值： canada=canada.Borough.drop("Not assigned",a

浏览 2提问于2019-04-08得票数 0

1回答

如何使用BeautifulSoup只获取维基百科页面上所有表的第一行数据？

python、web-scraping、beautifulsoup、wikipedia

我正在尝试从维基百科页面中抓取数据。 albumdatasaved = albumdatasaved + "\n" + albumdata[1:] 我只需要每个表的第一行数据

浏览 2提问于2019-04-08得票数 0

回答已采纳

3回答

从维基百科检索音乐艺术家数据？

wikipedia

当涉及到音乐的流派分类时，我发现维基百科比大多数其他数据源拥有更多有趣的流派信息。我似乎记得有一个数据库从维基百科上收集了这类信息，并使其更容易访问，但我今天无法谷歌任何东西。如果我尝试检索此数据，我有哪些选择？有没有像我描述的那样的东西，或者我需要去一个屏幕抓取？

浏览 5提问于2009-01-19得票数 8

回答已采纳

1回答

用php和mysql从维基百科中提取描述和关键词

php、mysql、web-crawler、wikipedia、wikidata

我有一个从维基百科特色文章的所有链接的网页，我提取所有它们的标题，描述和关键字。但我有一个问题，当网络爬虫开始提取文章的内容时，我的数据库中的字段描述仍然是空的，关键字显示“数组数组”。如何提取维基百科文章的描述和关键词？<?

浏览 1提问于2012-11-27得票数 0

4回答

使用XML包将html表抓取到R个数据框中

html、r、xml、parsing、web-scraping

如何使用XML包抓取html表？以上的这个维基百科页面为例。我想在R中读一读，并获得“巴西对国际足联认可球队的所有比赛清单”表作为data.frame。我该怎么做呢？

浏览 9提问于2009-09-08得票数 159

回答已采纳

2回答

抓取器刮不出页面。

r、web-scraping、rcrawler

我正在使用Rcrawler提取维基百科页面的信息框。我有一个音乐家的名单，我想提取他们的名字，道布，死亡日期，乐器，标签等。然后我想创建一个所有艺术家的数据作为行和数据存储为列/向量。

浏览 2提问于2018-07-31得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云