如何将网络抓取的段落与维基百科最新的抓取标题配对

文章/答案/技术大牛

发布

1回答

python、python-3.x、web-scraping、beautifulsoup

我目前正在抓取维基百科的页面，以找到每一段，然而，我也抓取所有的标题，以便我可以把两者放在一起。然后，我将通过摘要程序发送它们，以获取重要信息。我正在尝试将每个标题与相关段落配对，但是，如果每个标题有多个段落，它就不会知道这一点，当我将所有信息写入文本文件时，它会将一个标题放入另一个段落，而不考虑它们是否相互关联。我不确定我需要的是不是很清楚，所

浏览 15提问于2020-01-10得票数 1

回答已采纳

1回答

使用PHP cURL从维基百科API中提取段落

php、parsing、curl、mediawiki、wikipedia-api

下面是我使用维基百科(MediaWiki) API - 试图做的事情我只能停留在#3上，我可以看到一堆JSON数据，这些数据在段落之间包括&qu

浏览 1提问于2010-05-21得票数 5

回答已采纳

1回答

R: Webscraping抓取不规则的值块

r、web-crawler、rvest

因此，我试图在网页上刮起一个不规则数据块的网页，这些数据是以一种易于用眼睛识别的方式组织起来的。让我们想象一下我们在看维基百科。如果我从以下链接的文章中抓取文本，我将得到33个条目。如果我只抓取标题，最后只得到7(参见下面的代码)。这一结果并不令我们感到惊讶，因为我们知道，条款的某些部分有多个段落，而其他部分只有一个或没有段落文本。我的问题是，我如何把我的标题和我

浏览 2提问于2015-07-21得票数 2

回答已采纳

2回答

如何在Python中获得两个div元素之间的HTML

python、html

我试图刮掉维基百科的所有段落，这些段落介于页面的主标题和目录之间。我注意到它们总是介于两个div元素之间，如下所示： <p>...</div> 我想抓取两个div元素(不仅仅是文本)之间的所有HTML，寻找Python的解决方案。

浏览 3提问于2016-11-03得票数 0

回答已采纳

1回答

Ruby Nokogiri订购的HTML标签

html、ruby、parsing、nokogiri

背景:我正在开发一个简单的网络抓取器，用于学习目的。我正在尝试从关于<h2>编程语言的维基百科页面中抓取主标题<h3>和副标题Ruby元素。我可以单独访问其中的每一个，但我想以一种可以替换任何维基百科文章的方式来编写我的代码。主要问题:我正在寻找一种方法来列出位于页面上<h2>元素之间的所有<h3>元素。基本上，我

浏览 6提问于2020-10-28得票数 0

回答已采纳

1回答

使用mysql查询删除相似条目

mysql

我编写了一个从网站抓取新闻标题的网络抓取器，但有时出版商会犯一些错误&编辑标题，但当时我的抓取器已经在我的数据库中创建了以前标题的条目，并为新标题创建了一个新条目，新标题与旧标题相似(90-95%相同)，所以我想从数据库中删除旧条目，只保留最新的条目我正在考虑用cron作业检查这一点

浏览 0提问于2018-04-02得票数 0

1回答

忽略Python中用于web抓取的特定标记

python、html、web-scraping

我对网络抓取和HTML很陌生。我打算从一个随机生成的维基百科文章中抓取第一段内容(其中包含文章的介绍)。etr=soup.find('div',class_='mw-parser-output')这没有显示某些维基百科文章的预期输出，这些文章包含一个额外的行。<p class="

浏览 4提问于2021-05-26得票数 1

回答已采纳

2回答

获取浏览器的最新版本

python、api

我想知道，有什么API可以用来获取浏览器的最新版本号吗？(Chrome，Firefox，Opera，Safari)为了从维基百科获得每个浏览器的稳定版本，我在python中尝试了网络抓取方法。然而，我正在寻找一种更有效的方式来检查客户端浏览器。如果有人能帮我解决这个问题，我会很感激的。

浏览 1提问于2022-06-06得票数 0

1回答

PHP中的段落比较

php、text

假设我有一个从网络上抓取文章的网页。我得到的都是纯文本的标题和文章。是否有PHP脚本或them服务可以将它们之间的文章关联起来？或者..。有没有PHP脚本可以从段落中生成关键字？我已经用JAVA测试了一个可以工作的脚本，但也许有一个PHPclass可以帮助我…… 谢谢!

浏览 0提问于2011-01-19得票数 0

回答已采纳

1回答

将大量维基百科表刮到MySQL数据库的最佳方法

mysql、sql、screen-scraping、wikipedia

什么是抓取维基百科主要文章页面中所有HTML表格的最佳编程方法，其中页面标题与某些关键字匹配？然后，我想把列名和表数据放到数据库中。还会获取URL和页面名称以进行属性设置。我不需要细节，只需要一些推荐的方法或者一些教程的链接。

浏览 8提问于2013-07-31得票数 0

2回答

请求nodejs获取不可读数据

node.js、utf-8、request、scrape

我正在尝试使用node.js上的库请求来抓取html。响应代码是200，我得到的数据是不可读的。下面是我的代码： uri: 'https://www.wikipedia.org', console.log(body

浏览 0提问于2019-12-10得票数 0

1回答

网络抓取在反应-本机ios？

javascript、ios、iphone、react-native

我正在建立一个iOS应用程序与反应-本机，并希望做一些网络刮擦。根据我的理解，传统的npm包不起作用，因为它们依赖Node.js。我知道有一些用于web抓取的目标C/Swift库，但我不明白如何将它们集成到一个react原生组件中。谁有任何想法，如何从一个网站(网络抓取)的反应-本地信息？

浏览 1提问于2015-09-24得票数 4

回答已采纳

1回答

从Facebook页面抓取最新10张照片的最佳方式是什么，拥有超过10,000个赞？

php、facebook

我需要用PHP创建一个脚本，自动从Facebook页面(例如：)抓取超过特定数量的赞(例如: 10,000)的最新10张图片。我想每小时运行脚本，以确保我抓取所有的图片与他们的标题。我不认为这是以前做过的事。在你看来，解决这个问题的最佳方法是什么？我想我有三个选择：通过Facebook获取数据

浏览 2提问于2013-03-21得票数 0

回答已采纳

1回答

带表头数据的烧瓶网刮板问题

python、beautifulsoup

我正试着制作一个网络刮刀来获取游戏标题信息。目前，我正在从维基百科的ps4游戏列表中抓取。我这么做是因为我正在努力学习如何将脚本(如网络刮刀)合并到一个烧瓶项目中。我的工作非常好，但我无法获得<thead>数据。列名列在这里，我希望将这些列添加到我生成的csv文件中。我想，通过试图锁定<hr>标记，我可以得到我需要的东西，但它不能很好地工作。这是我的最新尝试

浏览 3提问于2020-11-12得票数 0

1回答

如何从url中抓取前n段

html、python-3.x、web-scraping、beautifulsoup

我对网络抓取非常陌生，我真的很难从网址中提取一些段落。我正在尝试打印封面页和短摘要标题下的所有段落。但我的计划不起作用。这是我的代码：from urllib.parse import urlparse import bs4'p').get_text()) elif(x.get(id) == "Short Summary&

浏览 1提问于2017-09-02得票数 3

回答已采纳

1回答

R中的XML :在存储祖先信息的同时提取节点

r、xml、web-scraping

我在一个网络抓取项目中遇到了困难。我的问题是，我需要提取许多节点的信息，同时保存它们的祖先的信息。例如，如果我想获取维基百科页面中所有项目符号列表中的所有项目，我可以这样做： library(httr)par = htmlParse

浏览 8提问于2019-01-23得票数 0

回答已采纳

2回答

我在试着刮掉维基百科上的“基因组”页面我只想抓取像“术语的起源”，“测序和绘图”，“病毒基因组”，“原核基因组”，“真核基因组”之类的小标题，包括下面的子标题，基因组大小，等等。headers = read_page_soup.find_all(re.compile(r'h\d+')) return headers 问题是，无论我如何具体地过滤掉我的标签，我仍然可以从导航菜单中获得相同的结果当我将

浏览 30提问于2021-03-17得票数 1

3回答

带有webview项目的listview是否适用于新闻应用程序？

android、listview

我正在构建一个应用程序，抓取某个网站，并在列表视图中呈现最新的新闻，html格式与图像，标题和摘要。当用户单击一行时，将显示新闻文章。它的工作原理有点像CNet应用和类似的新闻应用。我对抓取部分没有问题，但我对如何管理摘要列表有疑问。我最初的想法是有一个列表视图，其中每个项目都是一个webview。列表视图由填充了抓取的html内容的自定义ArrayAdapter填充。每个屏幕将显示30篇

浏览 5提问于2011-06-20得票数 2

回答已采纳

1回答

使用BS4维基百科文本(对每个标题与相关段落对)-并将其输出为CSV格式

python、html、csv、web-scraping、beautifulsoup

我想把网络上刮过的段落和维基百科最近刮过的标题放在一起:举个例子，我选择了下面的维基百科--文章：。我目前正在刮维基百科的网页，以找到每一段，然而，我也刮所有的标题，以便我可以把两者结合起来。我试图将每个标题与相关段落配对，但是，我想将其写入csv文件。注意:我们有以下(段落中的) h2标题：

浏览 6提问于2022-04-30得票数 1

回答已采纳

3回答

html5中显示新闻列表的最佳实践

css、html

在我的页面中，我只需要列出标题的最后一条新闻。

浏览 2提问于2015-01-17得票数 0

回答已采纳

点击加载更多