在2个ul标签之间抓取数据

，可以通过使用HTML解析库或者正则表达式来实现。

如果使用HTML解析库，可以使用Python中的BeautifulSoup库或者Java中的Jsoup库。以下是使用BeautifulSoup库的示例代码：

from bs4 import BeautifulSoup

html = '''
<html>
<body>
<ul>
  <li>数据1</li>
  <li>数据2</li>
  <li>数据3</li>
</ul>
<ul>
  <li>数据4</li>
  <li>数据5</li>
  <li>数据6</li>
</ul>
</body>
</html>
'''

soup = BeautifulSoup(html, 'html.parser')
ul_tags = soup.find_all('ul')

for ul_tag in ul_tags:
    li_tags = ul_tag.find_all('li')
    for li_tag in li_tags:
        print(li_tag.text)

输出结果为：

数据1
数据2
数据3
数据4
数据5
数据6

如果使用正则表达式，可以使用相应语言的正则表达式库进行匹配。以下是使用Python的re库的示例代码：

import re

html = '''
<html>
<body>
<ul>
  <li>数据1</li>
  <li>数据2</li>
  <li>数据3</li>
</ul>
<ul>
  <li>数据4</li>
  <li>数据5</li>
  <li>数据6</li>
</ul>
</body>
</html>
'''

pattern = r'<ul>(.*?)</ul>'
matches = re.findall(pattern, html, re.DOTALL)

for match in matches:
    li_pattern = r'<li>(.*?)</li>'
    li_matches = re.findall(li_pattern, match)
    for li_match in li_matches:
        print(li_match)

输出结果同样为：

数据1
数据2
数据3
数据4
数据5
数据6

以上是在2个ul标签之间抓取数据的方法，可以根据具体需求选择合适的方法进行实现。

在2个ul标签之间抓取数据

python、html、web-scraping、html-parsing

嗨，我正在尝试在标签之间来回移动。下面我附上了我想刮掉的源代码的一部分。如果你仔细看，有3个ul标签。第一个ul标记的class = "listGroup“。我正在尝试提取第二个"ul“标记的文本，使用的想法是它后面跟着另一个具有类"listGroup”的"ul“标记。请分享我如何做到这一点。<ul class="listGroup" id="ul</

浏览 23提问于2020-06-26得票数 0

回答已采纳

3回答

如何将元素封装在jQuery中的十几个元素中

jquery

假设使用.wrap()可以在上包装一个标记--一个元素，但是我想在十几个元素之间包装一个标记。我怎么能这么做？<li></li> <li></li></div><div class="jw_playlist_playlist">

浏览 0提问于2012-03-15得票数 1

回答已采纳

1回答

如何使用BeautifulSoup抓取ul=class的前3个<li>元素？

python

我正在使用以下脚本来收集信息以创建邮政邮件标签。下面这行代码获取了我需要的所有数据，但也提供了我不需要的两个额外的li元素。a = soup.fi

浏览 1提问于2012-10-06得票数 0

1回答

使用Python/Scrapy/Urllib2进行屏幕抓取似乎被阻止

python、web-scraping、scrapy、urllib2

直到一天前，它一直在工作，但最终解决了一些问题，我去测试它，我得到的唯一一条评论是u“评论不可用”。 breaki = getInformation(369186)在第一个示例中它们中的第一个被提供给脚本以开始抓取。在它有机会转移到另一个game_id之前，它就被打破了在第二个示例中，我使用了一个单一的游戏id

浏览 0提问于2013-12-11得票数 0

3回答

如何选择所有节点的特定头？

python-3.x、xpath、scrapy、css-selectors

每个<ul>标记都包含这个会议的链接。<ul class="publ-list">... 3 ....</ul><

浏览 0提问于2019-04-30得票数 0

回答已采纳

2回答

正则表达式[^<^>]最多匹配6个字符；不匹配7个字符？*

regex、vb.net

我一直在使用regexpal来测试我的正则表达式，我不明白为什么我现在测试的这个表达式失败了。有效的数据是： <p><font size="1" face="Verdana, Arial, Helvetica, sans-serif"><a href="#test1"&

浏览 0提问于2013-12-21得票数 0

3回答

Javascript / jQuery -抓取IMG源

javascript、jquery、screen-scraping

我正在尝试使用Javascript和jQuery库来抓取数据。stuff_found = $(data).find('li'); 但是，如果我尝试使用以下代码从<img>标记获取src，则只返回第一个图像。

浏览 2提问于2013-04-25得票数 2

1回答

phpQuery从空标记获取属性

phpquery

我正在使用cURL和phpQuery的组合从网页中抓取一些内容。在我正在获取的页面中，有以下代码来确定帖子评级： <ul id="thumb_ul" class="star-rating" style="width:60pxli.current-rating')->attr('style');显然，等级是在style属性的<l

浏览 0提问于2010-11-27得票数 2

回答已采纳

1回答

从根据下拉菜单更改的数据表中抓取'li‘标记

python、html、web-scraping

我正在尝试从这个网站上的数据表中抓取数据：我一直无法访问我想要的数据。我试图访问的项目返回的是一个'noneType‘。有没有办法做到这一点？) soup = BeautifulSoup(html_page.content, &

浏览 13提问于2017-08-26得票数 2

回答已采纳

4回答

在Nokogiri中的所有标签之间抓取文本？

ruby、nokogiri

在html标签之间抓取所有文本的最有效方法是什么？<a> hi </a>一堆被html标签包围的文本。

浏览 1提问于2009-10-03得票数 9

回答已采纳

1回答

jquery插件不适用于我的网站，加载更多的项目

javascript、jquery、plugins、jquery-ias

我把我的网站设置成这样： <div class="post post-preview"> <h2 class="post-title">

浏览 1提问于2016-05-03得票数 2

回答已采纳

1回答

从html .NET动态获取所有ul li元素。

我有一个html列表ul li标签元素在里面。我想获取该ul中的所有li元素。在某些情况下，ul元素可能不在那里，并且在某些情况下，可能只有一个li。我该如何处理这个问题并抓取这个内容？

浏览 0提问于2013-04-27得票数 0

1回答

获取两个h3标记之间的所有ul元素

xpath、beautifulsoup、ixmldomelement

下面是元素在页面上的样子：程序和课程是h3标签。我要所有的ul标签在课程和课程之间。下面的XPath给了我所有ul之后的程序：我如何过滤它有唯一的ul，在课程和程序之间。资料来源：

浏览 0提问于2018-03-14得票数 1

回答已采纳

2回答

使用Solr为带有属性的HTML标记建立索引

solr、nutch

我使用Nutch抓取网站，并将抓取的数据推送到solr。现在我想在具有特定属性值的特定标签之间搜索内容。如果我必须写一个插件，我只需要几个方向来处理html标签和属性。

浏览 3提问于2013-06-27得票数 1

2回答

在rails中抓取数据时获取href页面中的内容？

ruby-on-rails、web-crawler、nokogiri

我想从网站上抓取数据。在本网站中：<div> <li><a href="http://.../place2">Place2</a></li></div><div> &

浏览 0提问于2018-03-19得票数 0

2回答

将HTML写入XML文件

html、xml、xml-parsing

我正在做一个项目，让我从页面中抓取HTML，将数据存储在XML中，然后从那里抓取特定标签之间的数据，并将其导出到电子邮件文件中。我一直在通过互联网和stackexchange做研究，以了解试图完成这项任务的基础知识。但是，我猜这可能不像几行代码那样简单，只需几行代码就可以将HTML写成XML。我不是在寻找直接的代码，而是更多地寻找一个大致正确的方向。

浏览 0提问于2015-03-16得票数 0

3回答

如何将带有HTML标记的字符串打印为HTML

javascript、jquery、html、ajax

我正在做一个小项目，我从一个url抓取JSON数据并解析它。这一切都很好，当我尝试将结果打印到我的HTML页面时，出现了问题。我有我需要的数据，而且它附带HTML标签，所以我只想把它放在我的页面上，让它成为我的一天。下面的每次尝试都会显示如下结果 <ul> <li>Place this item in the <strong>Blue Bin</strong>.</li> </ul</

浏览 22提问于2019-01-12得票数 1

1回答

我如何让谷歌索引更改我的网站的关键字？

seo、keyword、title

我已经修改了我的网站的关键字，描述，标题，但谷歌没有索引的新关键字。相反，我发现谷歌正在为旧的那个做索引。

浏览 0提问于2010-12-27得票数 0

2回答

preg_match获取多个

php、regex

我有一个像w/e更多的HTML页面，我需要抓取标签之间的所有数据，而不是第一个。目前我使用的是但它抓住了第一个并停止了。有什么帮助吗？

浏览 0提问于2012-06-11得票数 1

1回答

从导致pdf文件的锚元素中提取信息

python、html、scrapy

我使用Scrapy从网站抓取和刮取数据，主要由html页面和pdf文件组成(我已经修改了IGNORED_EXTENSIONS以允许抓取pdfs)。我需要提取被困在<a>标记之间的文本：显然，我不能执行response.text或response.css在阅读Scrapy文档时，我偶然发现了用于的文档。在“构造函数”中，它有两

浏览 0提问于2016-12-12得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在2个ul标签之间抓取数据

相关·内容

在2个ul标签之间抓取数据

如何将元素封装在jQuery中的十几个元素中

如何使用BeautifulSoup抓取ul=class的前3个<li>元素？

使用Python/Scrapy/Urllib2进行屏幕抓取似乎被阻止

如何选择所有节点的特定头？

正则表达式[^<^>]最多匹配6个字符；不匹配7个字符？*

Javascript / jQuery -抓取IMG源

phpQuery从空标记获取属性

从根据下拉菜单更改的数据表中抓取'li‘标记

在Nokogiri中的所有标签之间抓取文本？

jquery插件不适用于我的网站，加载更多的项目

从html .NET动态获取所有ul li元素。

获取两个h3标记之间的所有ul元素

使用Solr为带有属性的HTML标记建立索引

在rails中抓取数据时获取href页面中的内容？

将HTML写入XML文件

如何将带有HTML标记的字符串打印为HTML

我如何让谷歌索引更改我的网站的关键字？

preg_match获取多个

从导致pdf文件的锚元素中提取信息

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐