使用beautifulSoup解析复杂的<li>标签_所有来自ul标签的li都使用beautifulSoup_BeautifulSoup解析不返回预期的标签 - 腾讯云开发者社区

python、beautifulsoup

我试图将一些内容添加到带有库的html页面的正文中。 >>> from bs4 import BeautifulSoup >>> doc = BeautifulSoup("<html><head></head><body></body></html>", "html.parser") >>> body = BeautifulSoup("<ol><li>1</li><li>2</

浏览 2提问于2016-02-01得票数 3

回答已采纳

1回答

配置自动关闭标签

python、html、parsing、beautifulsoup

让我们以例子来解释我的问题： from bs4 import BeautifulSoup txt = """

浏览 1提问于2014-04-09得票数 0

回答已采纳

2回答

我正在编写一段用于解析HTML的python代码。这里的目标是在每一行中查找字符串，并更改它们，如下所示：原文："Criar Alerta“ <li><a href="http://..." target="_blank">Criar Alerta</a></li> 预期结果：“创建警报” <li><a href="http://..." target="_blank">Create alert</a></li> 然后，为了

浏览 20提问于2019-06-24得票数 1

回答已采纳

1回答

如何将某些内容从Python的web抓取中排除

python、html、web-scraping

我正在尝试用Python从一个网站上抓取英语问题(我事先已经获得了这样做的许可)；我正在使用BeautifulSoup。英语问题嵌套在标签<div class="question_body">和</div>之间。下面是我的Python代码，它是我用来提取所有英文问题的： import requests import pandas as pd from bs4 import BeautifulSoup for p in range(1,10): web_page = requests.get('https://www.helpteac

浏览 19提问于2020-03-26得票数 0

2回答

获取<li>标记中的数据美丽汤

python、beautifulsoup

在一个ul中有3个li元素。美丽的汤没有显示文字中的李元素。3Li元素包含一个研究所的位置、电话号码和传真号码。 <ul> <li class="spacer"> <span> Location: </span> <br></br> 1500 S. 1st Avenue <br></br> Yuma, AZ 85364 </li>

浏览 4提问于2014-08-23得票数 1

回答已采纳

1回答

美丽汤4 find_all找不到美丽汤3找到的链接

python、web、web-scraping、beautifulsoup

我注意到一个非常恼人的bug: BeautifulSoup4 (package：bs4)通常比以前的版本(package：BeautifulSoup)找到的标签更少。下面是这个问题的一个可重现的实例： import requests import bs4 import BeautifulSoup r = requests.get('http://wordpress.org/download/release-archive/') s4 = bs4.BeautifulSoup(r.text) s3 = BeautifulSoup.BeautifulSoup(r.text) p

浏览 0提问于2013-07-17得票数 0

回答已采纳

2回答

用<strong>标签替换h2标签

python、html、python-3.x、beautifulsoup、html-parsing

我正在尝试编写一些BeautifulSoup代码，它将使用每一段被标记包围的文本，并将标记更改为标记--但是，只有在它只是一行没有其他写/输出文本的情况下。这个是可能的吗？到这个但这种情况将保持不变：我知道下面的方法可以用来转换所有的强者。我怎么才能得到重要的东西？ import BeautifulSoup if __name__ == "__main__": data = """ <html> <h2 class='someclass'>some title<

浏览 1提问于2015-01-27得票数 2

回答已采纳

1回答

Python:在BeautifulSoup中查找在一个窗口机器上正确工作，而在另一个窗口机器上不正确。

python、python-2.7、find、beautifulsoup、attributeerror

我在Python2.7中有以下简单代码，运行在Windows 7机器上： from urllib2 import urlopen from bs4 import BeautifulSoup from HTMLParser import HTMLParser def main(): html_parser = HTMLParser() soup = BeautifulSoup(urlopen("http://www.amazon.com/gp/bestsellers/").read()) categories = [] for catego

浏览 4提问于2015-05-15得票数 1

回答已采纳

1回答

Java匹配<li>，前面没有<br/>

java、regex

标题说，我想，我想匹配所有的</li>标签没有继续<br/>，我的尝试是： ^(?!<br\/>$).*$<li> 但这行不通。有小费吗？

浏览 2提问于2013-08-09得票数 1

回答已采纳

2回答

在Python中获取特定标记之外的数据

python、beautifulsoup

我在BeautifulSoup4中使用Python3.8。我在Windows 10上，我使用PyCharm。我对这个库有点陌生，但我能够管理简单的提取。但是，我有这个HTML代码(我没有做，也不能编辑)： <ul> <li> <span class="def">Achenheim</span> (Région de Mundolsheim, Bas-Rhin) <ul> <li>

浏览 8提问于2022-09-12得票数 2

回答已采纳

1回答

如何使用BeautifulSoup查看闭合标签的总数？

python、beautifulsoup

下面的代码检查是否有一个以上的打开html标签， from bs4 import BeautifulSoup invalid = """<html> <html> </html> </html>""" soup = BeautifulSoup(invalid, 'html.parser') print len(soup.find_all("html")) # prints 2 valid = """<html> <

浏览 0提问于2014-03-02得票数 1

1回答

带有find_all标记名的BeautifulSoup 4

python、beautifulsoup

我试图用BeautifulSoup 4.4.0刮一个camelCase中有标记名的xml文件，而find_all似乎找不到它们。示例代码： from bs4 import BeautifulSoup xml = """ <hello> world </hello> """ soup = BeautifulSoup(xml, "lxml") for x in soup.find_all("hello"): print x xml2 = """ &l

浏览 0提问于2015-07-21得票数 7

回答已采纳

3回答

用BeautifulSoup解析HTML

python、html-parsing、beautifulsoup

我想使用python中的BeautifulSoup模块在网页上阅读一个列表。HTML代码如下： ... <ul id="sidebarmenu1"> <li><a href="Business">Business</a></li> <li><a href="Warfare">Chinese</a></li> </ul> ... 我使用BeautifulSoup解析文档。现在我想循环遍历列表中的元素。因此，我使用next_sibl

浏览 2提问于2013-03-21得票数 2

1回答

使用Python将HTML呈现为纯文本

python、beautifulsoup

我正在尝试用BeautifulSoup转换一大块超文本标记语言文本。下面是一个示例： <div> <p> Some text <span>more text</span> even more text </p> <ul> <li>list item</li> <li>yet another list item</li> </ul> </div>

浏览 0提问于2012-11-12得票数 53

回答已采纳

2回答

Webscraper将不会迭代

python、web-scraping、beautifulsoup

这段代码： from bs4 import BeautifulSoup from urllib2 import urlopen f = urlopen("http://www.groupon.co.uk/").read() bs = BeautifulSoup(f) for tag in bs.find_all('ul', {'id': 'jCitiesSelectBox'}): print tag.li['onclick'] 只打印第一个标签，不打印jCitiesSelectBox中的所有标签，我不

浏览 2提问于2012-05-20得票数 0

1回答

使用BeautifulSoup无法按预期工作的HTML解析

python、html、parsing、beautifulsoup

我正在使用Python3和BeautifulSoup模块4.9.3版本。我试图使用这个包来练习解析一些简单的HTML。我拥有的字符串如下： text = '''<li><p>Some text</p>is put here</li><li><p>And other text is put here</p></li>''' 我使用BeautifulSoup的方式如下： x = BeautifulSoup(text, "html.parser&#

浏览 4提问于2022-02-24得票数 0

回答已采纳

1回答

用pyhton BeautifulSoup将HTML提取到JSON中

python、html、json、parsing、beautifulsoup

问题所在我正试图解析一些HTML块，以便将相关数据存储在JSON对象中，但我很难理解BeautifulSoup对子标记的处理与我的特定需求发生冲突的方式。充分的投入： <p>Here's a paragraph</p> <ul> <li>With a list</li> <li> <ul> <li>And a nested list</li> <li>Within it that ha

浏览 2提问于2022-01-24得票数 -1

回答已采纳

1回答

从基于链接的网站拉取图片

python、html、python-2.7、beautifulsoup

我目前已经准备好了使用BeautifulSoup库来提取html文档中所有图像标签的代码。我想知道在Python中是否有一种方法可以通过图像标记中的link元素指向的图像以编程方式将图像下载到您的计算机上。这是我用来获取网页中所有图片标签的代码。 import urllib2 from bs4 import BeautifulSoup #Retrieve object containing website information page = urllib2.urlopen("http://google.com") soup = BeautifulSoup(page) #Pu

浏览 0提问于2013-04-13得票数 0

回答已采纳

1回答

为什么stripped_string输出没有用逗号分隔？

python、html、beautifulsoup、lxml

我想提取一个特定的br标签(每个li中的最后一个br标签，如li标签中的(text4，text7，text11)： <li class="odd"> text1 <br> text2 <br> text3 <br> text4</li> <li class="odd"> text5 <br> text6 <br> text7 </li> ... <li class="odd"> text8 <br&

浏览 22提问于2020-08-09得票数 0

1回答

不含内标及特殊标签，配以美汤

python、html、web-scraping、beautifulsoup

这可能是一个基本的问题，但我还没有弄清楚。还在学习如何使用漂亮的汤。我正试图解析看起来像 <dl class=""> <div> <ol> <li><label>Tournament Name</label>TCG Saturday</li> <li><label id="tournament_id" data-tournament-id="000002">Tournament ID</label>000002</li&

浏览 1提问于2018-04-12得票数 1

回答已采纳

1回答

打印标签后剩余标签的内容美汤

python、html、python-3.x、beautifulsoup

我刚刚使用li打印了.find_all('li')的所有内容，并且希望在li标记结束后继续打印'p'标记，比如在html开头或中间不打印'p'标记。'p‘标签或最后的剩余标签。请帮帮忙。基本上需要最后的清单-结束标签之后的一切。 from bs4 import BeautifulSoup html_doc = """\ <html> <p> don't need this </p> <li> text i need </li> <li>

浏览 5提问于2022-12-04得票数 0

1回答

让BeautifulSoup以不区分大小写的方式捕获标签

python、html、parsing、beautifulsoup、case-insensitive

我想用BeautifulSoup捕获一些标签:一些<p>标签，<title>标签，一些<meta>标签。但是我想要捕获它们，不管它们的情况；我知道有些站点这样做：<META>和我希望能够捕获它。我注意到BeautifulSoup默认情况下区分大小写。如何以不区分大小写的方式捕获这些标记？

浏览 0提问于2010-07-28得票数 3

回答已采纳

2回答

使用BeautifulSoup，如何只从特定的选择器中获取文本，而不使用子程序中的文本？

python、web-scraping、beautifulsoup、html-parsing

我不知道如何编写BeautifulSoup代码，以便它只给出所选标签中的文本。我得到了更多像它的孩子的文字(伦)！例如： from bs4 import BeautifulSoup soup = BeautifulSoup('<div id="left"><ul><li>"I want this text"<a href="someurl.com"> I don\'t want this text</a><p>I don\'t want this e

浏览 4提问于2016-09-28得票数 3

回答已采纳

1回答

在我们有div标签的地方提取内容，后面跟着hearder标签。

python-3.x、web-scraping、beautifulsoup

当div标签和header标签放在一起时，我正在尝试提取它们。例如： <h3>header</h3> <div>some text here <ul> <li>list</li> <li>list</li> <li>list</li> </ul> </div> 我尝试了以下链接中提供的解决方案。在这里，div标记中的header标记...但我的要求是div

浏览 0提问于2019-07-22得票数 0

1回答

当我通过类过滤通过字典搜索时，无法在漂亮的汤中找到标签

python、web-scraping、beautifulsoup

下面是我的代码。 import urllib from BeautifulSoup import * html=urllib.urlopen('http://yellowpages.sulekha.com/coffee-shops-bars-restaurants_delhi') soup=BeautifulSoup(html) tags=soup.findAll("li",{ "class" : "list-item" }) print tags 我希望找到所有具有class 'list-item‘的'li’标

浏览 6提问于2016-08-07得票数 1

回答已采纳

1回答

Python BS4与SDMX

python、python-2.7、xml-parsing、bs4、sdmx

我想检索SDMX文件(如)中给定的数据。我尝试使用BeautifulSoup，但它似乎看不到标签。在下面的代码中 import urllib2 from bs4 import BeautifulSoup url = "https://www.bundesbank.de/cae/servlet/StatisticDownload?tsId=BBK01.ST0304&its_fileFormat=sdmx" html_source = urllib2.urlopen(url).read() soup = BeautifulSoup(html_source, 'lx

浏览 13提问于2016-09-16得票数 1

回答已采纳

10回答

使用Python进行Web抓取

python、firefox、webkit、web-scraping

我目前正在尝试抓取一个HTML格式相当差的网站(通常缺少结束标记，没有使用类或it，因此很难直接转到您想要的元素，等等)。到目前为止，我使用BeautifulSoup已经取得了一些成功，但偶尔(尽管很少)，我会遇到一个页面，在这个页面上，BeautifulSoup创建的HTML树与(例如) Firefox或Webkit略有不同。虽然这是可以理解的，因为HTML的格式使这种模棱两可，如果我能够得到与Firefox或Webkit生成的相同的解析树，我将能够更容易地解析事物。问题通常是这样的:网站打开一个<b>标签两次，当BeautifulSoup看到第二个<b>标签时，它会

浏览 3提问于2010-03-08得票数 9

回答已采纳

1回答

如何使用BeautifulSoup去掉特殊的标签？

python、beautifulsoup

from bs4 import BeautifulSoup import requests url = 'https://www.jisilu.cn/data/cf/cf_list/?' res = requests.get(url) soup = BeautifulSoup(res.content, 'html.parser') print(soup) 我尝试使用BeautifulSoup来获取数据。然而，'html.parser‘不会在最后过滤一堆</span>标签。如何摆脱这些标签。 {"page":1,"ro

浏览 20提问于2020-02-18得票数 0

回答已采纳

1回答

在Beautifulsoup中，我们可以将所有XML标记转换为小写吗

python、xml、python-3.x、beautifulsoup

当使用Beautifulsoup和HTMl解析器时，标签被转换为小写。但是我们如何在使用LXML解析器的同时实现。在下面的情况下，如果我使用html解析器进行解析，则无法打印output.But。它工作得很好。有谁能帮帮我吗？ html_doc = """ <html><HEAD><title>The Dormouse's story</title></HEAD> <p class="title"><b>The Dormouse's story</

浏览 0提问于2013-02-21得票数 1

回答已采纳

2回答

使用BeautifulSoup Python在标签中进行搜索

python、html、beautifulsoup

我想在标签中进行搜索： <div id="cmeProductSlatePaginiationTop" class="cmePaginiation"> <ul> <li class="disabled"> <li class="active"> <li class="away-1"> <li> </ul> </div> 基本上，我想要计算在这个div中出现<

浏览 1提问于2013-05-28得票数 17

回答已采纳

1回答

刮除存储在远程目录中的html文件

python、python-2.7、beautifulsoup、screen-scraping

我有数千个html文件存储在一个远程目录中。所有这些文件都有相同的HTML结构。现在，我正在用下面的脚本手动抓取每个文件 from string import punctuation, whitespace import urllib2 import datetime import re from bs4 import BeautifulSoup as Soup import csv today = datetime.date.today() html = urllib2.urlopen("http://hostname/coimbatore/3BHK_flats_inCoimbato

浏览 4提问于2013-09-23得票数 0

回答已采纳

1回答

Python: BeautifulSoup在读取时会自动更改文本？

python、xml、xml-parsing、beautifulsoup

我正在使用BeautifulSoup对XML文件进行更改，但我注意到，如果我读取该文件，将其放入构造函数，然后在不对其进行任何更改的情况下将其吐出，BeautifulSoup已经对代码进行了一些更改。例如，标记和属性名称都是小写的，标签中属性的顺序也会改变。实际上，我知道这不应该是一个问题，但是必须读取XML文件的程序非常挑剔，不会接受这些更改。我发现我可以在不使用BeautifulSoup的情况下使用普通字符串操作进行更改，但这是不方便的。是否有一种方法可以防止BeautifulSoup在读取XML时对其进行更改？

浏览 3提问于2014-07-19得票数 2

回答已采纳

4回答

从标签之间提取文本的有效方法

python、regex、extract

假设我有这样的东西： var = '<li> <a href="/...html">Energy</a> <ul> <li> <a href="/...html">Coal</a> </li> <li> <a href="/...html">Oil </a> </li> <li> <a href="/...html"

浏览 0提问于2013-06-19得票数 7

回答已采纳

1回答

BeautifulSoup -处理自关闭标记的正确方法

python、beautifulsoup

我有一个带有自动关闭标记的html文件，但是BeautifulSoup不喜欢它们。 from bs4 import BeautifulSoup html = '<head><meta content="text/html" http-equiv="Content-Type"><meta charset="utf-8"></head>' doc = BeautifulSoup(html, 'html.parser') print doc.prettify() 版画 &l

浏览 1提问于2015-11-01得票数 5

回答已采纳

1回答

如何获得python中div标记中存在的标记？

python、regex、beautifulsoup

我正在使用python抓取一个网站。我想在div标记中获得一个链接，其中有两个标签，如下所示： <div id="main_category"> <div class="tit1"><a href="#" onclick="ExpandStage(1);"><strong>Phase 1</strong><br />April 15 - 19</a></div> <ul id="phase1">

浏览 3提问于2016-02-24得票数 0

回答已采纳

1回答

如何将html混合标记转换为html/docx/pdf？

list、markdown、pandoc

浏览 3提问于2020-02-20得票数 2

2回答

BeautifulSoup中的selfClosingTags

python、xml、beautifulsoup

使用BeautifulSoup解析我的XML import BeautifulSoup soup = BeautifulSoup.BeautifulStoneSoup( """<alan x="y" /><anne>hello</anne>""" ) # selfClosingTags=['alan']) print soup.prettify() 这将输出： <alan x="y"> <anne> hello </ann

浏览 2提问于2010-02-06得票数 4

回答已采纳

3回答

使用漂亮汤解析HTML会得到"None“

python、web-scraping、beautifulsoup

我可以清楚地看到我需要的标签，以便获得我想要抓取的数据。根据多个教程，我正在做完全相同的方法。那么，当我只是想在li类之间显示代码时，它为什么会给我"None“呢？ from bs4 import BeautifulSoup import requests response = requests.get("https://www.governmentjobs.com/careers/sdcounty") soup = BeautifulSoup(response.text,'html.parser') job = soup

浏览 21提问于2019-11-10得票数 1

回答已采纳

1回答

如何提取<li>标记的特定部分并在该<li>标记中省略<span>标记

python、python-3.x、beautifulsoup

我只需要从li标签中提取美元金额。所以输出应该类似于$63,606.40 - $70,137.60 html = <li> Regular - Full time <span>-</span> $63,606.40 - $70,137.60 Annually </li> from bs4 import BeautifulSoup import requests headers = {'X-Requested-With': 'XMLHttpRequest'} r = requests.get('h

浏览 1提问于2019-11-22得票数 0

回答已采纳

1回答

beautifulSoup中attrMap与attrs的区别

python、beautifulsoup

我想知道中的attrMap和attrs有什么不同？更具体地说，哪些标签有attrs，哪些标签有attrMap >>> soup = BeautifulSoup.BeautifulSoup(source) >>> tag = soup.find(name='input') >>> dict(tag.attrs)['type'] u'text' >>> tag.attrMap['type'] Traceback (most recent call last):

浏览 2提问于2012-01-13得票数 3

回答已采纳

2回答

BeautifulSoup找不到标签

python、beautifulsoup

我正在抓取一个网页来收集一份财富500强公司的名单。但是，当我运行这段代码时，BeautifulSoup找不到<div class="rt-tr-group" role="rowgroup">标记。 import requests from bs4 import BeautifulSoup url = r'https://fortune.com/fortune500/2019/search/' page = requests.get(url) soup = BeautifulSoup(page.content, 'lxml

浏览 39提问于2020-07-03得票数 0

1回答

正确的图书馆使用:要求w/ bs4.美丽汤？

python、tags、request、beautifulsoup、urllib2

我刚刚从使用urllib2作为HTTP库切换到使用request库。在urllib中，您使用BeautifulSoup来使用findAll(tag='element')函数来提取html元素，我是以同样的方式继续使用BeautifulSoup，还是request有一个简化这个过程的函数？使用urllib2的拉标签 import urllib2 from bs4 import BeautifulSoup as BS response = urllib2.urlopen('http://stackoverflow.com/') soup = BS(respo

浏览 0提问于2013-03-21得票数 2

回答已采纳

1回答

基于h3日期和相关列表项修改HTML

python、html、beautifulsoup

我对Python非常陌生，无法理解这一点。我希望有一个脚本来完成以下工作： earlierRemoves 读取文件在h3标记中查找昨天的日期，或查找与无关的所有日期。任何洞察力都会受到极大的赞赏--我已经和BeautifulSoup混在一起了，但我不确定我是否有足够的经验或知识把它整合在一起。下面是我的尝试，它成功地删除了昨天h3标记之间的日期，但我不知道如何处理与前面的h3标记相关联的不同长度的列表项。 from datetime import datetime, timedelta from bs4 import BeautifulSoup # parse html h =

浏览 6提问于2022-05-21得票数 -1

回答已采纳

2回答

标记值没有打印etree lxml

python、html、xpath、lxml、elementtree

我想打印代码的“可打印字符串”部分。此外，我试图打印整个标签本身，但没有找到一种方法来打印整个标签，而不仅仅是标签名称。检索Xpath和整个标记本身是当前最大的挑战，谢谢！代码： from bs4 import BeautifulSoup from lxml import etree doc = "<p><a></a><a></a>Printable String</p>" soup = BeautifulSoup(doc, "lxml") root = etree.fromstring

浏览 2提问于2021-09-20得票数 2

回答已采纳

2回答

使用BeautifulSoup抓取产品名称

python、python-2.7、beautifulsoup

我正在使用BeautifulSoup (BS4)构建一个抓取器工具，它允许我从位于“h1”标签之间的任何TopShop.com产品页面中提取产品名称。我不明白为什么我写的代码不能工作！ from urllib2 import urlopen from bs4 import BeautifulSoup import re TopShop_URL = raw_input("Enter a TopShop Product URL") ProductPage = urlopen(TopShop_URL).read() soup = BeautifulSoup(ProductPage

浏览 0提问于2013-02-15得票数 0

回答已采纳

2回答

在Python中将包含html标记的字符串拆分到其构建块中

python、python-3.x、beautifulsoup

我有这样的字符串： part one<p>part two</p><p>part three <a href="/links/link1">part four</a>part five</p><li>part six <a href="/links/link2">part seven</a>part eight</li> 我想生成一个python列表，如下所示： ['part one','part two',&

浏览 11提问于2019-09-13得票数 1

回答已采纳

2回答

不能从网站上刮掉一些"div“标签

python、html、screen-scraping

我正在尝试从这个页面中抓取职位：。可能是个新手的问题，但事实证明，我可以得到某些标签，而其他标签似乎是无法触及的，例如： from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen("https://www.fl.ru/projects/") bsObj = BeautifulSoup(html, "lxml") textTags = bsObj.findAll("div", class_="b-post__txt ") pr

浏览 0提问于2018-06-29得票数 1

回答已采纳

1回答

如何使用美丽汤从<a>标签中提取单个文本？

python、web-scraping、beautifulsoup

因此，在一个标记中有3个文本，但我只需要提取下面的单个标记，这是我编写的代码 import requests from bs4 import BeautifulSoup source= requests.get('eg.com') soup =BeautifulSoup(source,'lxml') article= soup.find('div',class_='content') b = article.li.a.text 它返回标签内的所有文本，输出： Apple 2 itea

浏览 0提问于2021-04-15得票数 0

回答已采纳

2回答

如何在Python中解析大型文本文件？

python、python-2.7

我正在尝试解析一个大的文本文件。文本文件实际上不是XML文件。如下所示的标签： <tag1> <tagsomedata> text1 </tagsomedata> <text> text some pattern1 </text> </tag1> <tag1> <tagsomedata> text2 </tagsomedata> <text> text some pattern2 </text> </tag1> 以此类推.. 我需要以下形式的输出： t

浏览 1提问于2015-03-25得票数 0

1回答

如何通过我的节目获得一个类别的特定的interwiki链接？

python-3.x、beautifulsoup、wikipedia

这是我的程序，得到所有的interwiki链接(与许多li标签)。但是我只想得到一个特定的语言li标记，如下所示。 <li class="interlanguage-link interwiki-ta"> ...title= </li> 如何在特定的title=之后获得数据？如何完成以下代码：命令：python3 get-tamiwiki-link-from-englishwiki.py from bs4 import BeautifulSoup import requests url = 'https://en.wikipedia.org

浏览 0提问于2016-12-11得票数 1

回答已采纳