BeautifulSoup在读取或解析时将内容放在实际元素之外

文章/答案/技术大牛

发布

1回答

、、

我必须解析最后一个dd的内容，并将其文本作为其子p文本的列表。如下截图所示： with open('strange_dl.html') as f: p_elements=target.find_all('p') 所以你可以看到它并没有返回所有的<em

浏览 7提问于2019-11-10得票数 0

2回答

如何让BeautifulSoup将文本区域标签的内容解析为HTML？

、、

在3.0.5之前，BeautifulSoup通常将的内容视为HTML。它现在将其视为文本。我正在解析的文档的textarea标记中有HTML，我正在尝试处理它。我在文档中找不到这一点，替代解析器也无济于事。有人知道如何将文本解析为HTML吗？>').match(xml_data)我正在寻找一种方法，获取元素，提取内容，用<em

浏览 2提问于2010-04-19得票数 4

回答已采纳

1回答

BS4‘元素’到底是什么，元素是如何计算的，由哪个解析器来决定？显然很迷惑

、、、

人们经常会遇到这种类型的for循环： from bs4 import BeautifulSoup as bssoup = bs(mystring,'html.parser<span style="some other style">text nine</span></p>closing text' 我不再确定我期望的输出是什么了，但是当我运行这段代码时： counter10个元素</e

浏览 15提问于2019-05-08得票数 1

回答已采纳

3回答

urlopen('http.....').read()中的read()做了什么？[urllib]

、、

请参阅bs1和bs2from bs4 import BeautifulSoup bs1 = BeautifulSoup(html.read(), 'html.parser谢谢用python进行Web搜索的p

浏览 3提问于2016-03-08得票数 8

回答已采纳

1回答

处理给BeautifulSoup的坏链接的最好方法是什么？

、、

/d2o.py", line 43, in get_feed_links File "/Library/Python/2.5/site-packages/BeautifulSoup.py", line 1499, in __init__ File "/Library

浏览 0提问于2009-01-17得票数 1

回答已采纳

2回答

C#类数组和索引器，一个类中的多个数组必须是公共的吗？

、、

我有一个包含数组的XMLObject类，它将xml元素放在一个数组中，将数据值放在另一个数组中，并将结束元素放在第三个数组中。我还获得了一个XMLParse对象，它执行实际的解析，并在找到字符串时将它们存储到不同的数组中。我被禁止在这个任务中使用.Net的xml内容，必须是一个字节一个字节地读入。现在我在MSDN上阅读了有关索引器的内容，据我所知，我可以只有一个使用索引器的数组(因

浏览 0提问于2011-05-25得票数 1

回答已采纳

1回答

用BeautifulSoup从XML文档中提取unicode文本

、、

我有这样的代码： url = open(fileid, 'r').read() print fileid它从本地xml文件中获取某个元素。然后，它从中提取xml代码并打印一个列表。

浏览 1提问于2017-05-16得票数 0

1回答

如何导航网站并使用Python提取数据

、、、、

最后，我希望将其存储在csv或xlsx中(我想我会使用openpyxl或xlsxwriter)。

浏览 0提问于2015-12-06得票数 1

1回答

向Android应用添加非本地化字符串

、、

在每个文件夹中，我都有名为strings.xml的文件，猜猜是什么，字符串。其中一些需要所有的语言，但一些只需要在一个应用程序的内部需求。

浏览 0提问于2012-10-13得票数 0

回答已采纳

1回答

TFHppleElement (Hpple)，在iphone上解析HTML

、、、

我正在使用Hpple，到目前为止，它很棒，但是我想把所有的div都放在另一个里面，这是我能做到的。但是，我无法进一步解析内容( innerHTML，在源代码中它被标记为innerHTML而不是innerText)请求元素content时不会返回任何内容，因为元素中没有直接的文本，只有子节点/元素包含文本在iPhone上，除了Hpple和解析超文本标记语言之外，还有什么替代

浏览 1提问于2010-05-19得票数 3

回答已采纳

2回答

当网络抓取时，我们把"html.parser“的论点放在哪里？

、、、

请看下面的代码片段from bs4 import BeautifulSouphtml = requests.get(url, "html.parser")html2 = requests.get(url) soup2 = BeautifulSoup我们应该将"html.parser“放在</

浏览 2提问于2020-08-11得票数 1

回答已采纳

1回答

使用selenium解析网页时的表单、输入问题

、、、

我正在使用selenium和beautifulsoup4解析网页，但我在解析特定网页时遇到了问题。当我实际查看页面上的html源代码，并使用selenium或bs4进行解析时，我得到了不同的html源代码页面。区别在于形式和输入的存在。当我解析该页面时，我得到的html是 <form action="" method="post" name="

浏览 12提问于2017-07-22得票数 1

1回答

BeatifulSoup不尊重void标记

、、

BeatifulSoup4似乎将<br>、<img>和其他解析为容器：<!/title></head>line<br><p>wtf</p>doc = bs4.<e

浏览 3提问于2014-10-21得票数 0

回答已采纳

2回答

具有多个根元素的“‘XML”文档

、

我有一个'XML‘文件，我不能控制它，我试图用包含两个根元素的etree.ElementTree解析它： ... data I do not care about ... data I wish to parse在尝试解析文件时，我得到了错误：'junk after

浏览 16提问于2018-07-30得票数 1

回答已采纳

1回答

在html标记之前运行脚本和DOM会不好吗？

在html标记之前运行脚本和DOM会不好吗？我有一个浮动窗口脚本在我的页面上创建的div和表，它会损害搜索引擎爬行网站吗？这编码不好吗？

浏览 0提问于2018-04-19得票数 0

回答已采纳

1回答

如何使用漂亮的汤从保存的html页面中删除td行号和行内容类。

、

我已经通过查看源代码保存了网页html内容。我是这样做的，因为我无法连接到网页，因为它在citrix环境中。我遇到的问题是，当我读取保存的html文件并使用漂亮的汤读取内容时，它创建了一个额外的表元素，其中包含td元素中的实际html内容。相反，我必须先找到html、body、table元素，然后才能从其中的页面中获得包含实际html内容的所有td元素； from

浏览 2提问于2019-08-01得票数 0

回答已采纳

2回答

为什么find_all BeautifulSoup4函数不返回任何内容？

、、、

新的漂亮汤4，当我在YouTube上搜索东西时，我无法得到这个简单的代码来获取标签的内容。当我打印容器时，它只是将"[]“作为一个空变量打印出来。你知道为什么这个没捡到任何东西吗？这与没有在YouTube上抓取正确的标签有关吗？在search中，有一个结果的标签如下： <a id="video-title" class="yt-simple-endpoint style-scope ytd-video-renderer&qu

浏览 3提问于2017-09-23得票数 2

回答已采纳

1回答

当父级位于隐含的命名空间中时，BeautifulSoup会删除子级。

、、、

网站实际上并不是每个名称空间都有标记，但是Firefox创建了一个标签，以避免模糊(具体来说，该站点有一个<html xmlns>标记，似乎混淆了驱动程序)。<div class='division'> &l

浏览 1提问于2013-01-31得票数 1

回答已采纳

1回答

Web应用程序在iframe中无法读取自己的DOM元素。在iframe外面工作得很好

、

Gradio应用程序是在本地PC上托管的。Gradio应用程序是js/css/html。当我直接在浏览器中加载Gradio应用程序时，一切正常工作。如果我将应用程序放在iframe中(否则是骨架HTML/而不是加载的其他脚本)，似乎Gradio应用程序就不能再通过自己的js读取自己的DOM元素了。name="frame2" id="frame2" frameborder="0" marginwidth="

浏览 27提问于2022-09-25得票数 0

2回答

解析页面意味着什么？

、

我发现了以下的解释：如果不存在任何异步或延迟:在浏览器继续解析之前立即获取并执行脚本。解析仅仅意味着加载页面的组件，如文本、图片和布局以及.？

浏览 2提问于2016-08-31得票数 1

点击加载更多