使用Python自动放大html中的所有粗体文本(Beautiful soup)_使用Beautiful Soup提取HTML中的部分文本_无法使用Python中的Beautiful Soup从元素中提取文本 - 腾讯云开发者社区

python、html、beautifulsoup

我有一个简单的问题。如果文本为粗体，是否可以自动更改html文件中的字体大小？我使用Beautiful Soup来处理html文件。所以，我想要的是实现规则“如果html文件中的一部分文本是粗体的，那么将它设为18 (比如说)”。如下所示： soup = BeautifulSoup(source, 'html.parser') for tag in soup: ## new_soup = BeautifulSoup(str(tag).FONTSIZE_CHANGE_FUNCTION) tag.replace_with(new_soup) with open(p

浏览 17提问于2019-06-28得票数 0

2回答

在输入字符串中只保留一组html标记的Python代码

python、beautifulsoup

我有这样的文本： <div> <script></script> <h1>name</h1> <p> Description </p> <i> italic </i> </div> 我想删除除h标签和p标签之外的所有html标签。为此，我尝试创建一个更通用的方法，如下所示： def strip_tags(text, a_list_of_tags_to_not_remove) 使用下面的Beautiful Soup代码，我可以删除所有的html标记，但它不允许保

浏览 1提问于2018-10-16得票数 1

1回答

美丽的汤: FileNotFoundError：[Errno2]没有这样的文件或目录：

python、html、beautifulsoup

我正在努力学习美汤。我使用下面的网址来学习。当我尝试运行代码时，我得到下面的错误。 FileNotFoundError: [Errno 2] No such file or directory: 'what_is_beautiful_soup_in_python-Google_Search.html' Python模块和HTML文件都保存在同一个文件夹中。文件名= what_is_beautiful_soup_in_python-Google_Search谁能帮我解决这个问题？ from bs4 import BeautifulSoup soup = BeautifulSo

浏览 24提问于2020-03-11得票数 1

2回答

如何通过python获取用户为HTML页面输入的文本？

python、html、beautifulsoup

如何通过python获取用户为HTML页面输入的文本？例如： <html> <input id="post_form_id" name="fooput" value="" /> </html> 现在，用户在文本字段中输入值abcxyz。如何使用python获取该值？我已经知道它是如何通过javascript实现的，但我想使用python来实现它。另外，我已经尝试过Beautiful Soup，但它只能返回字段的预设值。所以我能做到 soup=BeautifulSoup(open("myhtmldoc

浏览 1提问于2012-06-13得票数 2

回答已采纳

1回答

用Beautiful Soup从HTML文件中提取挪威语文本，丢失挪威语字符

python、beautifulsoup

我有一个Python脚本，它使用Beautiful Soup从目录中的HTML文件中提取文本。然而，我遇到了让编码正常工作的问题。起初，我认为HTML文件本身可能有问题。但是，当我在Notepad.exe中查看一个超文本标记语言文件的源代码时，我看到了如下内容：Vi er her for deg, og du må gjerne ta kontakt med oss på 815 32 000 eller på Facebook om du har noen spørsmål. 但是，当我在Internet Explorer中查看相同的HTML文件时，我看到的是：Vi er her for d

浏览 3提问于2013-04-27得票数 0

回答已采纳

2回答

刮擦可见文本

python、web-scraping、beautifulsoup、urllib2

我是一个绝对的新手领域的网页刮和现在，我想从一个网页上提取可见的文本。我在网上发现了一段代码： import urllib2 from bs4 import BeautifulSoup url = "http://www.espncricinfo.com/" web_page = urllib2.urlopen(url) soup = BeautifulSoup(url , "lxml") print (soup.prettify()) 对于上面的代码，我得到以下结果： /usr/local/lib/python2.7/site-packages/b

浏览 2提问于2016-11-12得票数 0

回答已采纳

1回答

Python 3.6美丽的汤-在Web抓取过程中获取嵌入式视频URL的麻烦

python、web-scraping、beautifulsoup、python-requests、embedded-video

我正在尝试抓取一个网页，并使用Python3.6中的Beautiful Soup和requests模块检索网页上嵌入的视频的URL。当我在Chrome中查看网页上的超文本标记语言时，我可以看到视频的.mp4链接。但是当我使用requests和Beautiful Soup获取页面时，我找不到"video“节点。我知道视频窗口是一个嵌套的HTML文档。特别是，我想要抓取这个网页- http://videolectures.net/icml2015_liang_language_understanding/，并使用Beautiful Soup和requests模块获得视频链接- http:

浏览 25提问于2020-08-26得票数 4

1回答

使用BeautifulSoup在网页上查找特定文本

python、html、python-3.x、web-scraping、beautifulsoup

我正在尝试保存一个使用Python 3和Beautiful Soup 4的网站上的电影列表。问题是，我对Python和BS非常陌生，我真的不知道从哪里开始。网站是，电影列表紧跟在“过去的电影：”之后。我不知道如何提取那块数据。我一直在谷歌搜索，似乎Beautiful Soup在试图查找标签时效果最好，但我只需要它来找到一个文本列表，而不是在任何特定的标签中(该网站不是专业设计的)。有没有办法让Beautiful Soup和Python提取“过去的电影：”和“对于我们播放过的电影的完整列表，请点击这里”之间的文本？

浏览 3提问于2016-05-12得票数 6

回答已采纳

2回答

有没有办法使用Selenium of Beautiful Soup得到2015-2020年间每年1月份的“这个家”的Z值？

python、selenium、selenium-webdriver、web-scraping、beautifulsoup

从下面的链接中，我希望能够抓取数据。然而，当我使用Beautiful Soup时，我在html中找不到它，并且Beautiful soup不起作用。此外，我想也许我可以使用selenium来抓取这些数据，但我也找不到这些内容。你知道我会如何使用selenium或Beautiful Soup来获得2015-2020年间每年1月的“这个家”的Z估计值吗？提前感谢您的帮助。我正在使用Python。

浏览 0提问于2020-08-17得票数 1

2回答

美汤找不到桌子

python、beautifulsoup

我正在尝试用Python和Beautiful Soup从网页上的一个表格中收集一些数据。然而，当我从页面中进行选择时，我得到的结果与在浏览器中得到的结果不同。具体地说，这些表完全缺失。以下是Firefox开发工具检查器中表格的屏幕截图： ? 这是我从Beautiful Soup得到的输出： ? 我尝试过使用urllib而不是request，也尝试过使用不同的超文本标记语言解析器(html.parser和lxml)。所有的结果都是一样的。关于这里可能发生的事情以及我如何绕过它来访问表中的数据，有什么建议吗？ import requests from bs4 import Bea

浏览 15提问于2020-04-25得票数 0

回答已采纳

3回答

BeautifulSoup4 :文本中的符号

python、html、python-2.7、beautifulsoup

我很难用BeautifulSoup4.(我是个十足的Python/BeautifulSoup新手，所以如果我笨的话，请原谅我) 为什么下面的代码： from bs4 import BeautifulSoup soup_ko = BeautifulSoup('<select><option>foo</option><option>bar & baz</option><option>qux</option></select>') soup_ok = BeautifulSoup(

浏览 3提问于2013-06-05得票数 1

回答已采纳

3回答

美丽的汤在使用get_text ()后不能使用

python、beautifulsoup

我正在做网络抓取，我只想从任何网站的文本，所以我使用的Beautiful Soup。最初，我发现get_text()方法也返回了JavaScript代码，因此为了避免遇到应该使用extract()方法的问题，现在我遇到了一个奇怪的问题，在提取script和style标记之后，Beautiful Soup甚至在新的` `html中都无法识别它的主体。我先说清楚我在做这件事 soup = BeautifulSoup(HTMLRawData, 'html.parser') print(soup.body) 在这里，print语句打印了所有的html数据，但当我这样做时 soup =

浏览 20提问于2015-07-05得票数 3

回答已采纳

2回答

使用BeautifulSoup解析并获取全文结果

python、beautifulsoup

我完全是新手，我从BeautifulSoup和Python开始，我想在全文中得到一个结果，而不需要任何HTML标记或其他不是文本的元素。有关信息，我使用HTML5文档。我做了这个： #!/usr/bin/env python import urllib2 from bs4 import BeautifulSoup html_content = urllib2.urlopen("http://www.demo.com/index.html") soup = BeautifulSoup(html_content, "lxml") # Synthax fo

浏览 4提问于2014-09-25得票数 0

回答已采纳

3回答

如何在python中将html转换为文本？

python、html、python-3.x、beautifulsoup

有没有办法将html转换成python中的文本。我正在寻找干净的文本，应该有适当的间隔和新的行。我已经尝试过BeautifulSoup，但是我看到了下面的重叠文本。 from bs4 import BeautifulSoup html = """Html code""" soup = BeautifulSoup(html,'lxml') print(soup.get_text()) 我得到下面的输出检索图像informationConverting图像formatsScaling，裁剪，旋转imagesAdding图像

浏览 8提问于2017-11-03得票数 1

回答已采纳

4回答

Python BeautifulSoup：“list_iterator”对象不可订阅

python、beautifulsoup

我试图从下面的html结构中提取内部的文本： <div class="account-age"> <label></label> <div> <div> <span>Text to extract</span> </div> </div> </div> 我有下面的Beautiful Soup代码来做这件事： from bs4 import BeautifulSoup as bs

浏览 25提问于2018-06-05得票数 2

回答已采纳

2回答

在带有Beautiful的python解析中使用xml数据的理想方法是什么？

python、html、xml、parsing、beautifulsoup

在用Beautiful解析python时，将xml转换为文本的理想方法是什么？当我使用Python2.7 BeautifulSoup库进行html解析时，我可以进入"soup“的步骤，但是我不知道如何提取所需的数据，所以我尝试将它们全部转换为string。在下面的示例中，我希望提取span标记中的所有数字并将它们相加。有更好的办法吗？ XML数据：代码： import urllib2 from BeautifulSoup import * import re url = 'http://python-data.dr-chuck.net/comments_324255.

浏览 2提问于2017-01-19得票数 0

1回答

BeautifulSoup HTMLParseError.这有什么问题吗？

python、beautifulsoup

这是我的代码： from bs4 import BeautifulSoup as BS import urllib2 url = "http://services.runescape.com/m=news/recruit-a-friend-for-free-membership-and-xp" res = urllib2.urlopen(url) soup = BS(res.read()) other_content = soup.find_all('div',{'class':'Content'})[0] print other

浏览 3提问于2012-12-20得票数 4

回答已采纳

2回答

使用Python将纯文本文件解析为CSV文件

python、csv

我使用Beautiful Soup将一系列HTML文件解析为单个文本文件。HTML文件的格式使其输出始终是文本文件中的三行，因此输出将如下所示： Hello! How are you? Well, Bye! 但这也很容易 83957 And I ain't coming back! hgu39hgd 换句话说，HTML文件的内容并不是每个HTML文件的标准内容，但它们总是生成三行代码。所以，我想知道如果我想要从Beautiful Soup生成的文本文件并将其解析成包含如下列的CSV文件，我应该从哪里开始(使用上面的示例)： Title Intro Tagline Hello!

浏览 2提问于2013-04-27得票数 6

回答已采纳

6回答

使用Beautiful Soup按类名获取内容

python、beautifulsoup

使用Beautiful Soup模块，如何获取类名为feeditemcontent cxfeeditemcontent的div标记的数据？是不是： soup.class['feeditemcontent cxfeeditemcontent'] 或者： soup.find_all('class') 这是HTML源代码： <div class="feeditemcontent cxfeeditemcontent"> <div class="feeditembodyandfooter">

浏览 5提问于2012-07-04得票数 16

回答已采纳

1回答

如何处理美汤4中的<br> </br>和<br/>？

python、html、parsing、web-scraping、beautifulsoup

我正在尝试使用python和Beautiful Soup4来替换一些html中的每一个换行标记。文档中有<br>、<br/>和</br>标签，但由于Beautiful Soup处理标签的方式，每当它找到一个<br>时，它就会删除它与它看到的下一个</br>之间的所有内容。有什么办法可以解决这个问题吗？

浏览 3提问于2014-12-19得票数 1

1回答

解析源代码(Python)方法:漂亮的汤，lxml，html5lib的区别？

python、parsing、beautifulsoup、lxml

我有一个很大的HTML源代码，我想要解析(大约200,000)行，并且我相当确定在整个过程中都有一些糟糕的格式。我一直在研究一些解析器，似乎Beautiful Soup，lxml，html5lib是最受欢迎的。从这个网站上看，lxml似乎是最常用和最快的，而Beautiful Soup速度较慢，但会导致更多的错误和变化。我对Beautiful Soup文档、和像BeautifulSoup(markup，"lxml")或BeautifulSoup(markup，html5lib)这样的命令感到有点困惑。在这种情况下，它是否同时使用Beautiful Soup和html5lib/

浏览 0提问于2012-06-08得票数 1

2回答

抓取动态超文本标记语言(YouTube注释)

python、web-scraping、beautifulsoup、python-requests、dynamic-html

有了Beautiful Soup和Request Library，我可以抓取超文本标记语言的内容，但不能抓取JavaScript或AJAX调用的内容。我该如何通过我的Python脚本来模仿它呢？因为当我们滚动页面时会加载YouTube注释。我发现了两个方法；一个使用Selenium，另一个使用lxml请求，我不太理解这两个方法。示例()： import requests from bs4 import BeautifulSoup as soup url = 'https://www.youtube.com/watch?v=iFPMz36std4' response = r

浏览 1提问于2017-11-01得票数 3

2回答

用于清理网络抓取文本的正则表达式

python、regex、python-3.x、beautifulsoup

我正在尝试为一个维基百科页面提取一些信息，我正在使用Beautiful soup将文本加载到Python中，但我似乎在使用正则表达式剥离所有不必要的标签时遇到了麻烦。这是来自Beautiful soup的文本输出的示例 [<td colspan="3"> </td>, <td valign="top" width="400"> <ul><li><a href="/wiki/Aach,_Baden-W%C3%BCrttemberg" title="Aach,

浏览 7提问于2019-07-20得票数 1

1回答

如何测试美汤对象的类型？

python、python-2.7、beautifulsoup

这可能是一个非常基本的Python问题，尽管我在Beautiful Soup中遇到过它。我想做的基本事情是只从HTML文件中提取输出文本。例如，在下面包含的HTML文件中，我只想提取0123、abc、def和ghi，而不提取标签和属性。据我最好的理解，我应该能够递归通过HTML标签的后代，并只包括NavigableStrings的东西。问题是我不知道如何编写if语句来测试该类型。请参阅下面的python代码中的注释。有什么解决方案吗？ <!DOCTYPE html> <html lang="en"> <head> <m

浏览 6提问于2018-03-05得票数 2

回答已采纳

1回答

使用Beautiful Soup提取HTML中的部分文本

python、html、beautifulsoup

我的HTML是： <span id="lbldiv" class="lbl" style="color:Blue;"> Division : First; Grand Total: 3861; Grand Max Total: 4600 </span> 我可以通过在span元素上使用get_text来提取文本：Division : First; Grand Total: 3861; Grand Max Total: 4600。有没有可能只从文本中提取数字- 3861和4600，或者使用Python中的Beauti

浏览 3提问于2017-07-01得票数 1

回答已采纳

6回答

解码Python字符串中的HTML实体？

python、html、html-entities

我正在用Beautiful Soup 3解析一些HTML，但是它包含了Beautiful Soup 3不能自动为我解码的HTML实体： >>> from BeautifulSoup import BeautifulSoup >>> soup = BeautifulSoup("<p>£682m</p>") >>> text = soup.find("p").string >>> print text £682m 如何将text

浏览 0提问于2010-01-19得票数 324

回答已采纳

1回答

使用Beautiful Soup从字符串中剥离html标记

python、beautifulsoup

有没有人有一些示例代码来演示如何使用Python的Beautiful Soup从文本字符串中剥离除某些以外的所有html标记？我想去掉所有的javascript和html标签，除了： <a></a> <b></b> <i></i> 还有像这样的东西： <a onclick=""></a> 谢谢你的帮助--我在网上找不到太多这方面的东西。

浏览 0提问于2010-12-13得票数 5

回答已采纳

1回答

Python 2.7:如何分离提取的文本？

python、python-2.7、csv、beautifulsoup

我正在使用Python2.7和Beautiful soup从URL中获取一些文本，但我希望在每一行中分隔提取的文本。这就是我从URL中提取文本并将输出放入CSV文件的方法： # import libraries import csv import urllib2 from bs4 import BeautifulSoup # specify the url url = 'http://www.bkfrem.dk/default.asp?id=19' # query the website and return the html to the variable â€˜pag

浏览 3提问于2018-02-11得票数 0

回答已采纳

1回答

在BeautifulSoup中使用.select()从网页中拉取数字时使用哪些CSS选择器？

python、beautifulsoup

我正在尝试使用python从一个网页上拉取当前的股票价格。我在使用Beautiful Soup拉取数字时遇到了问题。我不知道该使用什么CSS选择器。我尝试了span，div，tr，tbody，td的组合。附件是HTML的图片。注意，我想要的数字是368.45： HTML：下面是我的python3代码的精髓(如果有必要的话，我使用Ubuntu )： res = requests.get(#webpage_url) res.raise_for_status() soup = bs4.BeautifulSoup(res.text, "lxml") stock_price

浏览 54提问于2018-06-19得票数 1

3回答

将多个html文件中的文本提取到一个CSV文件中的最佳方法

python

读完这个论坛后，我不确定哪种方法最好将部分数据提取到CSV文件中，即Python/Beautiful Soup/html2text。因为有大量的文件，所以我想尝试编写一个可以在终端中运行的脚本。输出:一个CSV文件，包含一行文本和五列数据。例如第一行和最后一行 1002010-12-20 145 ABC 04110000 1 2010-11-10 133 DDD 041123847 谢谢!

浏览 2提问于2010-12-25得票数 1

回答已采纳

3回答

python:使用BeautifulSoup的谷歌搜索抓取器

python、screen-scraping、web-scraping、beautifulsoup、urllib

目标:传递一个搜索字符串到google上搜索，然后抓取url，title和小的描述，与url标题一起发布。我有以下代码，目前我的代码只给出前10个结果，这是谷歌对一个页面的默认限制。我不确定在网络抓取过程中如何真正处理分页。此外，当我查看实际的页面结果和打印出来的内容时，也会出现差异。我也不确定解析span元素的最佳方法是什么。到目前为止，我的跨度如下所示，我想删除<em>元素并连接其余的stings。最好的方法是什么？ <span class="st">The <em>Beautiful Soup</em> Theater

浏览 1提问于2012-07-17得票数 6

2回答

使用漂亮的汤解析python

python、html、beautifulsoup、screen-scraping

我正试图通过一家餐厅结构不佳的网站进行解析，并打印出菜单标题如下： "Bento Box“、"Bara Chirashi set”等我正在使用Python库Beautiful，但我很难获得正确的输出： import requests from bs4 import BeautifulSoup url = ('http://www.sushitaro.com/menu-lunch.html') r = requests.get(url, auth=('user', 'pass')) data = r.text soup =

浏览 1提问于2015-04-25得票数 2

回答已采纳

4回答

Python:将添加到字典中，并将for循环作为json输出

python、simplejson

我对python有点陌生，我尝试使用Beautiful删除一个页面，并以JSON格式输出结果。SimpleJson #!/usr/bin/env python # -*- coding: utf-8 -*- from bs4 import BeautifulSoup import json as simplejson webpages = ( "page1.html", "page2.html", "page3.html" ) my_dict = {} for webpage in webpages: s

浏览 6提问于2014-12-22得票数 1

回答已采纳

1回答

BeautifulSoup :从html标记中提取/解析数据

python、xml、parsing、beautifulsoup

我试图使用Python代码中的Beautiful从url中提取体育数据。这个数据源的问题是数据出现在html标记中。具体来说，这个标签的标题是"“ 我要的是玩家数据--这些数据似乎是XML格式的。然而，这些数据出现在"match“标记中，而不是作为开始/结束标记中的内容出现。就像这样： print(soup.match) 返回：(不包括所有文本)： <match :matchdata='{"match":{"id":"5dbb8e20-6f37-11eb-924a-1f6b8ad68.....ALL DATA HERE..

浏览 5提问于2021-04-08得票数 0

回答已采纳

1回答

如果我知道元素或类的id，如何在某些HTML元素中使用Beautiful Soup设置值？

python、beautifulsoup

如果我知道HTML元素或类id，如何在某些元素中使用Beautiful Soup设置值？例如，我有 <td id="test"></td> 我想要设置文本还原...喜欢 <td id="test">RESTORE...</td>。

浏览 1提问于2012-03-19得票数 15

回答已采纳

2回答

如何使用Python查找(并抓取)给定域上的所有网页？

python、http、dns

我如何抓取一个域名来找到所有的网页和内容？例如: www.example.com、www.example.com/index.html、www.example.com/about/index.html等。我想用Python做这件事，如果可能的话，最好用Beautiful Soup。

浏览 0提问于2013-06-20得票数 4

回答已采纳

1回答

用Python语言解析带有gb2312正文的utf-8编码网页

python、encoding、character-encoding、web-scraping、beautifulsoup

我正在尝试使用Python漂亮的soup解析器解析网页，但遇到了一个问题。我们从他们那里得到的HTML头声明了一个utf-8字符集，因此Beautiful Soup以utf-8对整个文档进行了编码，实际上HTML标签也是以UTF-8编码的，所以我们得到了一个结构良好的HTML页面。问题是，这个愚蠢的网站将gb2312编码的正文文本注入到页面中，页面被漂亮的汤解析为utf-8。有没有办法将文本从"gb2312假装是utf-8“状态转换为”utf-8字符集的正确表达“？

浏览 2提问于2012-08-02得票数 0

回答已采纳

2回答

打印不带标签的h1标题

python、beautifulsoup

使用Beautiful Soup4，我尝试打印不带标签的h1内容。我使用的是python 3.6和Beautiful Soup 4。 from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen('https:/place_holder.com/') bs = BeautifulSoup(html.read(), 'html.parser') headings = bs.find_all('h1')

浏览 6提问于2019-08-09得票数 0

1回答

如何将javascript值从网页加载到python中？

javascript、python-3.x

当我检查网页上的代码时，我可以看到html和javascript。我已经使用Beautiful Soup来导入和解析html，但是有一大段是用javascript编写的，它从可编程逻辑控制器(PLC)中提取变量。在我用Beautiful Soup加载和解析之后，我找不到python中的数据--只有html代码。 PLC正在被网页直接读取，我看到实时值在我面前更新，但我不能直接导入它们。屏幕截图显示的是inspect窗口中的代码。假设我想用class="on"属性导入变量id="aout7"，我该怎么做呢？

浏览 3提问于2019-03-13得票数 0

1回答

无法使用BeautifulSoup替换HTML

python、html、beautifulsoup

我一直试图使用这里提供的代码来使用Python编辑HTML文件： # Python program to modify HTML # with the help of Beautiful Soup # Import the libraries from bs4 import BeautifulSoup as bs import os import re # Remove the last segment of the path base = os.path.dirname(os.path.abspath(__file__))

浏览 1提问于2021-08-09得票数 0

回答已采纳

1回答

为什么BeautifulSoup不从网页中提取所有的HTML？

python、html、python-3.x、web-scraping、beautifulsoup

我试图从这个网站上提取文本：。这个网站有一些用英语和旁遮普语(一种印度语)逐行翻译的古老经文.它是一个非常好的平行语料库。我已经成功地在一个单独的文本文件中提取了所有的英文译文。但当我去旁遮普的时候，它什么也没回。这是检查元素屏幕截图：(突出显示的文本是翻译的旁遮普语) 在屏幕截图1中，属于class=lang_16的突出显示的文本没有在包含所有HTML的soup对象中列出。下面是Python代码： outputFilePunjabi = open("1.txt","w",newline="",encoding="utf-16"

浏览 2提问于2016-10-10得票数 2

回答已采纳

2回答

美丽的汤Youtube订阅者

python、web-scraping、beautifulsoup

我使用Python with Requests和Beautiful Soup来尝试使用以下代码返回某些Youtube频道的订阅者数量： import requests from bs4 import BeautifulSoup request = requests.get("https://www.youtube.com/channel/UCFIjVWFZ__KhtTXHDJ7vgng") content = request.content soup = BeautifulSoup(content, "html.parser") element = soup

浏览 0提问于2018-03-14得票数 2

3回答

如何使用Python/Beautiful Soup提取两个不同标签之间的文本？

python、beautifulsoup

我正在尝试使用Python/Beautiful Soup在HTML页面上的两个粗体标记之间提取链接标题。我试图提取的HTML代码片段如下： <B>Heading Title 1:</B> <a href="link1">Title1</a>  <a href="link2">Title2</a>    <B>Heading Title 2:</B> <a href=

浏览 57提问于2019-04-13得票数 4

29回答

使用Python从HTML文件中提取文本

python、html、text、html-content-extraction

我想用Python从HTML文件中提取文本。我想要的输出基本上与从浏览器复制文本并将其粘贴到记事本中得到的输出相同。我想要一些比使用正则表达式更健壮的东西，因为正则表达式在格式不佳的HTML上可能会失败。我看到很多人推荐Beautiful Soup，但我在使用它时遇到了一些问题。首先，它会拾取不需要的文本，比如JavaScript源。而且，它不能解释HTML实体。例如，我希望‘in HTML source’转换为文本中的撇号，就像我将浏览器内容粘贴到记事本中一样。更新看起来很有希望。它正确地处理HTML实体并忽略JavaScript。但是，它并不能准确地生成纯文本；它会生成必须转换为

浏览 447提问于2008-11-30得票数 282

回答已采纳

2回答

美丽的汤找不到线

python、html-parsing、beautifulsoup

在解析http://en.wikipedia.org/wiki/Israel时，我遇到一个包含文本的H2标记，但Beautiful Soup为它返回了一个None类型： $ python Python 2.7.3 (default, Apr 10 2013, 05:13:16) [GCC 4.7.2] on linux2 Type "help", "copyright", "credits" or "license" for more information. >>> import bs4 >>>

浏览 0提问于2013-08-30得票数 2

1回答

使用BeautifulSoup添加meta标签

python、python-2.7、beautifulsoup

如何使用Beautiful Soup(库)在HTML页面中的title标签后面添加一个meta标签。我正在使用python语言进行编码，但无法做到这一点。

浏览 2提问于2014-04-16得票数 3

1回答

如何在python中使用Beautifulsoup查看一段HTML代码

python、web-scraping、beautifulsoup

如何使用python中的Beautiful Soup包在HTML代码的特定部分中进行查看？例如，我可以将soup对象转换为字符串，并将该字符串分隔为要在其中查找的HTML代码部分： mystr= str(soup) str1 = mystr[mystr.find(', GENERAL</span><br/>'):] str2 = str1.split('<caption align="Left">', 1)[0] print(str2) 我想做同样的过程，但能够将HTML代码作为一个soup对象。非

浏览 13提问于2020-06-16得票数 0

3回答

漂亮的汤不返回HTML文件中的所有内容吗？

python、html

这里的HTML新手，所以我可能会误解一些关于HTML文档，所以请原谅我。我使用Beautiful来解析Python中的web数据。这是我的代码： import urllib import BeautifulSoup url = "http://www.nba.com/gameline/20160323/" page = urllib.urlopen(url).read() soup = BeautifulSoup.BeautifulSoup(page) indicateGameDone = str(soup.find("div", {"class&#

浏览 15提问于2016-04-07得票数 0

回答已采纳

2回答

变量文件名未被视为文件，无法打开

python、file-io

这是我使用Python的第三天，我确信一些简单的东西被忽略了。我正在尝试索引html文件名列表，将索引的html文件名设置为var，然后尝试打开该文件。计划是遍历文件名列表。不幸的是，var不是作为文件读取的，而是作为名称读取的。我认为这是一个很容易回答的问题，但我就是找不到。那么，我做错了什么呢？任何帮助都将受到高度的感谢。下面是我的代码： file_list = [] for root, dirs, files in os.walk(r'C:\Aptana\Beautiful'): for file in files: if file

浏览 0提问于2013-12-12得票数 0

1回答

如何使用漂亮的汤获取除特定类之外的所有文本

python、beautifulsoup

我试图使用soup.get_text从网页中获取一些文本，但我想排除特定的类。我尝试使用a = soup.find_all(class_ = "something")和b=[i.get_text() for i in a]，但这允许我选择一个类，而不允许我排除一个特定的类。我也尝试过：a = soup.select('span:not([class_ ="something"])') b = [i.get_text() for i in a]首先，输出并不是真正的文本。但最重要的是，它给了我所有的类，包括我想要排除的“某些东西”。还有别的办

浏览 1提问于2022-11-29得票数 2