我有一个简单的问题。如果文本为粗体,是否可以自动更改html文件中的字体大小?我使用Beautiful Soup来处理html文件。所以,我想要的是实现规则“如果html文件中的一部分文本是粗体的,那么将它设为18 (比如说)”。如下所示: soup = BeautifulSoup(source, 'html.parser')
for tag in soup:
## new_soup = BeautifulSoup(str(tag).FONTSIZE_CHANGE_FUNCTION)
tag.replace_with(new_soup)
with open(p
我正在努力学习美汤。我使用下面的网址来学习。
当我尝试运行代码时,我得到下面的错误。
FileNotFoundError: [Errno 2] No such file or directory: 'what_is_beautiful_soup_in_python-Google_Search.html'
Python模块和HTML文件都保存在同一个文件夹中。文件名= what_is_beautiful_soup_in_python-Google_Search谁能帮我解决这个问题?
from bs4 import BeautifulSoup
soup = BeautifulSo
我有一个Python脚本,它使用Beautiful Soup从目录中的HTML文件中提取文本。然而,我遇到了让编码正常工作的问题。起初,我认为HTML文件本身可能有问题。但是,当我在Notepad.exe中查看一个超文本标记语言文件的源代码时,我看到了如下内容:Vi er her for deg, og du må gjerne ta kontakt med oss på 815 32 000 eller på Facebook om du har noen spørsmål.
但是,当我在Internet Explorer中查看相同的HTML文件时,我看到的是:Vi er her for d
我使用Beautiful Soup将一系列HTML文件解析为单个文本文件。HTML文件的格式使其输出始终是文本文件中的三行,因此输出将如下所示:
Hello!
How are you?
Well, Bye!
但这也很容易
83957
And I ain't coming back!
hgu39hgd
换句话说,HTML文件的内容并不是每个HTML文件的标准内容,但它们总是生成三行代码。
所以,我想知道如果我想要从Beautiful Soup生成的文本文件并将其解析成包含如下列的CSV文件,我应该从哪里开始(使用上面的示例):
Title Intro Tagline
Hello!
我的HTML是:
<span id="lbldiv" class="lbl" style="color:Blue;">
Division : First; Grand Total: 3861; Grand Max Total: 4600
</span>
我可以通过在span元素上使用get_text来提取文本:Division : First; Grand Total: 3861; Grand Max Total: 4600。
有没有可能只从文本中提取数字- 3861和4600,或者使用Python中的Beauti
我正在使用Python2.7和Beautiful soup从URL中获取一些文本,但我希望在每一行中分隔提取的文本。
这就是我从URL中提取文本并将输出放入CSV文件的方法:
# import libraries
import csv
import urllib2
from bs4 import BeautifulSoup
# specify the url
url = 'http://www.bkfrem.dk/default.asp?id=19'
# query the website and return the html to the variable ‘pag
我一直试图使用这里提供的代码来使用Python编辑HTML文件:
# Python program to modify HTML
# with the help of Beautiful Soup
# Import the libraries
from bs4 import BeautifulSoup as bs
import os
import re
# Remove the last segment of the path
base = os.path.dirname(os.path.abspath(__file__))
这是我使用Python的第三天,我确信一些简单的东西被忽略了。
我正在尝试索引html文件名列表,将索引的html文件名设置为var,然后尝试打开该文件。计划是遍历文件名列表。
不幸的是,var不是作为文件读取的,而是作为名称读取的。
我认为这是一个很容易回答的问题,但我就是找不到。
那么,我做错了什么呢?任何帮助都将受到高度的感谢。
下面是我的代码:
file_list = []
for root, dirs, files in os.walk(r'C:\Aptana\Beautiful'):
for file in files:
if file
我试图使用soup.get_text从网页中获取一些文本,但我想排除特定的类。
我尝试使用a = soup.find_all(class_ = "something")和b=[i.get_text() for i in a],但这允许我选择一个类,而不允许我排除一个特定的类。
我也尝试过:a = soup.select('span:not([class_ ="something"])') b = [i.get_text() for i in a]首先,输出并不是真正的文本。但最重要的是,它给了我所有的类,包括我想要排除的“某些东西”。
还有别的办