BeautifulSoup的Unicode解析错误

文章/答案/技术大牛

发布

1回答

将Unicode传递给BeautifulSoup4

python、unicode、beautifulsoup

基本上，我想知道我是否能做这样的事情：soup = BeautifulSoup(unicode_text) 我目前正在编写一个模块，它接受一个Unicode字符串，使用BeautifulSoup4解析/修改字符串，然后返回结果我<

浏览 4提问于2014-08-01得票数 0

回答已采纳

1回答

python、python-3.x、unicode、web-scraping、beautifulsoup

以下代码：from urllib.request import urlopen as uReq print(page_soup.find_all('p')) ...produces以下错误codec can't encode characte

浏览 4提问于2017-08-09得票数 0

回答已采纳

2回答

Python - HTML到Unicode

python、html、unicode

我有一个python脚本，在那里我得到了一些html，并使用漂亮的汤对其进行解析。下面是我获取HTML的方法xml = etree.HTML(html)我得到一个

浏览 1提问于2014-11-04得票数 0

1回答

用美丽汤编码表情符号

python、beautifulsoup、encode

我正在做一个项目，用Python中的“美丽汤”来抓取特定的Craigslist帖子。我可以成功地显示在帖子标题中找到的表情符号，但在帖子正文中没有成功。我试过不同的变体，但到目前为止没有什么效果。clcondensed.txt", "w")soup = BeautifulSou

浏览 3提问于2017-04-07得票数 2

回答已采纳

1回答

如何以UTF-8的形式打开HTML文件进行解析？

python-3.x、beautifulsoup、html-parsing

我试图用python 3使用BeautifulSoup来解析html文件，但是我得到了UTF-8解码错误。我尝试添加选项打开文件解码作为UTF-8，但错误仍然出现。 unicode_html =fp.read().decode('utf-8', 'i

浏览 3提问于2020-02-26得票数 0

回答已采纳

1回答

用Python语言解析带有gb2312正文的utf-8编码网页

python、encoding、character-encoding、web-scraping、beautifulsoup

我正在尝试使用Python漂亮的soup解析器解析网页，但遇到了一个问题。我们从他们那里得到的HTML头声明了一个utf-8字符集，因此Beautiful Soup以utf-8对整个文档进行了编码，实际上HTML标签也是以UTF-8编码的，所以我们得到了一个结构良好的HTML问题是，这个愚蠢的网站将gb2312编码的正文文本注入到页面中，页面被漂亮的汤解析为utf-8。有没有办法将文本从"gb2312假装是

浏览 2提问于2012-08-02得票数 0

回答已采纳

2回答

如何防止BeautifulSoup4向汤中添加额外的<html><body>标记？

python、beautifulsoup

在3之前的BeautifulSoup版本中，我可以获取任意块的HTML并以这种方式获得字符串表示：soup3 = BeautifulSoup('<div><b>soup 3</b></div>') '<div><b>so

浏览 6提问于2013-04-12得票数 17

回答已采纳

1回答

使用BeautifulSoup解析XML中的Unicode对象错误

python、xml、unicode、beautifulsoup

使用BeautifulSoup解析XML输出中的'name‘标记的内容会导致以下错误： </TABLE_stud> </stud> </show>

浏览 0提问于2014-04-24得票数 0

回答已采纳

1回答

python通用源解析器对unicode错误的崩溃

python、unicode、beautifulsoup、feedparser

我使用OSX10.6和python2.7.1与BeautifulSoup 3.0和5.01解析器5.01。我正试图解析“纽约时报”的RSS Feed，它验证了“美丽之汤”，它自己也会快乐地解析。产生错误的最小代码是：from BeautifulSoup import BeautifulSoup

浏览 0提问于2011-03-08得票数 0

回答已采纳

1回答

从非英语网站获取纯文本内容

java、python、web-scraping、web-crawler、non-english

我正在尝试获取非英语网站的纯文本内容。例如，我想获取的印地语内容这只是一个我正在探索的宠物项目。速度并不是什么大问题。我会在Linux环境中编写代码，最好使用Python或Java或C/C++ (按此顺序)。

浏览 0提问于2011-10-30得票数 2

1回答

用BeautifulSoup从XML文档中提取unicode文本

python、xml、beautifulsoup

我有这样的代码： url = open(fileid, 'r').read() soup = BeautifulSoup下面是该列表的一个片段集。您可以看到其中分配了许多unicode。我怎样才能把这个unicode从列表中去掉呢？

浏览 1提问于2017-05-16得票数 0

3回答

使用提取html页面时出现的“‘charmap”编解码错误

python、beautifulsoup

import requestssoup= BeautifulSoup(page.content, 'lxml-xml')但是，如果我删除'xml‘并离开soup = BeautifulSoup(page.content, 'lxml')

浏览 1提问于2017-05-15得票数 1

回答已采纳

2回答

BeautifulSoup中有关导航字符串和unicode的问题

python、beautifulsoup

我在BeautifulSoup (python)中的导航字符串和unicode方面遇到了一些问题。基本上，我正在解析来自youtube的四个结果页面，并将顶部结果的扩展名(youtube.com/watch？=之后的url结尾)放入一个列表中。但是，另一个显示为TypeError: 'unicode' object is not callable。两者使用的是完全相同的字符串。我在这里

浏览 4提问于2012-06-10得票数 1

3回答

如何使用BeautifulSoup从html中清除标记

python、python-3.x、beautifulsoup

我完成了第一步，但是在执行第二步时，我得到了以下错误：我尽了最大努力去纠正它，但我又犯了同样的错误这是我的代码：import urllib.request

浏览 9提问于2018-01-10得票数 4

回答已采纳

1回答

如何使Python在bs4上正常工作？

python、xml、unicode、beautifulsoup

我正在尝试使用4 (bs4)将Inkscape SVG转换成一些专有软件的类似XML的格式。我似乎无法让bs4正确地解析一个最小的示例。我需要解析器尊重自闭标记，处理unicode，而不是添加html内容。我认为用selfClosingTags指定'lxml‘解析器应该可以做到这一点，但是没有！去看看。属于获得漂亮汤4尊重自闭标签，没有被接受

浏览 1提问于2016-03-22得票数 2

回答已采纳

3回答

python删除<p>中的文本

python、regex、string

我想要删除html文本块的<p>标记内的文本。我正在尝试标准化一些文本，并删除所有类、对齐和其他信息。我能找到的每个例子似乎都涉及到剥离html，而我不想剥离标签。我只想把它们都弄清楚。所以如果我有这样的东西：some paragraph blah blah blah <p class='SomeClassIDontWant

浏览 0提问于2011-04-14得票数 0

1回答

多处理BeautifulSoup* bs4.element.Tag*

python-2.7、beautifulsoup、pickle、python-multiprocessing

我试图与BeautifulSoup一起使用多重处理，但遇到了一个maximum recursion depth exceeded错误： result= card.find("p") soup = BeautifulSoup(url,

浏览 4提问于2015-08-08得票数 1

回答已采纳

3回答

在子线程中创建BeautifulSoup对象将打印编码错误

python、multithreading、beautifulsoup、thread-safety、lxml

我写了一个示例代码：from bs4 import BeautifulSoupdef test():r = requests.get('http://zhuanlan.sina.com.cn/') print('run

浏览 0提问于2018-03-26得票数 1

1回答

python美汤ascii错误

python、ascii、beautifulsoup

当我下载一本英文圣经时，我的脚本会起作用。但是当我下载一本外国的圣经时，它给了我一个ascii错误。pythonimport lxml.html as html continue if (os.path.isdir(dirname) == 0): soup =

浏览 2提问于2012-05-16得票数 1

回答已采纳

2回答

我正在尝试使用Python进行web抓取，并提出了如下请求，并得到了响应。但不知道怎么处理

python、web-scraping、python-requests

此外，请注意，我已更改的网址隐私的原因。提前谢谢你的帮助。

浏览 1提问于2021-10-27得票数 0

点击加载更多

将Unicode传递给BeautifulSoup4