问TypeError:不支持解码Unicode
EN

Stack Overflow用户

提问于 2013-07-17 21:30:39

回答 1查看 2.9K关注 0票数 3

我正在使用lxml.html解析html文件，并从页面中获取文本。但是现在我有了一个字符串，它有一个字符'，例如Florian's，因此，在打印输出时，我得到了回溯

parent_link_id_text =  parent_link_id.xpath('./td[@width="400"]/text()')
print (SGS_Mid[0]+";"+"External"+";"+str(link_id_num[0])+";"+parent_link_id_text[0]+";"+parent_link_link[0], file = log_file_1)

UnicodeEncodeError：'ascii‘编解码器无法对位置56-58的字符进行编码:序数不在范围内(128)

然后我试了一下

print (SGS_Mid[0]+";"+"PublicFreeUrl"+";"+str(link_id_num[0])+";"+unicode(parent_link_id_text[0],"utf-8")+";"+parent_link_link[0], file = log_file_1)

我得到了一个回溯：

TypeError:不支持解码Unicode

如何通过打印带有unicode字符的字符串来解决此问题？

python

python-2.7

unicode-string

lxml.html

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-10-23 00:07:14

我不确定这是否是你问题的解决方案，但也许它会引导你朝着正确的方向前进。

在没有看到实际获取数据的代码的情况下，我将对如何解决您的问题进行推测和编程猜测。

请参考以下代码：

import lxml.html as lh
import urllib2

url = 'http://loremipsum.net/about.html'

doc = lh.parse(urllib2.urlopen(url))

value = doc.xpath('//p/strong/text()')[0]

print value

打印结果：

什么是“lorem ipsum”？

通过阅读lorem ipsum站点上的about页面，您可以看到返回的文本确实包含‘in it’。

我希望这能帮助你朝着正确的方向前进。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/17701130

复制

相似问题

问TypeError:不支持解码Unicode
EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问TypeError:不支持解码UnicodeEN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问TypeError:不支持解码Unicode
EN