我正在使用lxml.html解析html文件,并从页面中获取文本。但是现在我有了一个字符串,它有一个字符'
,例如Florian's
,因此,在打印输出时,我得到了回溯
parent_link_id_text = parent_link_id.xpath('./td[@width="400"]/text()')
print (SGS_Mid[0]+";"+"External"+";"+str(link_id_num[0])+";"+parent_link_id_text[0]+";"+parent_link_link[0], file = log_file_1)
UnicodeEncodeError:'ascii‘编解码器无法对位置56-58的字符进行编码:序数不在范围内(128)
然后我试了一下
print (SGS_Mid[0]+";"+"PublicFreeUrl"+";"+str(link_id_num[0])+";"+unicode(parent_link_id_text[0],"utf-8")+";"+parent_link_link[0], file = log_file_1)
我得到了一个回溯:
TypeError:不支持解码Unicode
如何通过打印带有unicode字符的字符串来解决此问题?
发布于 2013-10-23 00:07:14
我不确定这是否是你问题的解决方案,但也许它会引导你朝着正确的方向前进。
在没有看到实际获取数据的代码的情况下,我将对如何解决您的问题进行推测和编程猜测。
请参考以下代码:
import lxml.html as lh
import urllib2
url = 'http://loremipsum.net/about.html'
doc = lh.parse(urllib2.urlopen(url))
value = doc.xpath('//p/strong/text()')[0]
print value
打印结果:
什么是“lorem ipsum”?
通过阅读lorem ipsum站点上的about页面,您可以看到返回的文本确实包含‘in it’。
我希望这能帮助你朝着正确的方向前进。
https://stackoverflow.com/questions/17701130
复制相似问题