我有一些具有特殊德语字符的单词(于聚乙二醇),并希望逐个字母地遍历这些单词。拥有这些特殊字符会产生问题,因为它们被转换为两个字符:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
print "ä" # prints ä
print len(["ä"]) # prints 1
print len(list("ä")) # prints 2
s = set()
s.add("ä")
a = next(iter(s))
print s # prints: set(['\xc3\xa4'])
print a # prints: ä
print len(a) # prints: 2我需要修改什么才能得到1作为答案,现在2是打印的地方?
发布于 2015-05-19 14:13:19
您可以在python scrip的顶部使用它(必须是第一个语句)。
from __future__ import unicode_literals
这样做的效果是隐式地将u前缀应用于所有字符串。
这是不是无可争辩的,但作为避免unicode问题的良好实践的一部分,这是我的首选。您还应该像评论中提到的@Basil Bourque一样,阅读关于unicode的文章,这样您就可以很好地了解情况。而且,与unicode_literals一样,unicode三明治对于避免这类问题也很重要。
发布于 2015-05-19 14:02:00
在Python2.7中,Unicode字符串的处理方式如下:
>>> print "ä"
ä
>>> len("ä")
2
>>> print u"ä"
ä
>>> len(u"ä")
1使用Unicode字符串的u前缀。
https://stackoverflow.com/questions/30327853
复制相似问题