我有一些使用Unicode标点符号的文本,比如左双引号,右单引号表示撇号,等等,我需要它在ASCII中。Python有没有这些字符的数据库,带有明显的ASCII替代,这样我就可以做得更好,而不是把它们都变成"?“?
发布于 2009-11-09 22:37:23
Unidecode看起来像是一个完整的解决方案。它将花哨的引号转换为ascii引号,将重音的拉丁字符转换为非重音的拉丁字符,甚至尝试音译来处理没有ASCII等价物的字符。这样你的用户就不会看到一堆?当您必须通过传统的7位ascii系统传递它们的文本时。
>>> from unidecode import unidecode
>>> print unidecode(u"\u5317\u4EB0")
Bei Jing
http://www.tablix.org/~avian/blog/archives/2009/01/unicode_transliteration_in_python/
发布于 2009-05-03 04:15:43
这个问题很有趣。
谷歌帮我找到了用unicodedata module描述的this page,如下所示:
import unicodedata
unicodedata.normalize('NFKD', title).encode('ascii','ignore')
https://stackoverflow.com/questions/816285
复制相似问题