首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >从python字符串中删除表情符号

从python字符串中删除表情符号
EN

Stack Overflow用户
提问于 2016-09-17 15:40:05
回答 1查看 2K关注 0票数 2

我需要删除一些使用python脚本字符串的表情符号。我发现有人已经问了这个question,并且其中一个答案被标记为成功,即以下代码可以完成此任务:

代码语言:javascript
复制
#!/usr/bin/env python
import re

text = u'This dog \U0001f602'
print(text) # with emoji

emoji_pattern = re.compile("["
    u"\U0001F600-\U0001F64F"  # emoticons
    u"\U0001F300-\U0001F5FF"  # symbols & pictographs
    u"\U0001F680-\U0001F6FF"  # transport & map symbols
    u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
                       "]+", flags=re.UNICODE)
print(emoji_pattern.sub(r'', text)) # no emoji

我将此代码插入到我的脚本中,并将其更改为仅作用于代码中的字符串,而不是示例文本。然而,当我运行代码时,我得到了一些我不理解的错误:

代码语言:javascript
复制
Traceback (most recent call last):
  File "SCRIPT.py", line 31, in get_tweets
"]+", flags=re.UNICODE)
  File "/usr/local/Cellar/python/2.7.12/Frameworks/Python.framework /Versions/2.7/lib/python2.7/re.py", line 194, in compile
    return _compile(pattern, flags)
  File "/usr/local/Cellar/python/2.7.12/Frameworks/Python.framework/Versions/2.7/lib/python2.7/re.py", line 251, in _compile
    raise error, v # invalid expression
sre_constants.error: bad character range

我知道这个错误是什么意思,但由于我从Stackexchange获取了这段代码,我不明白为什么它显然适用于讨论中的人,而不适用于我。如果有帮助的话,我正在使用Python 2.7。谢谢!

EN

回答 1

Stack Overflow用户

发布于 2016-09-17 16:33:52

Python构建使用surrogate pairs来表示不能用16位表示的unicode字符--这就是所谓的“窄构建”。这意味着任何大于或等于u"\U00010000"的值都将存储为两个字符。由于即使在unicode模式下,正则表达式解析器也是逐个字符工作的,如果您尝试使用该范围内的字符,这可能会导致不正确的行为。

在这种特殊情况下,Python只将表情符号代码的前半部分视为范围的结束,并且该“半部分”小于范围的起始值,从而使其无效。

代码语言:javascript
复制
Python 2.7.10 (default, Jun  1 2015, 09:44:56) 
[GCC 4.2.1 Compatible Apple LLVM 6.1.0 (clang-602.0.53)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import sys
>>> sys.maxunicode
65535
>>> tuple(u"\U00010000")
(u'\ud800', u'\udc00')

基本上,你需要得到一个“广泛的构建”的Python才能工作:

代码语言:javascript
复制
Python 3.5.2 (default, Jul 28 2016, 21:28:00) 
[GCC 4.2.1 Compatible Apple LLVM 7.3.0 (clang-703.0.31)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import sys
>>> sys.maxunicode
1114111
>>> tuple(u"\U00010000")
('?',)

这个字符在浏览器中不能正确显示,但它只显示一个字符,而不是两个。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/39544235

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档