文章/答案/技术大牛

发布

社区首页 >问答首页 >从文本中删除所有无效字符(例如\uf0b7)

问从文本中删除所有无效字符(例如\uf0b7)
EN

Stack Overflow用户

提问于 2019-05-28 16:08:15

回答 2查看 2K关注 0票数 0

我目前有几个文本，其中有时包含字符‘无效字符’，例如\uf0b7或\uf077。我没有办法知道一个特定的文本可能包含哪些无效的字符代码，我想知道是否有一种方法可以确保清除字符串中所有类型的“无效字符”，因为后来的一个进程(依赖于第三方软件包)无法接收包含它的字符串。

我尝试过寻找解决方案，但得到的结果都是关于人们想要删除的常规字符(例如，'^%$&*')的答案，这些字符被归类为无效字符，但是我想删除/替换所有形式的实际字符‘无效字符’

nlp

data-cleaning

python

python-3.x

string

回答 2

Stack Overflow用户

发布于 2019-05-28 16:20:52

Python库的编解码器可能会有所帮助。看看这里的文档：https://docs.python.org/2/library/codecs.htm

在我的用例中，我正在对包含非ASCII文本的文档进行一些分析。就我而言，忽略无效字符是可以接受的。我用以下代码行打开文件，并能够解析语料库。

for filename in os.listdir(ROOT_DIR):
    with codecs.open(os.path.join(ROOT_DIR, filename), encoding = 'UTF8', errors ='replace' ) as f:

票数 0

Stack Overflow用户

发布于 2021-02-19 00:30:57

我也遇到过类似的问题。It turns out专用区域字符位于Co general category中，由category()在unicodedata中返回。

我解决了下面的问题：

import unicodedata

def is_pua(c):
    return unicodedata.category(c) == 'Co'

content = "This\uf0b7 is a \uf0b7string \uf0c7with private \uf0b7use are\uf0a7as blocks\uf0d7." 

"".join([char for char in content if not is_pua(char)])

这将输出以下内容：

'This is a string with private use areas blocks.'

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/56337705

复制

相似问题

问从文本中删除所有无效字符(例如\uf0b7)
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从文本中删除所有无效字符(例如\uf0b7)EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从文本中删除所有无效字符(例如\uf0b7)
EN