问查找和替换非utf8字符
EN

Stack Overflow用户

提问于 2021-01-13 13:38:05

回答 1查看 116关注 0票数 1

我有一个进程将数据插入到PDF中，最终加载到基于插入数据的搜索系统中。插入的数据如下所示：

<<
/IBM-ODIndexes
<< /Private
<<
  /DOB (05031983)
  /FULL_NAME (TEST USER)
  /YEAR (2020)
>>
/LastModified(D:20210112201530)
>>

但是，在某些情况下，FULL_NAME字段中的数据包含非UTF8字符，然后用户无法搜索数据。具体来说，撇号来自Microsoft，然后被解释为：

/FULL_NAME (JERRY OÃ<83>Â¢Ã¢â<80><9a>Â¬Ã¢â<80><9e>Â¢CONNELL)

在本例中，我希望去掉表示为Ã<83>Â¢Ã¢â<80><9a>Â¬Ã¢â<80><9e>Â¢的撇号，并将其替换为空白。

bash

vim

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-01-14 00:16:05

这里有几个复杂性，但总的来说，我要说的是，处理这个问题的唯一可靠方法是找出传入文档的文本编码，并将其转换为目标编码。

Ã<83>Â¢Ã¢â<80><9a>Â¬Ã¢â<80><9e>Â¢是34个字符(也就是说，至少34个字节)，没有一个编码为单个字符使用这么大的空间。可能发生的是多个级别的编码，例如happening、base64、UTF-8/16/32，或者转义字符，如%%表示%，在SQL中表示%，或者用\\表示\。手动逆转所有这些级别的编码将涉及到大量读取庞大的docx标准。更简单的选择是使用一个库，它可以将整个文本转换成一个已知的字符编码，在这个时候，您最多需要完成一次转换为UTF-8。

另一个理由是，“撇号字符串”确实包含其他无害字符，如“a”和“e”。如果至少没有对编码有一定的了解，就不可能将编码字符与非编码字符分开，这将使结果文本中充满无效文本。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/65703097

复制

相似问题

问查找和替换非utf8字符
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问查找和替换非utf8字符EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问查找和替换非utf8字符
EN