首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >查找和替换非utf8字符

查找和替换非utf8字符
EN

Stack Overflow用户
提问于 2021-01-13 13:38:05
回答 1查看 116关注 0票数 1

我有一个进程将数据插入到PDF中,最终加载到基于插入数据的搜索系统中。插入的数据如下所示:

代码语言:javascript
运行
复制
<<
/IBM-ODIndexes
<< /Private
<<
  /DOB (05031983)
  /FULL_NAME (TEST USER)
  /YEAR (2020)
>>
/LastModified(D:20210112201530)
>>

但是,在某些情况下,FULL_NAME字段中的数据包含非UTF8字符,然后用户无法搜索数据。具体来说,撇号来自Microsoft,然后被解释为:

/FULL_NAME (JERRY OÃ<83>¢ââ<80><9a>‰â<80><9e>¢CONNELL)

在本例中,我希望去掉表示为Ã<83>¢ââ<80><9a>‰â<80><9e>¢的撇号,并将其替换为空白。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-01-14 00:16:05

这里有几个复杂性,但总的来说,我要说的是,处理这个问题的唯一可靠方法是找出传入文档的文本编码,并将其转换为目标编码。

Ã<83>¢ââ<80><9a>‰â<80><9e>¢是34个字符(也就是说,至少34个字节),没有一个编码为单个字符使用这么大的空间。可能发生的是多个级别的编码,例如happening、base64、UTF-8/16/32,或者转义字符,如%%表示%,在SQL中表示%,或者用\\表示\。手动逆转所有这些级别的编码将涉及到大量读取庞大的docx标准。更简单的选择是使用一个库,它可以将整个文本转换成一个已知的字符编码,在这个时候,您最多需要完成一次转换为UTF-8。

另一个理由是,“撇号字符串”确实包含其他无害字符,如“a”和“e”。如果至少没有对编码有一定的了解,就不可能将编码字符与非编码字符分开,这将使结果文本中充满无效文本。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/65703097

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档