我有一个进程将数据插入到PDF中,最终加载到基于插入数据的搜索系统中。插入的数据如下所示:
<<
/IBM-ODIndexes
<< /Private
<<
/DOB (05031983)
/FULL_NAME (TEST USER)
/YEAR (2020)
>>
/LastModified(D:20210112201530)
>>
但是,在某些情况下,FULL_NAME
字段中的数据包含非UTF8字符,然后用户无法搜索数据。具体来说,撇号来自Microsoft,然后被解释为:
/FULL_NAME (JERRY OÃ<83>¢ââ<80><9a>‰â<80><9e>¢CONNELL)
在本例中,我希望去掉表示为Ã<83>¢ââ<80><9a>‰â<80><9e>¢
的撇号,并将其替换为空白。
发布于 2021-01-14 00:16:05
这里有几个复杂性,但总的来说,我要说的是,处理这个问题的唯一可靠方法是找出传入文档的文本编码,并将其转换为目标编码。
Ã<83>¢ââ<80><9a>‰â<80><9e>¢
是34个字符(也就是说,至少34个字节),没有一个编码为单个字符使用这么大的空间。可能发生的是多个级别的编码,例如happening、base64、UTF-8/16/32,或者转义字符,如%%
表示%
,在SQL中表示%
,或者用\\
表示\
。手动逆转所有这些级别的编码将涉及到大量读取庞大的docx标准。更简单的选择是使用一个库,它可以将整个文本转换成一个已知的字符编码,在这个时候,您最多需要完成一次转换为UTF-8。
另一个理由是,“撇号字符串”确实包含其他无害字符,如“a”和“e”。如果至少没有对编码有一定的了解,就不可能将编码字符与非编码字符分开,这将使结果文本中充满无效文本。
https://stackoverflow.com/questions/65703097
复制相似问题