我有一个很大的文本文件,我将以编程方式处理它,但遇到了文件中散布着特殊字符的问题。该文件太大,无法扫描它以查找特定字符。大多数其他不需要的特殊字符,我已经能够使用一些正则表达式模式来摆脱。但是有一个方框字符,类似于“-”。当我试图从实际的文本文件中复制字符并通过它时,我得到了"�",所以这个框的例子来自Windows字符映射,其中包含代码'U+25A1',我不确定如何解释它,或者它是否可以用于正则表达式搜索。
有人知道如何在UTF-8编码文件中搜索类似于“-”的方框符号吗?
编辑:
下面是文本文件中的一个示例:
�修剪棕榈花时,或推迟修剪,直到棕榈花开花后,以防止滋生棕榈花毛虫。保留最上面的五行。
唯一的问题是,正如最初的帖子中提到的那样,正方形被转换为菱形问号。
https://stackoverflow.com/questions/51923029
复制相似问题