因此,我尝试使用缓冲阅读器将文档(.txt)读入java项目,对其进行编辑,然后返回/输出。我遇到的问题是我无法识别标点符号。文档是这样写的:
你好,hello.hello,你好/你好?
作为对我想要处理的不同情况的测试。我得到了:
您好您好
有什么建议吗?(如果需要回答,我将提供代码部分)我正在考虑使用分隔符,但不知道如何在上下文中实现(或者是否可以使用缓冲阅读器)。
顺便说一句,我正在逐个字符地阅读和编辑这篇文档,并通过多个数组中的检查来运行它,以包括某些字符。如果这有帮助的话。
发布于 2013-11-01 02:37:59
您可以通过循环readLine将整个文件读入一个字符串(不建议用于大文件)
然后在字符串上:
String.split("[\s.,/]")这将把你的字符串拆分成几个不同的字符。
或者,如果您想拆分所有非字母:
String.split("[^A-Za-z]")这将为您提供一个字符串数组,使用起来相当容易。然后你只需在最后写回。
发布于 2013-11-01 03:10:41
如果你想处理所有的标点符号和空格,我建议你使用lucene tokenizer来完成这项工作。这里给出了一个示例实现,How to use a Lucene Analyzer to tokenize a String?,但这取决于您的需求。如果只是逗号和空格,那么正则表达式就可以完成所需的工作
https://stackoverflow.com/questions/19714164
复制相似问题