我刚开始接触NLP,我偶然发现了OpenNLP。根据我的理解,tokenization意味着将文本分割成单词和句子。单词通常被空格隔开,但并不是所有的空白都是相等的。例如,洛杉矶在一个人的思想上,不顾空白处。但是,每当我运行OpenNLP Tokenizer时,它都会为洛杉矶创建两个不同的令牌: Los & Angeles。这是我的代码(我从旧的OpenNLP站点获得了en-token.bin模型)。
InputStream inputStream = new FileInputStream("C:\\apache-opennlp-1.9.0\\Models\\en-toke