我在寻找如何在用java语言用lucene编写的法语文档中提取和消除空洞的单词,我在互联网上查看过,但我没有找到好的教程。
发布于 2017-03-26 21:18:27
这很简单,您所需要的只是这样一个FrenchAnalyzer:
IndexWriterConfig conf= new IndexWriterConfig (Version.LUCENE_45,new FrenchAnalyzer(Version.LUCENE_45,FrenchAnalyzer.getDefaultStopSet()));对于空单词,我们使用: FrenchAnalyzer.getDefaultStopSet(),就像我在前面的代码中所做的那样,对于柠檬化,它已经集成在这个分析器中,您可以注意到,当您查找重要的单词时(通过tf )。
发布于 2017-03-25 23:44:09
“空词”的术语是https://en.wikipedia.org/wiki/Stop_words。
Lucene提供了FrenchAnalyzer类,它附带了法语的默认停止单词列表。
用那门课做你的分析器。
https://stackoverflow.com/questions/43022936
复制相似问题