我在我的项目中使用了porter词干分析器(使用python)。但我在输出中看到了一些错误。例如,术语“内部”改为“介绍”,而不是“介绍”。有可能改善这个结果吗?
发布于 2018-01-02 22:26:00
为什么你认为这是一个错误?Porter Stemmer算法中的第2步说明:
当词干中有另一个元音时,
Step2()将末尾'y‘转换为'i’。
所以确实应该将introductory转换为introductori
也就是说,如果你确实想把它分解成一个基本的词,你可以在Step4()中这样做
case 'i': if (ends("iciti")) { r("ic"); break; }
if (ends("tori")) { r("t"); break; }
break; https://stackoverflow.com/questions/46265378
复制相似问题