"tokenizer": "standard": 这设置了标准分词器,它按空格和标点符号将文本拆分为单词。...这些处理操作包括:转换为小写、删除停用词、添加同义词等。...同义词
synonym token filter 可以帮助我们处理同义词。它可以将某个词或短语映射到其它的同义词。...我们可以使用synonyms_path 指定同义词规则路径,这个文件中列出了所有你定义的同义词,每行都是一组同义词,各词之间用逗号分隔。...ik提供的两种analyzer
ik_max_word会将文本做最细粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国