问Spacy 2.4版本模型加载中的中文分词选择
EN

Stack Overflow用户

提问于 2020-06-30 04:12:49

回答 1查看 181关注 0票数 0

对于中文模型加载，如何加载所有模型，同时仍然可以设置pkuseg和jieba设置？

nlp = Chinese() # Disable jieba through tokenizer config options 
cfg = {"use_jieba": False} 
nlp = Chinese(meta={"tokenizer": {"config": cfg}})

由Chinese()创建的'nlp‘除了分割模型之外没有其他模型。这只能加载分段器模型。如果我这样做是为了获得'nlp‘对象：

nlp = spacy.load('zh_core_web_sm')

这将加载所有模型。但是，如何控制这个load函数中的pkuseg或jieba参数呢？

回答已采纳

发布于 2020-06-30 17:17:37

您不希望修改加载的模型中的分段设置。

从技术上讲，将加载的模型从pkuseg切换到jieba是可能的，但如果这样做，模型组件的性能将非常糟糕，因为它们只接受过pkuseg分段的训练。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/62645972

复制

相似问题

问Spacy 2.4版本模型加载中的中文分词选择EN