与nltk相比,我之所以选择spacy来处理各种文本,是因为它的引理性能。但是当我处理数以百万计的短文本时,它总是消耗掉我所有的内存(32G)并崩溃。没有它,只要几分钟和不到10克米被消耗。这种方法的使用有什么问题吗?是否有更好的解决方案来提高性能?谢谢!= nlp(' '.join(filtered_tokens))
filtered_tokens = [token.lemma_ for token in spacy_parsed](tokenize
我正在通过Spacy运行相当长的文档,并且希望保留Spacy文档中段落的位置标记,但在解析中忽略它们。我这样做是为了避免为所有段落创建许多不同的文档。使用XPath:\\paragraph[@id="ABC"] This is a test sentence in paragraph ABC的示例
我在这里找个方向。是否需要添加实体/类型或实现自定义令牌程序?我可以使用带有回调函数的matcher来影响特