我对这些框架和NLP都很陌生。下面是一个示例,它给出了下面的代码片段,用于计算tweet中所有令牌的TF-下手得分。但是,我总是得到导入错误或未定义的向量器。
代码:
import spacy
from textacy.vsm import Vectorizer
import textacy.vsm
vectorizer = Vectorizer(weighting = 'tfidf')
term_matrix = vectorizer.fit_transform([tok.lemma_ for tok in doc] for doc
in spacy_tweets
我正在尝试将一个自定义PhraseMatcher()组件集成到我的nlp管道中,这样我就可以加载自定义Spacy模型,而不必在每次加载时将我的自定义组件重新添加到通用模型中。
如何加载包含自定义管道组件的Spacy模型?
我创建组件,将其添加到管道中,并使用以下方法保存它:
import requests
from spacy.lang.en import English
from spacy.matcher import PhraseMatcher
from spacy.tokens import Doc, Span, Token
class RESTCountriesComponent(
以下代码运行时没有错误
import spacy
from spacy.matcher import PhraseMatcher
nlp = spacy.load('en_core_web_lg')
test = nlp(' FWCA rate of pay')
phrase_pattern = [r'Rate of Pay']
pattern_name = 'RATES'
patterns = [nlp.make_doc(name) for name in phrase_pattern]
matcher = PhraseM
我使用spacy 2.0,并使用一个引号字符串作为输入。
示例字符串
"The quoted text 'AA XX' should be tokenized"
并期望提取
[The, quoted, text, 'AA XX', should, be, tokenized]
然而,我在实验中得到了一些奇怪的结果。名词块和名词省略了其中一个引语。
import spacy
nlp = spacy.load('en')
s = "The quoted text 'AA XX' should be tokeni
我正在尝试在spacy中连接实例的实体。
这是我的系统中有关spaCy的信息。
============================== Info about spaCy ==============================
spaCy version 2.2.2
Location C:\Users\manimaran.p\AppData\Local\Continuum\anaconda3\envs\spacy\lib\site-packages\spacy
Platform Windows-8.1-6.3.9600-SP0
Python v
我正在使用spacy的PhraseMatcher来识别用户评论中的药物名称。当应用服务器启动时,我正在从一个大文件中预装名称,但不希望在每个文档进程中都这样做,因为这需要一段时间。在处理新文档时,我希望在短语中添加识别出的新药物,以便它识别新的名称。然而,spacy不会接受同样的match_id的新药。任何帮助都将不胜感激。
# Global preload when application server starts
import spacy
from spacy.matcher import PhraseMatcher
nlp = spacy.blank("en")
dr
我正在尝试将spacy已经训练过的挪威Bokm l解析器添加到空白的spacy管道中。当我添加管道时,我没有收到错误消息,但是不管输入是什么,管道都将所有标记归类为名词。我在这里错过了什么?
import spacy
from spacy import displacy
nlp = spacy.blank("nb")
wanted_pipes = ["morphologizer", "parser"]
for pipe_name in wanted_pipes:
if pipe_name not in nlp.pipe_names:
我使用了中提供的命令。我遵循以下所有步骤:-
使用spacy格式创建模型TRAIN_DATA =[ ("Pizza is a common fast food.", {"entities": [(0, 5, "FOOD")]}), ("Pasta is an italian recipe", {"entities": [(0, 5, "FOOD")]})]
使用以下代码转换.spacy文件中的列车和开发数据:-
import os
from tqdm import tqdm
impo
我正试着训练新的实体为斯佩西纳。我尝试将我的新实体添加到现有的spacy 'en‘模型中。然而,这影响了'en'和我的新实体的预测模型。
因此,我建立了一个空白模型并训练了实体识别。这个效果很好。然而,它只能预测我训练过的对象,而不能预测常规的spacy实体识别。
比如说我把“马”训练成动物实体。
对于给定的文本
txt ='Did you know that George bought those horses for 10000 dollars?'
我期待着下列实体得到认可
George - PERSON
horses - ANIMAL
10000
我使用了以下函数来清除数据集的文本注释:
import spacy
nlp = spacy.load("en")
def clean(text):
"""
Text preprocessing for english text
"""
# Apply spacy to the text
doc=nlp(text)
# Lemmatization, remotion of noise (stopwords, digit, puntuaction and singol character
我已经用以下步骤定制了NER管道
doc = nlp("I am going to Vallila. I am going to Sörnäinen.")
for ent in doc.ents:
print(ent.text, ent.label_)
LABEL = 'DISTRICT'
TRAIN_DATA = [
(
'We need to deliver it to Vallila', {
'entities': [(25, 32, 'DISTRICT')]