我试着用一个spacy匹配器从偏执中提取数据。
例如:“我在StackOverflow工作了x年,我在这里提出关于自然语言处理(NLP) (信息检索)的(技术)问题”。
匹配器的期望输出是:(x年),(技术) (NLP) (信息检索)
下面是我试图使用的代码
nlp = spacy.load("en_core_web_sm")
text = 'I am on StackOverflow(for x years) and I ask (technical) questions here about Natural Language Processing (NLP) (in
我在一段文本上运行spacy,它不会以相同的方式提取引号中的文本,我不明白为什么会这样
nlp = spacy.load("en_core_web_lg")
doc = nlp("""A seasoned TV exec, Greenblatt spent eight years as chairman of NBC Entertainment before WarnerMedia. He helped revive the broadcast network's primetime lineup with shows like "Th
玩spaCy,数书中的单词。这主要是一次快速而干净的小练习。我先这样运行代码:
import spacy
nlp = spacy.load('en_core_web_sm')
with open("sherlock.txt", encoding='utf8') as sherlock:
sherlock = str(sherlock.readlines())
text = nlp(sherlock)
count = text.count_by(spacy.attrs.POS)
for k, v in count
我想从存储在Pandas数据框列中的25万字符串对象中创建Spacy nlp对象。有没有办法优化下面的“应用”方法,也就是说,有没有办法向量化spacy nlp对象的调用? import pandas as pd
import spacy
nlp = spacy.load("en_core_web_sm")
df = pd.DataFrame({"id": [1, 2, 3], "text": ["this is a text", "another easy one", "oh you come on
我想使用spacy的NER模型从头开始训练一个使用100万个句子的模型。该模型只有两种类型的实体。这是我正在使用的代码。因为我不能共享数据,所以我创建了一个虚拟数据集。 我的主要问题是模型训练时间太长。如果你能强调我代码中的任何错误,或者建议其他方法来加速训练,我将不胜感激。 TRAIN_DATA = [ ('Ich bin in Bremen', {'entities': [(11, 17, 'loc')]})] * 1000000
import spacy
import random
from spacy.util import mi
我对spacy和python很陌生,我正在使用python和nltk来训练我自己的spacy模型,这里是我的代码,我在这里训练数据和测试数据,如果我提供与文本数据相同的测试数据,但是我无法识别超过2个标签,而且每次我编译代码时标签识别是不同的和不正确的,我已经参考了spacy网站,但是我无法找到解决方案。请救救我!
from __future__ import unicode_literals, print_function
import plac
import random
from pathlib import Path
import spacy
# new entity label
我使用空空白空间模型来训练我自己的ner数据。我正在为来自train_data的实体训练我的模型。
nlp = spacy.blank('en')
def train_model(train_data) :
if 'ner' not in nlp.pipe_names:
ner = nlp.create_pipe('ner')
nlp.add_pipe(ner)
for _ ,annotation in train_data :
for ent in an
我第一次用bellow训练的数据实现了自定义NER,它给了我很好的名字和PrdName预测。我提到了暗号。
if __name__ == '__main__':
TRAIN_DATA = [
('My Name is Rajesh', {'entities': [(11, 17, 'Name')]}),
('My Name is Bakul', {'entities': [(11, 16, 'Name')]}),
我一直在一些文本上训练我的NER模型,并试图在其中找到具有自定义实体的城市。
示例:-
('paragraph Designated Offices Party A New York Party B Delaware paragraph pricing source calculation Market Value shall generally accepted pricing source reasonably agreed parties paragraph Spot rate Spot Rate specified paragraph reasonably agreed
I成功地训练了一个空间实体链接模型(显然是通过限制数据)。
我的问题是如何将kb中实体的描述显示为输出?
import spacy
nlp = spacy.load(r"D:\el model\nlp")
doc = nlp("Amir Khan is a great boxer")
ents = [(e.text, e.label_, e.kb_id_) for e in doc.ents]
print(ents)
我试图将数据帧csv加载到spacy管道中。我得到了参数字符串错误,这是我的代码。
from __future__ import unicode_literals
nlp = spacy.load('en')
data = pd.read_csv("sometextdata.csv")
text = []
for line in data.Line:
text.append(clean_text(line))
text_spacy = nlp(data['Line'])
data['Line'].app
我试图使用葡萄酒评论数据集进行沙箱项目,并希望将文本数据和一些工程数字特性结合到神经网络中,但我收到了一个值错误。
我所拥有的三组特性是描述(实际评论)、缩放价格和缩放字数(描述长度)。Y目标变量I转换成一个二分法变量,表示好的或坏的评论,将其转化为分类问题。
这些是否是最好的特性并不重要,但我希望将NLP与元数据或数字数据结合起来。当我只使用描述运行代码时,它工作得很好,但是添加附加变量会导致值错误。
y = df['y']
X = df.drop('y', axis=1)
# split up the data
X_train, X_test, y_tra