Spacy文本分类:获取错误消息"'float‘object is not iterable“

nlp、spacy、text-classification、document-classification、spacy-transformers

我想用句子做一些有监督的二进制分类任务，并且一直在使用spaCy，因为它易于使用。我使用spaCy将文本转换为向量，然后将向量提供给机器学习模型(例如XGBoost)来执行分类。然而，结果并不是很令人满意。在spaCy中，很容易加载 (例如BERT / Roberta / XLNet)来将单词/句子转换为nlp对象。然而，直接调用对象的向量将到令牌向量的平均值。这里有两个问题： 1)我们能做得比简单地获得标记向量的平均值更好吗，比如使用spaCy获得上下文/顺序感知的句子向量？例如，我们能否从BERT转换器的上一层提取句子嵌入，而不是spaCy中的最终标记向量？ 2)直接使用spaCy来训

浏览 17提问于2020-05-06得票数 0

1回答

空白模型与预训练模型在空间上的区别

python、spacy、text-classification

目前，我正试图使用spacy来训练文本分类器，我遇到了以下问题:使用spacy.blank('en')创建空白模型与使用经过预先训练的模型spacy.load('en_core_web_sm')有什么区别。为了了解我编写的代码的不同之处： text = "hello everyone, it's a wonderful day today" nlp1 = spacy.load('en_core_web_sm') for token in nlp1(text): print(token.text, token.le

浏览 2提问于2020-03-27得票数 3

回答已采纳

3回答

在使用Spacy，Bert时，是否有必要对文本分类进行停用词删除、词干提取/词汇化？

nlp、spacy、text-classification、bert-language-model

当使用Spacy，Bert或其他高级NLP模型来获得文本的向量嵌入时，文本分类是否有必要进行停用词删除、词干提取和词汇化？ Text=“婚礼上供应的食物非常美味” 1.由于Spacy，Bert是在巨大的原始数据集上训练的，在使用bert/spacy生成用于文本分类任务的嵌入之前，在这些文本上应用停用词删除、词干提取和词汇化是否有任何好处？ 2.我可以理解，当我们使用countvectorizer，tfidf向量器来实现句子的嵌入时，去掉停用词，词干提取和词汇化会很好。

浏览 4提问于2020-08-28得票数 7

1回答

我可以使用Spacy进行名词分类吗？

spacy

人们使用Spacy来检测文本中的命名实体(专有名词)。我想知道是否可以使用Spacy来检测和分类名词，而不是专有名词。如果我们用名词分类数据集进行训练，同样的算法会起作用吗？

浏览 0提问于2020-01-07得票数 0

1回答

SpaCy在spacy-lookups-data中找不到语言'en‘的表lexeme_norm

python、nlp、spacy

我正在尝试用SpaCy训练一个文本分类管道： import spacy nlp = spacy.load("en_core_web_sm") nlp.add_pipe("textcat", last=True) other_pipes = [pipe for pipe in nlp.pipe_names if pipe != 'textcat'] with nlp.disable_pipes(*other_pipes): optimizer = nlp.begin_training() # training logic 但是，

浏览 155提问于2021-02-25得票数 4

回答已采纳

1回答

一种热编码文本数据的方法

python、scikit-learn、pytorch、spacy、one-hot-encoding

我想知道如何在pytorch中对文本数据进行热编码？对于数字数据，您可以这样做。 import torch import torch.functional as F t = torch.tensor([6,6,7,8,6,1,7], dtype = torch.int64) one_hot_vector = F.one_hot(x = t, num_classes=9) print(one_hot_vector.shape) # Out > torch.Size([7, 9]) 但是，如果您有文本数据而不是 from torchtext.data.utils import get_t

浏览 11提问于2022-02-16得票数 0

1回答

NER概率的spaCy 3波束解析

python、spacy

我正在尝试检索我的spaCy模型在将正确的标签分配给实体时的概率。我使用的是spaCy版本3.0.5。 threshold = 0.5 for i in testing_raw: doc = nlp_updated(i) beams = nlp_updated.beam_parse([ doc ], beam_width = 16, beam_density = 0.0001) entity_scores = defaultdict(float) for beam in beams: for score, ents in n

浏览 11提问于2021-05-06得票数 1

回答已采纳

2回答

我们可以训练Spacy进行文本摘要吗

nlp、spacy、spacy-3

Spacy可以训练NER，文本分类。我们可以使用它的功能进行摘要，所以我们可以训练spacy来提高摘要的准确性吗？

浏览 67提问于2021-09-22得票数 0

2回答

空间TextCat评分在MultiLabel分类中的应用

spacy、text-classification、multilabel-classification

在spacy的文本分类示例中，有两个标签指定了正和阴性。因此，猫的得分被表示为 cats = [{"POSITIVE": bool(y), "NEGATIVE": not bool(y)} for y in labels] 我正在使用多标签分类，这意味着我有两个以上的标签标记在一个文本中。我增加了我的标签 textcat.add_label("CONSTRUCTION") 为了指定我用过的猫分数 cats = [{"POSITIVE": bool(y), "NEGATIVE": not bool(y)} for y

浏览 5提问于2020-06-12得票数 4

1回答

spaCy分类器：“unicode”对象没有属性“”to_array“”

python、nlp、classification、spacy

我正在尝试用spaCy编写一个最小的文本分类器。我编写了以下代码片段来训练文本分类器(不训练整个NLP管道)： import spacy from spacy.pipeline import TextCategorizer nlp = spacy.load('en') doc1 = u'This is my first document in the dataset.' doc2 = u'This is my second document in the dataset.' gold1 = u'Category1' gold2

浏览 0提问于2018-05-15得票数 1

1回答

训练基本的spacy文本分类模型

python、nlp、spacy

我正在尝试使用spaCy训练一个基本的文本分类模型。我有一个文本列表，我想建立一个模型，将文本分类为outcome1或outcome2。假设我的数据是这样的： texts = ["This is the first example text", "This is the second example text", "This is yet another text"] y = ["outcome2", "outcome1", "outcome1"] 我的问题是，我

浏览 9提问于2021-07-23得票数 5

1回答

将标记文本分类数据转换为spaCy v3格式的最佳简便方法

nlp、spacy

让我们假设我们已经在一个不错的CSV文件中为文本分类标记了数据。我们有两列-“文本”和“标签”。我有点想要理解spacy V3。文档。如果我正确理解spacy示例的主要来源，v3文档就是这个项目())。但是，培训数据已经以预期的JSON嵌套结构格式准备好了。如果我想在spacy v3中执行服装文本分类，我需要将数据转换为示例结构-例如，这里()。如何从熊猫的数据框架到这里？神童是否支持将数据标记为spacy格式？让我们有一个数据集的小例子 pd.DataFrame({ "TEXT":[ "i really like this post",

浏览 7提问于2022-05-12得票数 1

1回答

SpaCy - TextCategorizer -书包:有方法显示矢量化文档吗？

python、nlp、spacy、text-classification、spacy-3

我刚刚使用Space3.0训练并实现了一个文本分类器。一切顺利，但我希望可视化矢量化文档([13, 0, 0, 120..etc])，以便更好地理解驱动单词袋(BoW)模型在特定类中对文档进行分类的特性(words)。 nlp = spacy.load('./nlp_single_label_cli/output/model-best') documents = pd.read_csv(target_directory+'_ocr.csv') ... test_texts = documents['text'].values test_d

浏览 7提问于2022-03-28得票数 1

1回答

空间多标签分类帮助

deep-learning、nlp、multiclass-classification、spacy

我想创建一个使用SpaCy文本多标签的多标签文本分类算法。我不明白以下问题：如何将培训数据转换成SpaCy格式，即我有8类转换后，我们如何使用它来训练自定义类别和应用不同的模型。

浏览 0提问于2022-03-26得票数 2

回答已采纳

1回答

是否有可能找到spaCy POS机标签的不确定性？

python、nlp、spacy、spell-checking

我正在尝试构建一个非英语拼写检查器，它依赖于spaCy对句子的分类，这使得我的算法可以使用词性标签和单个标记的语法依赖性来确定拼写错误(在我的例子中，更具体地说:荷兰语复合词中的错误拆分)。然而，如果句子包含语法错误，例如将名词分类为动词，即使分类后的单词看起来甚至不像动词，spaCy似乎也不能正确地对句子进行分类。正因为如此，我想知道是否有可能获得spaCy分类的不确定性，从而可以判断spaCy是否正在努力处理一个句子。毕竟，如果spaCy正在为分类而苦苦挣扎，这将为我的拼写检查器提供更多关于句子包含错误的信心。有没有办法知道spaCy是否认为一个句子在语法上是正确的(而不必指定我的语

浏览 0提问于2020-12-09得票数 4

1回答

python、text-classification、spacy

我使用spaCy进行文本分类项目。我非常关注spaCy代码示例。唯一重要的区别是我在示例中使用了两个类别，而不是一个类别。我不明白哪里出了问题，因为我检查了一下，我加载的数据的格式与原始示例中的格式相同。下面是相关代码(完整代码如下)： def load_data(limit=0, split=0.8): """Load the patents data.""" # Partition off part of the train data for evaluation temp=pd.read_csv(excel + &

浏览 28提问于2019-01-25得票数 1

回答已采纳

1回答

Spacy -预处理和词汇化需要很长时间

nlp、text-processing、spacy、lemmatization

我正在研究文本分类问题，我尝试了WordNetLemmmatizer，然后是TF-IDF，CountVectorizer。现在，我正在尝试在提供给TF-IDF之前使用Spacy清理文本。输入文件有大约20,000条记录，每条记录只有很少的句子。文件的总大小为45MB。使用WordNet的词汇化只需要几秒钟。但是下面的代码使用Spacy的时间太长了。20分钟后，我的笔记本电脑挂起了。请建议如何优化Spacy的文本预处理和词汇化。我使用的是Spacy 2.0.12。 import spacy nlp = spacy.load('en', disable=['parser

浏览 1提问于2018-09-19得票数 0

1回答

在Pandas Dataframe中进行文本列举化时出现类型错误

python、pandas、text、lemmatization

我正在处理文本数据，并对其执行预处理步骤。我正在使用SpaCy模型对文本执行词汇化。我已经编写了如下代码： import spacy import de_core_news_sm nlp = de_core_news_sm.load() def spacy_lemma_text(text): doc = nlp(text) tokens = [tok.lemma_.lower().strip() for tok in doc] tokens = ' '.join(tokens) return tokens df['spacy_lem

浏览 18提问于2020-03-03得票数 1

回答已采纳

1回答

将函数应用于Dataframe列时处理空值

python、pandas、dataframe、spacy

我正在尝试使用spaCy库对数据框列中的城市(或非城市)进行分类。我的数据框如下： City Match eLocations Match Country Match Region Match CountryCity Match Null Count Null Percent 0 Los Angeles Long Beach Long Beach Long Beach Los Angeles 0 0.0 2 Santos Santos Santos

浏览 0提问于2020-03-05得票数 0

1回答

加载自定义训练的spaCy模型

python、nlp、spacy

我正在尝试加载我之前训练过的spaCy文本分类模型。训练完成后，模型被保存到en_textcat_demo-0.0.0.tar.gz文件中。我想在jupyter笔记本上使用这个模型，但是当我这样做的时候 import spacy spacy.load("spacy_files/en_textcat_demo-0.0.0.tar.gz") 我得到了 OSError: [E053] Could not read meta.json from spacy_files/en_textcat_demo-0.0.0.tar.gz 在这里加载模型的正确方法是什么？

浏览 23提问于2021-07-27得票数 1

回答已采纳

2回答

如何使用spacy对python中的列表列表进行列举化？

python、spacy

我有一个列表，其中包含需要词条分类的单词。我得到一个错误，说字符串是必需的，而不是列表，因为我使用的是Spacy。如果我转换为字符串，即nlp(str(list_1))，那么列表分隔符(如：、和"[“)将被标记化并包含在我的输出中。我怎样才能将列表中的项列出，并将其恢复为相同的形式，即列表列表？需要词条分类的单词可以在列表中的任何位置。我想要这样的东西：输入： [["flower", "grows", "garden"], [["boy", "running", "playground&

浏览 25提问于2019-04-14得票数 1

1回答

如何使用依赖分析特性进行文本分类？

python-3.x、spacy、text-classification

我使用spacy对一个句子进行了依赖分析，并获得了语法依赖标记。 import spacy nlp = spacy.load('en') doc = nlp('Wall Street Journal just published an interesting piece on crypto currencies') for token in doc: print("{0}/{1} <--{2}-- {3}/{4}".format( token.text, token.tag_, token.dep_, token.

浏览 1提问于2020-03-26得票数 0

1回答

dask - AttributeError：“Series”对象没有“”split“”属性“”

python、dask

我有800多万行文本，我想要删除所有停用词，并使用dask.map_partitions()对文本进行词条分类，但得到以下错误： AttributeError: 'Series' object has no attribute 'split' 有没有什么方法可以将函数应用于数据集？谢谢你的帮助。 import pandas as pd import dask.dataframe as dd from spacy.lang.en import stop_words cachedStopWords = list(stop_words.STOP_WORDS) d

浏览 33提问于2019-03-26得票数 1

回答已采纳

1回答

用Spacy和内联：：Python在Perl中对多个MB的原始文本进行细化。为什么这么慢？

python、performance、perl、nlp、spacy

我在NLP上工作，我需要从10 do到300 do的原始输入文本文件中提取大量令牌，我决定使用Inline::Python和spacy来完成这个任务。问题是它很慢。在此之后，我创建了袋子的文字放在一个余弦相似模块，以分类文本从过去几年。是否有一种处理更快、多处理、多线程的方法，或者是Python的管道处理速度慢？我有i9，64 by内存，RTX 2080 by和SSD连接的nvme。下面是法语中一些文本内容和过滤停止词的代码： use Inline Python => <<'END_OF_PYTHON'; import spacy from spacy.l

浏览 1提问于2021-05-05得票数 3

回答已采纳

1回答

有关pdf/docx文件的ner/spacy及其文本位置的一般问题

spacy、named-entity-recognition

我正在研究ner/spacy，并得到了一个更一般的答案。我们实际上对pdf文档进行ocr，其中我们生成了一个包含位置和文本块/段落的json文件。目前，我们正在研究ner/spacy，以分析文本，了解并检查我们是否可以找出特定段落是否像地址或其他东西。然而，我们没有理解的是，是否也可以将位置数据提供给spacy，或者是否可以一个接一个地提供文本块/段落并忽略位置，然而，在这些结构化文档中，位置通常很重要，因为它还会告诉我们它是否是地址。那么spacy能理解这些文档吗？我非常确定，我们更有可能需要使用视觉来检测段落，这将对我们的数据和ner进行分类，而不是用于段落识别文本(因此得名ner

浏览 21提问于2021-08-11得票数 0

1回答

spaCy如何用IOB格式的实体初始化Doc？

python、nlp、spacy、spacy-3

在我的spaCy项目中，我想用文本、标签和空格初始化Doc对象。然而，spaCy并不欣赏我提供标签的方式，并在下面的错误消息中显示了它的不足： doc = Doc(nlp.vocab，words=token_texts，ents=labels，spaces=whitespaces)文件"spacy\tokens\doc.pyx"，第297行，在spacy.tokens.doc.Doc.__init__ ValueError: E177 Ill格式IOB输入检测到：(''，'O') 守则： import spacy from spacy.t

浏览 0提问于2021-10-12得票数 1

回答已采纳

1回答

在管道末尾向Spacy添加Span分类器不起作用

python、spacy

我想在管道的末尾添加使用默认模型的spancat，如下所示。 nlp = spacy.load("en_core_web_sm") from spacy.pipeline.spancat import DEFAULT_SPANCAT_MODEL config = { "threshold": 0.5, "spans_key": "labeled_spans", "max_positive": None, "model": DEFAULT_SPANCAT_MOD

浏览 8提问于2022-09-12得票数 0

2回答

在现有英语模型上实现Spacy中的定制POS标记器: NLP - Python

python、nlp、spacy

我试图重新培训现有的POS标签在空间，以显示适当的标签，某些错误分类的词使用下面的代码。但它给了我一个错误：警告:未命名的向量--这将不允许加载多个向量模型。(形状：(0，0)) from spacy.vocab import Vocab from spacy.tokens import Doc from spacy.gold import GoldParse nlp = spacy.load('en_core_web_sm') optimizer = nlp.begin_training() vocab = Vocab(tag_map={}) doc = Doc

浏览 1提问于2018-08-06得票数 2

1回答

lyrics[rap]的NER模型

python、nlp、named-entity-recognition、named-entity-extraction

我正在寻找任何新的模型培训，从说唱歌词中提取实体。目前，我正在使用Spacy模型对NER，但有很多错误的分类。这是因为spacy模型是在报纸文章上预先培训的。所以，最初的问题是，有什么模型，我可以用在说唱歌词。这就是当前的spacy模型如何对一些单词进行分类。 ('kanye west'，'GPE')，(‘2 2pac’，‘积’)，('hoochie‘，'ORG')，(’山谷‘，'LOC')，('talkin'，'NORP')，('nothin'，'PERSON&

浏览 8提问于2021-05-18得票数 1

2回答

nlp:这个依赖标签正确吗？在这种情况下这到底意味着什么？

nlp、spacy、dependency-parsing

我正在探索令人惊叹的python库，我得到了以下信息： text='The Titanic managed to sail into the coast intact, and Conan went to Chicago.' token_pos=token.pos_表示spacy_doc中的令牌，token_tag=token.tag_表示在spacy_doc中的令牌，在spacy_doc中用于令牌的token_dep=token.dep_ token_pos ['DET', 'PROPN', 'VERB', 'PART

浏览 5提问于2020-07-24得票数 0

回答已采纳

1回答

TextCategorizer.predict如何与spaCy协同工作？

label、classification、spacy、predict

我一直在遵循spaCy的文本分类快速入门指南。假设我有一个非常简单的数据集。 TRAIN_DATA = [ ("beef", {"cats": {"POSITIVE": 1.0, "NEGATIVE": 0.0}}), ("apple", {"cats": {"POSITIVE": 0, "NEGATIVE": 1}}) ] 我正在训练一个管道来对文本进行分类。它经过训练，损失率很低。 textcat = nlp.create_pipe("p

浏览 12提问于2019-08-06得票数 2

回答已采纳

1回答

如何在spaCy中使用生成器对象？

python-3.x、nlp、spacy

第一次在这里使用NLP的经验。我有大约50万条推特。我试图使用spacy删除停止词、狐猴化等，然后将处理过的文本传递给分类模型。由于数据的大小，我需要多个处理才能以合理的速度完成这一任务，但一旦获得生成器对象，就无法知道该如何处理它。在这里，我加载spacy并通过标准管道传递数据： nlp = spacy.load('en') tweets = ['This is a dummy tweet for stack overflow', 'What do we do with generator objects?'] spacy

浏览 0提问于2018-10-14得票数 2

回答已采纳

3回答

spacy和训练数据中的有案例的BERT模型与无案例的BERT模型

python、spacy、bert-language-model

我想使用spacy的预训练的BERT模型进行文本分类，但我对cased/uncased模型有点困惑。我在某处读到过，只有在有可能对任务有帮助的情况下，才应该使用cased模型。在我的特定情况下:我正在处理德语文本。在德语中，所有名词都以大写字母开头。所以，我认为(如果我错了，请纠正我的错误)，这正是必须使用cased模型的情况。(在spacy中，也没有适用于德语的uncased模型)。但是在这种情况下，必须如何处理数据呢？我应该(在预处理训练数据时)让它保持原样(我的意思是不使用.lower()函数)，还是不做任何改变？

浏览 0提问于2020-05-20得票数 8

回答已采纳

1回答

当使用Spacy作为流水线时，如何提高Rasa NLU的准确性？

spacy、rasa-nlu

在Spacy文档中提到，它在特征化中使用了，因此在分类中也使用了and。例如，如果我们测试一个不在训练数据中但具有相同含义的句子，那么它应该按照与训练句子相同的意图进行分类。但这是不可能的。假设训练数据是这样的- ## intent: delete_event - delete event - delete all events - delete all events of friday - delete ... 现在，如果我测试remove event，那么它不会被归类为delete_event，而是落入其他一些目的。我已经尝试将管道更改为supervised_embeddings，还

浏览 32提问于2019-07-12得票数 0

回答已采纳

1回答

拥抱面: NameError:未定义名称“管道”

python、huggingface-transformers

我尝试从木星笔记本中的HuggingFace文档中执行标准的介绍示例： from transformers import pipeline classifier = pipeline("sentiment-analysis") classifier("I've been waiting for a HuggingFace course my whole life.") 导入管道方法显然有效--没有错误消息。如果在下一行中声明分类器，则会得到以下错误： /var/folders/m_/sn4z8b8s6676slgsrc3smg7w0000gn/T/ipy

浏览 0提问于2021-11-18得票数 1

1回答

使用spacy-stanza模型高效地创建doc对象

python、spacy

根据SPACY的创建者，从文本列表创建文档对象的最有效方法如下 docs = list(nlp(texts)) 其中： nlp：经过训练的空间模型 texts：我们想要转换为doc对象的文本列表 docs：从列表文本派生的文档对象列表但是，当我将此代码与spacy-stanza语言模型一起使用时，会收到一条错误消息： AssertionError: If neither 'pretokenized' or 'no_ssplit' option is enabled, the input to the TokenizerProcessor must be a

浏览 18提问于2020-09-27得票数 0

1回答

如何在SpaCy模型中使用SHAP？

python、nlp、spacy、shap

我试图通过使用SpaCy解释预测来提高SHAP二进制文本分类模型的可解释性。下面是我到目前为止尝试过的(下面是教程)： nlp = spacy.load("my_model") # load my model explainer = shap.Explainer(nlp_predict) shap_values = explainer(["This is an example"]) 但我得到了AttributeError: 'str' object has no attribute 'shape'。nlp_predict是我编写的

浏览 13提问于2021-07-27得票数 2

1回答

避免在多处理时在每个子进程中加载spaCy数据

python、pickle、python-multiprocessing、spacy

我想在一个程序中使用spaCy，这个程序目前是用多进程实现的。具体来说，我正在使用ProcessingPool生成4个子进程，然后启动并执行它们的愉快任务。要使用spaCy (特别是POS标签)，我需要调用spacy.load('en')，这是一个昂贵的调用(大约需要10秒)。如果我要在每个子进程中加载这个对象，那么大约需要40秒，因为它们都是从同一个位置读取的。这段时间长得令人讨厌。但我想不出让他们共享正在加载的对象的方法。这个对象不能被提取，这意味着(据我所知)：它不能传递到Pool.map调用它不能被Manager实例存储和使用，然后在进程之间共享。

浏览 5提问于2017-02-01得票数 3

2回答

向量化标记化的法语文本

python-3.x、nlp、spacy

我有使用Spacy的Tokenised法语文本，但不能使用TFidfvectoriser矢量化我尝试了这个代码，但它给出了错误 vectorizer.fit_transform(data.spacyd) from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer from spacy.tokenizer import Tokenizer vectorizer=CountVectorizer() “spacy.tokens.doc.Doc”对象没有属性“lower”

浏览 17提问于2019-07-28得票数 1

2回答

命名实体识别的Spacy 3置信度分数

python、nlp、named-entity-recognition、spacy-3

我需要获得NER 'de_core_news_lg‘模型预测的标签的置信度分数。在Spacy 2中有一个众所周知的解决方案： nlp = spacy.load('de_core_news_lg') doc = nlp('ich möchte mit frau Mustermann in der Musterbank sprechen') text = content doc = nlp.make_doc(text) beams = nlp.entity.beam_parse([doc], beam_width=16, beam_density=0.000

浏览 1提问于2021-03-05得票数 7

1回答

在Spacy培训两个连续的NER管道

python、spacy、named-entity-recognition、spacy-3

我正在进行一个训练分类器以识别文本中引文的项目。我们所处理的引文往往是非常混乱的。以下是一些引用的例子：见A册第3章第7段见A书第3章第7段见A书第7段的“某些章节标题”一章我们已经确定了少数实体往往出现在这些引文中。例如，“书名”、“章号”、“章名”、“段号”。该项目分为两个阶段：文本引文的二元分类引文中引文实体的分类 Spacy (我们正在使用v3)是否有可能有两个连续的NER管道？我希望分类器首先标记引文，然后标记每个引文中的实体。我能够用下面的代码用两个NER管道实例化一个模型： from spacy.lang.en import E

浏览 3提问于2021-04-25得票数 1

回答已采纳

1回答

Spacy在简单的AttributeError赋值中返回“spacy.tokens.doc.Doc：'spacy.tokens.doc.Doc‘对象没有属性’span‘”。为什么？

nlp、spacy、spacy-3

我只是尝试将文档的子部分标记为按照的跨度 import spacy nlp = spacy.load('en_core_web_sm') sentence = "The car with the white wheels was being confiscated by the police when the owner returns from robbing a bank" doc = nlp(sentence) doc.spans['remove_parts'] = [doc[2:6], doc[9:12]] doc.spans['

浏览 3提问于2021-05-10得票数 0

回答已采纳

1回答

如何使用变量名访问span自定义属性

python、spacy、spacy-3

我正在使用spacy对文档中的自定义跨度进行分类。然后，我为每种类型的跨度在跨度上创建自定义扩展。文件的例子是： from spacy.tokens import Span city_getter = lambda span: any(city in span.text for city in ("New York", "Paris", "Berlin")) Span.set_extension("has_city", getter=city_getter) doc = nlp("I like New York in A

浏览 1提问于2022-08-10得票数 0

回答已采纳

2回答

如何从spacy words中获取所有单词？

python-3.x、nlp、spacy

我需要来自Spacy words的所有单词。假设我将spacy模型初始化为 nlp = spacy.load('en') 如何从nlp.vocab获取单词文本

浏览 9提问于2019-02-03得票数 14

回答已采纳

1回答

无法通过文本替换spaCy词条代词(-PRON-)

spacy、lemmatization

我正在试着用spaCy对一个文本进行词条分类。由于spaCy使用-PRON-作为人称代词词缀，所以我希望在所有这些情况下都保留原始文本。以下是我的代码的相关部分： ..。 fout = open('test.txt', 'w+') doc = nlp(text) for word in doc: if word.lemma_ == "-PRON-": write = word.text print(write) else: write = word.lemma_ fout.

浏览 1提问于2019-11-28得票数 0

2回答

用spacy重写scikitlearn向量器的标记器

python、scikit-learn、spacy、tfidfvectorizer

我想用Spacy包实现列举化。下面是我的代码： regexp = re.compile( '(?u)\\b\\w\\w+\\b' ) en_nlp = spacy.load('en') old_tokenizer = en_nlp.tokenizer en_nlp.tokenizer = lambda string: old_tokenizer.tokens_from_list(regexp.findall(string)) def custom_tokenizer(document): doc_spacy = en_nlp(document)

浏览 0提问于2018-01-26得票数 2

1回答

在spacy中进行多类分类时出错

python、nlp、spacy、multiclass-classification

我正在尝试进行多类分类，使用crowdflower文本分类.Below是我的代码： from __future__ import unicode_literals, print_function from __future__ import unicode_literals from pathlib import Path import pandas as pd import spacy from spacy.util import minibatch, compounding def main(model=None, output_dir=None, n_iter=20):

浏览 9提问于2018-02-25得票数 3

1回答

SpaCy将新行(\n)标记为GPE命名实体

python、nlp、spacy

我使用SpaCy来获取命名实体。但是，它总是将新的线条符号错误地标记为命名图元。下面是输入文本。 mytxt = """<?xml version="1.0"?> <nitf> <head> <title>KNOW YOUR ROLE ON SUPER BOWL LIII.</title> </head> <body> <body.head> <hedline> <hl1>KNOW YOUR ROLE ON SUPER B

浏览 8提问于2019-03-14得票数 1

回答已采纳

14回答

ImportError:没有名为“spacy.en”的模块

python、spacy

我正在开发一个使用Spacy的代码库。我使用以下方法安装了spacy： sudo pip3 install spacy 然后 sudo python3 -m spacy download en 在最后一条命令的末尾，我收到了一条消息： Linking successful /home/rayabhik/.local/lib/python3.5/site-packages/en_core_web_sm --> /home/rayabhik/.local/lib/python3.5/site-packages/spacy/data/en You can now load the m

浏览 2提问于2017-11-14得票数 53

回答已采纳

1回答

Spacy:用什么数据集格式对1000个标签进行分类？

spacy、multilabel-classification、spacy-3

我想用spacy对文本进行分类我是基于spacy的texcat_demo项目的，基于它，json应该看起来像这样 {"text": "Sorpresa: Ceferin comió con Piqué y Laporta", "cats": {"AR": 0, "ES": 1, "PT": 0 } } {"text": "Puado, de calabazas al Madrid a una renovación prioritaria","cats&

浏览 35提问于2021-06-19得票数 1

回答已采纳