如何使用spaCy的基于规则的匹配进行句子提取_spacy规则-匹配器从匹配的句子中提取值_使用SpaCy和Python创建基于规则的匹配以检测地址 - 腾讯云开发者社区

、、

在德语中，如何从带有SpaCy的句子中提取主子句和子子句(又称“从属子句”、“从属子句”)？我知道如何使用SpaCy的标记器、词性标记和依赖解析器，但我不知道如何使用SpaCy可以提取的信息来表示德语的语法规则。

浏览 5提问于2020-09-24得票数 3

回答已采纳

1回答

我如何提供一个关系提取数据集，包括元组，用于临时推断使用名称实体识别空间？

、、、、

我有大约7.000句句子，其中我做了一个精炼的名称-实体-识别(即，特定的实体)使用SpaCy。现在我想做关系提取(基本上是因果推理)，我不知道如何使用NER来提供训练集。据我所知，有一种不同的方法来执行关系提取： 1)手写模式 2)有监督的机器学习 3)半监督机器学习。因为我想使用有监督的机器学习，所以我需要训练数据。如果有人能给我指路，那就太好了，非常感谢。这里是我的数据框架的屏幕拍摄，实体是由一个定制的spaCy模型提供的。我可以访问每个句子的语法依赖和部分词性标记，如spaCy提供的：

浏览 3提问于2019-07-31得票数 0

1回答

我想从spacy中的文本中提取文本值。

、、、、

我在使用香料方面是新手。我想从句子中提取文本值。 training_sentence="I want to add a text field having name as new data" OR training_sentence=" add a field and label it as advance data" 因此，我想从上面的句子中提取“新数据”和“预发数据”。现在，我能够提取实体，如“添加”，“字段”和“标签”使用自定义纳。但是我无法提取文本值，因为这些值可以是任何内容，而且我也不知道如何在spacy中使用自定义NER来提取文本

浏览 0提问于2019-03-05得票数 3

3回答

在使用Spacy，Bert时，是否有必要对文本分类进行停用词删除、词干提取/词汇化？

、、、

当使用Spacy，Bert或其他高级NLP模型来获得文本的向量嵌入时，文本分类是否有必要进行停用词删除、词干提取和词汇化？ Text=“婚礼上供应的食物非常美味” 1.由于Spacy，Bert是在巨大的原始数据集上训练的，在使用bert/spacy生成用于文本分类任务的嵌入之前，在这些文本上应用停用词删除、词干提取和词汇化是否有任何好处？ 2.我可以理解，当我们使用countvectorizer，tfidf向量器来实现句子的嵌入时，去掉停用词，词干提取和词汇化会很好。

浏览 4提问于2020-08-28得票数 7

1回答

如何分割每个指定的字符/字符串的句子？

、、、、

我拼凑了一些基本名词短语，但是，只有基本名词短语对我来说是不够的。我想做更多的事情，那就是，在每个块名词短语的末尾分割句子。例如： sentence = 'protection of system resources against bad behavior' 分块名词短语是(通过在doc.noun_chunks中使用spaCy)： protection, system resources, bad behavior 我想要的结果： protection, of system resources, against bad behavior 这意味着，我需要在每组短语的末尾，例

浏览 2提问于2021-04-09得票数 0

回答已采纳

2回答

NLP -使用spaCy在Python中提取文本

、、

我使用Python和spaCy作为我的NLP库。我是NLP工作的新手，我希望能得到一些指导，以便从文本中提取表格信息。我的目标是找出哪些类型的费用被冻结或未冻结。任何指导都将不胜感激。 TYPE_OF_EXPENSE FROZEN? NOT_FROZEN? purchase order frozen null capital frozen null consulting frozen null business meetings frozen

浏览 3提问于2019-01-30得票数 1

1回答

使用句子上下文的命名实体识别

、、、、

我有一个问题，我想知道如何根据实体在句子中使用的上下文来提取或命名实体。例如:如果我们必须提取仅在出生日期上下文中使用的日期字段，那么我们如何才能做到这一点。我知道我们可以使用正则表达式、空格、NLTK从文档中提取日期字段。但我无法根据使用的上下文来确定提取日期的方法。例1:我的生日是12月9日。在这里，12月9日将被标记为日期字段，如果我们使用spacy或regex，但我希望它被标记为一个自定义实体‘生日’。例2: 4月1日我要去看电影。在这里，4月1日应该被标记为普通日期字段。

浏览 2提问于2019-04-01得票数 3

1回答

跨度

、

我正在使用spacy un一些nlp项目。我有这样的文字出现： text='The car comprises 4 brakes 4.1, 4.2, 4.3 and 4.4 in fig. 5, all include an ESP system. This is shown in Fig. 6. Fig. 5 shows how the motors 56 and 57 are blocked. Besides the doors (44, 45) are painted blue.' 我想把"4.1、4.2、4.3和4.4“视为一个整体。为了提取前面的名词短语。

浏览 1提问于2022-03-15得票数 1

回答已采纳

2回答

分文造句NLTK vs spaCy

、、、、

我想把课文分成句子。查看堆栈溢出时，我发现：使用NLTK from nltk.tokenize import sent_tokenize text="""Hello Mr. Smith, how are you doing today? The weathe is great, and city is awesome. The sky is pinkish-blue. You shouldn't eat cardboard""" tokenized_text=sent_tokenize(text) print(tokenized_t

浏览 30提问于2019-06-02得票数 2

回答已采纳

1回答

智能句切分不分裂缩略语

、、、、

来自SpaCy和NLTK的句子者没有注意到一个事实，即典型的缩略语(例如，德语中Million的Mio. )和由此产生的句子分裂是不正确的。我明白，哨兵应该是简单而迅速的，但我想知道是否有一个更好的，考虑到更多的东西，而不是高感知词和标点符号？或者，如何使SpaCy / NLTK /.句子员为这样的句子工作？我主要对Python的哨兵感兴趣。

浏览 0提问于2020-10-13得票数 3

回答已采纳

2回答

NLTK:在情感分析中增加否定词

、、、

我正在使用nltk和SpaCy进行情感分析。在工作时，我需要在负变量中添加新单词，这样当这些单词出现在任何句子中时，它就会显示出负极性值。我不知道怎么做，有人能帮帮我吗？

浏览 23提问于2022-03-03得票数 -1

回答已采纳

1回答

如何限制Spacy使用的CPU数量？

如何限制Spacy使用的CPU数量？我想从大量句子中提取词性部分和命名实体。由于RAM方面的限制，我首先使用Python将文档解析为句子。然后，我遍历我的句子，并使用nlp.pipe()进行提取。然而，当我这样做时，Spacy消耗了我的整个计算机；Spacy使用所有可用的CPU。这样不好，因为我的电脑是共享的。如何限制Spacy使用的CPU数量？这是我迄今为止的代码： # require from nltk import * import spacy # initialize file = './walden.txt' nlp = spacy.load( 'en&

浏览 2提问于2018-05-25得票数 9

回答已采纳

1回答

如何使用spaCy的基于规则的匹配进行句子提取

、、、、

下午好，我正在尝试使用spacy将法语句子从一个列表中提取到另一个包含特定模式的列表中。否定形式“n'/ne +动词/辅助词/+ pas +ADV/ADJ/ROOT/名词”。我试着写一个小代码来测试一个模式n'/ne + AUX + ADV，但当我使用Spacy时，什么都没有做/打印。所以我犯了一个错误我不明白为什么，因为我正在学习教程，所以我想检查模式，如果模式出现在句子中，我将其附加到"sent_extract“后面。 import spacy from spacy.matcher import Matcher pattern = [{"POS&

浏览 22提问于2020-04-30得票数 0

2回答

基于spacy的POS模式挖掘

、

我尝试在python3中使用spacy从文本中提取语言特征。 Sent_id Text 1 I am exploring text analytics using spacy 2 amazing spacy is going to help me 我正在寻找这样的输出，通过提取具有我提供的特定词性模式的三元语法/二元语法短语的单词。如名词、动词名词、形容词等，同时也保留了数据框架结构。如果一个句子有多个短语，则必须使用新短语复制记录。 Sent_id Text Feature Pattern 1 I am exploring text analytics using spac

浏览 45提问于2019-03-28得票数 6

回答已采纳

1回答

如何使用spacy训练将实体添加到现有的自定义NER模型中？(Spacy v3.0)

、、、、

我目前正在实现一个自定义NER模型界面，用户可以与前端应用程序交互，以添加自定义实体来训练spacy模型。我想要使用空间训练(CLI)来接受现有模型(自定义NER模型)，并将用户指定的关键字和实体添加到该模型中。(而不是再次训练整个模型)。我在文件里找不到这个。例如，假设我有一个模型，它已经被训练成一个定制的食物实体。(比萨饼、意大利面、面包等…)。现在我想采用现有的模式，并为一个名为“饮料”的新实体进行培训，其中包括可口可乐、百事可乐、果汁等关键词…。对spacy v3.0使用spacy列命令。我目前使用的spacy列车命令如下： > python -m spacy train

浏览 5提问于2021-06-22得票数 2

回答已采纳

1回答

训练自定义NER Spacy模型需要多少数据/上下文？

、、、

我正在尝试使用spacy和命名实体识别从简历中提取以前的职位。我想训练spacy来检测一个自定义的命名实体类型：'JOB‘。为此，我从上获得了大约800个职位名称，我可以将其用作训练数据。在我的spacy训练数据中，我是否需要将这些职位整合到为提供上下文而添加的句子中？一般来说，在简历中，职位头衔是独立存在的，并不是完整句子的一部分。此外，如果我需要为800个标题中的每一个提供连贯的上下文，那么对于我正在尝试做的事情来说，这将是非常耗时的，所以也许除了NER之外还有其他解决方案？

浏览 45提问于2021-02-12得票数 1

回答已采纳

2回答

用Python Spacy从简单被动语态句中提取实体

、、、

使用Python Spacy，如何从简单的被动语态句子中提取实体？在下面的句子中，我的意图是从句子中提取出“John”作为nsubjpass和_.ent__。句子=“约翰被大卫指控犯罪”

浏览 2提问于2016-12-17得票数 2

回答已采纳

2回答

带有SpaCy的自定义POS标记

、、

对NLP来说非常新，尤其是NER。我试图在自定义数据集上训练一个NER模型。这是待售房屋的数据集。作为实体的一部分，我正在训练模型来提取reference数字。它们的长度是可变的(但通常在4-9之间)，看起来像G55L7或LPP01Z1-32。我怎样才能给这些实体一个新的"POS标签“，据我所知，在SpaCy的默认列表中找不到匹配它们的任何东西？理想情况下，我希望将其与已有的NER模型一起进行培训，这样我也可以提取SpaCy已经支持的SpaCy。

浏览 0提问于2019-10-10得票数 0

2回答

在spaCy中加入词典(地名录)的理想方法是什么？

、、、

我目前正致力于替换一个基于nltk实体提取的系统，并结合regexp匹配，其中我有几个命名实体字典。字典实体都是常见的类型(人员(雇员)等)。以及定制类型(例如技能)。我想使用预先训练的spaCy模型，并以某种方式包括我的字典，以提高NER的准确性。以下是我对可能的方法的看法：使用spaCy的Matcher API，遍历字典，用回调添加每个短语来添加实体？我刚刚发现了spacy查找，这似乎是提供大量单词/短语来匹配的简单方法。但如果我想要模糊匹配呢？是否有一种方法直接添加到词汇表中，从而通过Bloom过滤器/n克字向量进行一些模糊匹配，或者是否有适合这种需要的扩展？否则，我想

浏览 0提问于2018-02-14得票数 11

1回答

如何使用spacy或nltk检索句子的主要意图？

、、、、

我有一个用例，在这个用例中，我希望使用spacy或nltk或任何NLP库提取句子的主要有意义的部分。示例sentence1:“我如何提高嗓门反对骚扰”意图是：“提高声音反对骚扰” 示例sentence2:“唐老鸭是由哪个漫画家/哪个人/谁创造的?”意图是：“唐纳德鸭子是由谁创造的” 示例sentence3:“如何使用spacy或nltk检索句子的主要意图”？意图：“使用spacy nltk检索句子的主要意图”。我对依赖分析还不熟悉，也不知道该如何做。请帮帮我。

浏览 3提问于2020-02-05得票数 3

1回答

是否有一种快速的方法可以为spaCy中的每个句子获取标记？

要将我的句子拆分成记号，我正在做下面的操作，slow是慢的 import spacy nlp = spacy.load("en_core_web_lg") text = "This is a test. This is another test" sentence_tokens = [] doc = nlp(text) for sent in doc.sents: words = nlp(sent.text) all = [] for w in words: all.append(w)

浏览 0提问于2019-08-27得票数 11

回答已采纳

1回答

Spacy 2.0中支持的日期和时间格式是什么？

我在我的应用程序中使用了以下模型： en_core_web_sm xx_ent_wiki_sm 我想知道默认Spacy模型可以提取的受支持的日期和时间格式。使用的Python版本:3.6 spaCy版本: 2.0.x

浏览 1提问于2018-06-11得票数 1

回答已采纳

1回答

Spacy中的顺序/上下文感知文档/句子向量

、、、、

我想用句子做一些有监督的二进制分类任务，并且一直在使用spaCy，因为它易于使用。我使用spaCy将文本转换为向量，然后将向量提供给机器学习模型(例如XGBoost)来执行分类。然而，结果并不是很令人满意。在spaCy中，很容易加载 (例如BERT / Roberta / XLNet)来将单词/句子转换为nlp对象。然而，直接调用对象的向量将到令牌向量的平均值。这里有两个问题： 1)我们能做得比简单地获得标记向量的平均值更好吗，比如使用spaCy获得上下文/顺序感知的句子向量？例如，我们能否从BERT转换器的上一层提取句子嵌入，而不是spaCy中的最终标记向量？ 2)直接使用spaCy来训

浏览 17提问于2020-05-06得票数 0

1回答

如何从Python中的给定句子中找到预期的目标短语或关键字？

、、、、

我想知道是否有任何有效的方法从给定的句子中提取预期的目标短语或关键短语。到目前为止，我标记了给定的句子并为每个单词获取POS标记。现在我不知道如何从给定的句子中提取目标关键字或关键词。这样做对我来说是不直观的。这是我输入的句子列表： sentence_List= {"Obviously one of the most important features of any computer is the human interface.", "Good for everyday computing and web browsing.", "My probl

浏览 3提问于2018-11-15得票数 1

1回答

突出显示基于标签的文本部件

、、

感谢同事的堆叠溢出流，我有数据标签，我想要高亮的文本：例如：我有产品描述 Description: Tampered black round grey/natural swing with yellow load-bearing left hook 特征提取为 colors=['black','grey','natural','yellow'] shape = ['round'] direction= ['left'] 在Spacy中，可以突出这样的特性有没有可能像这样从我作为标签的数

浏览 4提问于2022-05-23得票数 1

回答已采纳

2回答

使用Spacy提取动词短语

、

我一直在使用Spacy提供的Doc.noun_chunks属性来提取名词块。如何使用Spacy库(形式为'VERB ? ADV * verb +‘)从输入文本中提取动词短语？

浏览 2提问于2017-12-17得票数 17

回答已采纳

2回答

无意义的空间名词

、、、

我用Spacy从句子中提取名词。这些句子在语法上很差，也可能包含一些拼写错误。下面是我使用的代码：码 import spacy import re nlp = spacy.load("en_core_web_sm") sentence= "HANDBRAKE - slow and fast (SFX)" string= sentence.lower() cleanString = re.sub('\W+',' ', string ) cleanString=cleanString.replace("_",

浏览 10提问于2021-03-22得票数 4

回答已采纳

1回答

python中的子句提取/长句切分

、、、、

我目前正在做一个涉及句子向量的项目(来自RoBERTa预训练模型)。当句子很长时，这些向量的质量较低，并且我的语料库包含许多带子句的长句。我一直在寻找从句提取/长句分割的方法，但我惊讶地发现，没有一个主要的NLP包(例如spacy或stanza)提供这种开箱即用的功能。我认为这可以通过使用spacy或stanza的依赖关系解析来完成，但正确处理所有类型的复杂句子和边缘情况可能会相当复杂。我遇到过ClausIE信息提取系统的this implementation和spacy，它做了类似的事情，但它还没有更新，也不能在我的机器上工作。我也遇到过用于句子简化的this repo，但是当我在

浏览 48提问于2020-12-10得票数 3

1回答

如何用SpaCy生成的词性标签替换句子中的单词？

、、

如何有效地将句子中的单词替换为用SpaCy生成的各自的SpaCy标记？

浏览 0提问于2019-05-14得票数 1

回答已采纳

2回答

如何在Python中从句子中提取预定义的关键字？

、

考虑下面的例子“在所有人工智能课程上的10%。”在本例中，我必须提取两个预定义的类，如人工智能和课程。即使是程序也必须将ANN，CNN，RNN，AI等词归入人工智能类别。我已经使用spacy进行了训练，但我对结果并不印象深刻，因为它的标签不正确。在Python中，有没有从句子中提取实体的替代方法？

浏览 2提问于2020-07-18得票数 0

1回答

与Matcher spaCy只匹配最大模式而不匹配子模式

我使用Matcher类和spaCy v3.1.3。从句子中提取模式。我有一个名为"Inteval“的标签和两个我想要捕捉的模式。但是，最大的模式(下面显示的第二个“模式”)是由第一个“模式”中指定的子模式组成的，我希望当从最大的模式中匹配时，只提取最大的模式而不是子模式。例如，我的句子包含这类字符串："500公里在543公里“、"13 a 22公里”、"550公里- 500公里“和”190公里处420公里处的568公里“。我希望它们都有相同的标签("Interval")。在“在190公里处420公里处568公里”的情况下，是否有办法仅提取“1

浏览 1提问于2021-11-12得票数 2

回答已采纳

2回答

有什么办法可以用白兰素标签吗？

、

我是spaCy的新手，目前正在尝试使用spaCy英语大模型从句子中识别人从句子中识别出人是很好的，直到我找到了一个不是人的名字。如果我说“亚历克斯在吃苹果”。它将成功地返回亚历克斯是一个人但当这个案子发生的时候，它就不再起作用了例如，太阳锯蜜蜂正在吃苹果或亚历山德罗很快就开始吃苹果了。我想知道是否有类似白名单添加“太阳锯蜜蜂”或“亚历山德罗”作为一个人，没有再培训spaCy英语模式？或者以某种方式把“太阳看见的蜜蜂”当成一个人？如果有任何与此相关的链接，也许也可以共享，因为我的关键字搜索可能没有按正确的键。

浏览 4提问于2020-07-21得票数 0

回答已采纳

1回答

使用Spacy进行自定义句子切分

、、、

我是Spacy和NLP的新手。在使用Spacy进行句子切分时，我遇到了以下问题。我试图标记成句子的文本包含编号列表(编号和实际文本之间有空格)，如下所示。 import spacy nlp = spacy.load('en_core_web_sm') text = "This is first sentence.\nNext is numbered list.\n1. Hello World!\n2. Hello World2!\n3. Hello World!" text_sentences = nlp(text) for sentence in text_

浏览 1提问于2018-09-06得票数 10

回答已采纳

1回答

语境修正实体识别与spacy -如何？

、、、

对于一个新的项目，我需要从网页中提取信息，更准确地说是打印信息。我用brat给文档贴上标签，并开始了第一次使用spacy和NER的实验。有很多关于这方面的视频和教程，但仍然有一些基本的问题。是否可能包括一个实体的上下文？示例案文：负责内容：好公司GmbH 0331柏林您可以通过+49 123 123 123与我们联系。本网站由优秀设计GmbH创建，联系电话：+49 12314 4535。呃，spacy很擅长提取电话号码。根据我最近的测试，错误率不到2%。我已经能够在250个标记文档之后实现这一点，同时我已经标记了450个文档，我的目标是大约5000份文档。现在说到实际情况。

浏览 3提问于2020-06-29得票数 0

1回答

利用spacy和Matcher提取NER主语+动词的问题

、、、

我在一个NLP项目中工作，我必须使用spacy和spacy Matcher来提取所有命名实体，它们是nsubj (主题)和与之相关的动词:我的NE nsubj的管理者动词。示例： Georges and his friends live in Mexico City "Hello !", says Mary 我需要提取第一句中的"Georges“和"live”，以及第二句中的"Mary“和”and“，但我不知道在我的命名实体和与其相关的动词之间会有多少个单词。所以我决定更多地探索spacy Matcher。所以我正在努力在Matcher上写一个模式来提

浏览 129提问于2021-04-26得票数 1

回答已采纳

1回答

是否有可能找到spaCy POS机标签的不确定性？

、、、

我正在尝试构建一个非英语拼写检查器，它依赖于spaCy对句子的分类，这使得我的算法可以使用词性标签和单个标记的语法依赖性来确定拼写错误(在我的例子中，更具体地说:荷兰语复合词中的错误拆分)。然而，如果句子包含语法错误，例如将名词分类为动词，即使分类后的单词看起来甚至不像动词，spaCy似乎也不能正确地对句子进行分类。正因为如此，我想知道是否有可能获得spaCy分类的不确定性，从而可以判断spaCy是否正在努力处理一个句子。毕竟，如果spaCy正在为分类而苦苦挣扎，这将为我的拼写检查器提供更多关于句子包含错误的信心。有没有办法知道spaCy是否认为一个句子在语法上是正确的(而不必指定我的语

浏览 0提问于2020-12-09得票数 4

2回答

实体识别的类

、、、

我试图从使用Python的NLP开始，使用nltk或spaCy。我的问题是，如果我有这个句子，'Barack Obama was the former President of united states'，我如何检索单词president来提供实体的类？

浏览 2提问于2019-11-25得票数 0

2回答

长而非结构化文档的信息提取/语义搜索

、、、

我被一项特殊的信息提取任务困住了。我有几百，长(5-35页) pdf，文档和docx项目文档，我试图从中提取特定的信息，并将它们存储在一个结构化的数据库中。最终目标是提取和存储信息，以便我们能够查询这些文件和任何新传入的文档以获得快速可靠的信息。例如，我想从知识库中查询一个实体的组合，然后从文档中返回n个最相关的段落/句子。因为像“世界银行”这样的实体是为某些文档提取数十次的，所以我需要一种在上下文中查询实体的方法。否则，我只会得到一个包含特定实体名称的数据库，而无法将它们映射回。 NER通常看起来是一个很好的解决方案，然而，文档都有非常独特的结构，这些结构也随着文档的变化而变化。例如，许多

浏览 0提问于2019-10-15得票数 1

1回答

向SpaCy添加单复数组合

如何向SpaCy添加新的引理。例如，新的单复数名词。示例: Kirana =单数Kiranas =复数我想把它添加到SpaCy中，这样当一个句子包含"Kiranas“时，Kirana就会显示为它的词条。

浏览 0提问于2016-07-14得票数 1

3回答

Spacy to Conll格式不使用Spacy的句子拆分器

、、、

Spacy展示了如何使用的标记器获取Conll格式的文本块的依赖关系。这是发布的解决方案： import spacy nlp_en = spacy.load('en') doc = nlp_en(u'Bob bought the pizza to Alice') for sent in doc.sents: for i, word in enumerate(sent): if word.head == word: head_idx = 0 else:

浏览 39提问于2017-12-15得票数 0

1回答

如何使用spacy逻辑切分句子？

、

我是Spacy的新手，正在尝试从逻辑上分割句子，这样我就可以分别处理每个部分。例如： "If the country selected is 'US', then the zip code should be numeric" 这需要被分解成： If the country selected is 'US', then the zip code should be numeric 另一个带逗号的句子不应该被打破： The allowed states are NY, NJ and CT 有什么想法或想法如何在spacy中做到这一点吗？

浏览 2提问于2017-12-01得票数 1

1回答

在Spacy NLP中，如何提取代理、操作和患者--以及因果关系？

、、

我想使用Space来提取"agent，action，and patient“形式的词关系信息。例如，“自动驾驶汽车将保险责任转移到制造商”-> (“自动驾驶汽车”，“转移”，“责任”)或(“自动驾驶汽车”，“转移”，“责任制造商”)。换句话说，“谁对谁做了什么”和“什么将动作应用于其他事情”。我对我的输入数据了解不多，所以我不能做太多的假设。我还想提取逻辑关系。例如，“每当/如果太阳在天空中，鸟就会飞”，或者像“热使冰激凌融化”这样的因果关系。对于依赖关系，Space建议逐字迭代句子并以这种方式找到词根，但我不确定在遍历中使用哪种清晰的模式，以便以可靠的方式组织信息。我的用

浏览 15提问于2020-06-27得票数 0

回答已采纳

1回答

前句对命名实体识别的影响

、、

在命名实体识别(NER)中，前一句对当前句子有什么影响吗？如果你在每个句子中单独应用NER，那么结果是否与在由多个句子组成的文章中使用NER相同？更确切地说，我用的是Spacy NER。这是第一种方法： import spacy nlp = spacy.load('en') sentences = "My name is Bruce and I come from New York. Pete is my best friend from Amsterdam." nlp_object = nlp(sentences) print([(y.text, y.l

浏览 0提问于2018-11-13得票数 3

回答已采纳

1回答

Python中的Spacy Regex短语匹配器

、、、

在一个庞大的文本语料库中，我感兴趣的是抽取句子中的每个句子，每个句子中有一个特定的列表(动词-名词)或(形容词-名词)。我有很长的单子，但这是一个样品。在我的MWE中，我试图用“写/写”和“书/s”来提取句子。我有大约30个这样的词。以下是我尝试过的，但它并没有抓住大多数句子： import spacy nlp = spacy.load('en_core_web_sm') from spacy.matcher import Matcher matcher = Matcher(nlp.vocab) doc = nlp(u'Graham Greene is his fa

浏览 2提问于2021-05-29得票数 1

回答已采纳

1回答

在spacy中使用POS和NER提取实体

、、、、

我需要使用NER和POS标签从句子中提取实体。例如, 给出下面的句子： docx = nlp("The two blue cars belong to the tall Lorry Jim.") 实体在哪里(两辆蓝色汽车，高大的卡车Jim)。在句子上运行spacy NER， for ent in docx.ents: print(ent.text, ent.start_char, ent.end_char, ent.label_) 它返回： two 4 7 CARDINAL Lorry Jim 37 46 PERSON 我的目标是在NER标识的实体前面一起附加形容词/数

浏览 0提问于2020-10-13得票数 0

2回答

使用Spacy从文本文件中提取名称

、、、、

我有一个文本文件，其中包含如下所示的行： Electronically signed : Wes Scott, M.D.; Jun 26 2010 11:10AM CST The patient was referred by Dr. Jacob Austin. Electronically signed by Robert Clowson, M.D.; Janury 15 2015 11:13AM CST Electronically signed by Dr. John Douglas, M.D.; Jun 16 2017 11:13AM CST The patient was

浏览 0提问于2018-07-24得票数 6

1回答

使用Spacy的培训数据格式

、、、

我正在尝试用Spacy构建NLP，但我在格式化培训数据时遇到了问题。我希望我的应用程序能够识别实体和意图。例如，在“我想订购比萨饼”中。其意图是"place_order“，实体将是比萨饼。如何为Spacy中的实体和意图格式化培训数据？

浏览 7提问于2020-06-30得票数 0

回答已采纳

1回答

如何匹配重复模式的空间？

、、

我有一个与类似的问题：，如何定义一个重复的模式，由spacy中的多个标记组成？与链接的post不同的是，我的模式是由POS和依赖项标记定义的。因此，我不认为我可以轻易地使用regex来解决我的问题(正如链接帖子的公认答案所建议的那样)。例如，假设我们分析以下句子： “她告诉我她的狗又大又黑又壮。” 下面的代码将允许我匹配句子末尾的形容词列表： import spacy # I am using spacy 2 from spacy.matcher import Matcher nlp = spacy.load('en_core_web_sm') # Create doc o

浏览 6提问于2022-03-08得票数 2

回答已采纳

1回答

NLP:检查检测到的句子是否是完整的句子。

、、、、

在我的NLP项目中，我构建了自己的模型来识别PDF文档中的句子。现在我想检查一下我提取的句子是否是完整的句子。在我的研究中，我已经接触到了，其中提出的解决方案允许有相当多的错误。有没有人能告诉我如何检查一个句子是否是完整的句子？

浏览 18提问于2022-03-23得票数 2

1回答

如何对每个单词使用spaCy上实现的标签？

、、、、

我想做的是我想提取的词，这是在spaCy上，自然语言操作系统的具体标签。 specific labels on spaCy 在下面的例子中，我希望打印单词English，因为选择了标签LANGUAGE。 English 问题没有用于提取每个单词上的标签的示例代码。我如何修复下面的错误？ TypeError: Argument 'string' has incorrect type (expected str, got spacy.tokens.token.Token) 当前代码 import spacy from spacy import displacy nlp =

浏览 20提问于2020-11-26得票数 0

回答已采纳