我使用SpaCy来获取命名实体。但是,它总是将新的线条符号错误地标记为命名图元。 下面是输入文本。 mytxt = """<?xml version="1.0"?>
<nitf>
<head>
<title>KNOW YOUR ROLE ON SUPER BOWL LIII.</title>
</head>
<body>
<body.head>
<hedline>
<hl1>KNOW YOUR ROLE ON SUPER B
根据spacy文档,我试图通过遍历一个句子来获得单词和它的实体标记的位置
import spacy
nlp = spacy.load('en')
doc = nlp(u'London is a big city in the United Kingdom.')
for ent in doc.ents:
print(ent.label_, ent.text)
# GPE London
# GPE United Kingdom
我尝试使用ent.i和ent.idx标记来获取单词的位置,但是这两种方法都不起作用,并给出了以下错误
Attribu
在命名实体识别(NER)中,前一句对当前句子有什么影响吗?如果你在每个句子中单独应用NER,那么结果是否与在由多个句子组成的文章中使用NER相同?
更确切地说,我用的是Spacy NER。这是第一种方法:
import spacy
nlp = spacy.load('en')
sentences = "My name is Bruce and I come from New York. Pete is my best friend from Amsterdam."
nlp_object = nlp(sentences)
print([(y.text, y.l
如果一些命名实体是复合词,那么如何使用spaCy从文本中删除命名实体?
我知道在的问题,我相信这不是一个重复的问题,因为被接受的答案张贴在那里将失败,如果命名的实体是复合词。下面显示了为什么链接问题的公认答案失败的示例代码。
import spacy
nlp = spacy.load('en_core_web_sm')
text_data = 'This is a text document that speaks about entities like New York and Nokia'
document = nlp(text_data)
text
我在这样的数据栏里有一列。
Text
"Lorum Ipsum Rotterdam dolor sit."
"ed ut perspiciatis Boekarest, New York, consectetur adipiscing elit, sed "
"Excepteur sint occaecat Glasgow cupidatat non proident, sunt in culpa"
我希望每一个地理位置都被"GPE“所取代。
我在用spacy来探测这些实体。这很好,如下所示。
nlp = spacy.load(
我想通过使用Spacy替换每个实体的标签来处理我的数据,我有3000个文本行来用它们的标签实体替换实体,
例如:
佐治亚州( )最近成为美国第一个“禁止穆斯林文化”的州。
想变成这样:
"GPE“最近成为”禁止NORP培养“的第一个GPE状态。“
我希望代码可以替换多行文本。
非常感谢。
例如,这些代码(只有一个句子),我想将s (string)修改为列包含3000行
第一个:来自()
s= "His friend Nicolas J. Smith is here with Bart Simpon and Fred."
doc = nlp(s)
newStrin
代码:
import spacy
nlp = spacy.load("en_core_web_md")
#read txt file, each string on its own line
with open("./try.txt","r") as f:
texts = f.read().splitlines()
#substitute entities with their TAGS
docs = nlp.pipe(texts)
out = []
for doc in docs:
out_ = ""
在一些情况下,spaCy标记的是ORG,而不是我正在寻找的GPE。我不确定如何“关闭”标记ORG,以便它只查找GPE,或者是否有一种方法可以优先考虑GPE。 import spacy
from spacy import displacy
nlp = spacy.load('en_core_web_lg')doc = nlp('Is there a way to bypass the ORG tag for the Los Angeles Lakers and only tag Los Angeles')
displacy.render(doc, style=&
我如何才能从“在短信中批评特朗普的联邦调查局特工彼得·斯特佐克被解雇-- the SpaCy Times SectionsSEARCHSkip to contentSkip to site”这样的文本中找到使用SpaCy的正确NER。在这里,“被批评的特朗普”被认为是人,而不是“特朗普”作为人。 如何对来自上述字符串的文本进行预处理和小写处理,以克服上述问题或任何其他技术。 import spacy
from spacy import displacy
from collections import Counter
import en_core_web_sm
nlp = en_core_we
我想在(西班牙)法律文件中记录地址如下:
import spacy
from spacy.matcher import Matcher
nlp=spacy.load("es_core_news_lg")
texto = "... domiciliado en calle 160 Nº 765 piso 2 dpto A, La Plata, don Ricardo Fabián ROSENFELD, Documento Nacional de Identidad 14.464.003 con domicilio legal en calle Belfast Nº 14
我编写了一段代码来查找字符串中存在的位置。
import spacy
nlp= spacy.load('en')
doc1='Pune, India'
doc2='India, Pune'
doc3='Pune India'
doc4='India Pune'
print([(X.text, X.label_) for X in nlp(doc1).ents])
print([(X.text, X.label_) for X in nlp(doc2).ents])
print([(X.text, X.label
我使用从文本中提取一些与我的问题相关的命名实体,例如日期、时间、GPE等等。
例如,我需要识别以下句子中的时区:
"Australian Central Time"
使用Spacy模型en_core_web_lg,我得到了以下结果:
doc = nlp("Australian Central Time")
print([(ent.label_, ent.text) for ent in doc.ents])
>> [('NORP', 'Australian')]
,我的问题是:我对实体NORP的确切含义不太清
我有以下一句话:
text="The weather is extremely severe in England"
我想执行一个自定义的Name Entity Recognition (NER)过程
首先,一个普通的NER过程将输出带有GPE标签的GPE
pip install spacy
!python -m spacy download en_core_web_lg
import spacy
nlp = spacy.load('en_core_web_lg')
doc = nlp(text)
for ent in doc.ents:
pri
也许我已经跳过了部分文档,但我要确定的是标准NER工具集中每个实体的唯一ID。例如:
import spacy
from spacy import displacy
import en_core_web_sm
nlp = en_core_web_sm.load()
text = "This is a text about Apple Inc based in San Fransisco. "\
"And here is some text about Samsung Corp. "\
"Now, here is some
我想做的是 我想提取的词,这是在spaCy上,自然语言操作系统的具体标签。 specific labels on spaCy 在下面的例子中,我希望打印单词English,因为选择了标签LANGUAGE。 English 问题 没有用于提取每个单词上的标签的示例代码。 我如何修复下面的错误? TypeError: Argument 'string' has incorrect type (expected str, got spacy.tokens.token.Token) 当前代码 import spacy
from spacy import displacy
nlp =
我想将Spacy中的文本匹配为以下模式:
如果有单词“dé提名”或“命名”,我想匹配下一个'MISC‘实体(实体名称来自Spacy),无论两者之间有什么。
例如:
text=" Some texte about a company, company number: 254455, Dénomination\n (entire name): NAME_OF_THE_COMPANY , \n, some other informations of the... "
我想提取"NAME_OF_COMPANY“,这是Spacy认可的实体
为了得到Spacy的
我和spaCy一起学习自然语言处理,并决定写一个管道来识别像Dr,Mr,Mrs这样的地址,然后用名字作为个人认可的实体。在这个过程中,我决定使用正则表达式来识别前缀部分,我发现每当我搜索RE模式时,它都会返回整个源文本中的索引。我的任务是提取已寻址的名称并将它们添加为Span对象,但是构造函数要求我传递一个Doc对象范围。
是否可以在doc中定位字符串位置的span?我可以在每一个跨度中分别枚举索引作为一个单独的变量,并在其中搜索正则表达式,我将对此解决方案感到满意,但是,是否可以将字符串位置转换为它所属的span,或者以不同的方式为新识别的实体创建跨度?
import re
import s
我正在尝试替换字符串中的位置名称,并将其随机替换为下面提到的列表中的任何城市,然后获取新形成的字符串并将其附加到文件中。我试着用spacy来解决这个问题。我可以很容易地检测到城市并替换令牌,但我无法通过添加它们来获得新行。 from pprint import pprint
import spacy
import random
list = ['Delhi','Mumbai','Bangalore','Agra','Jaipur','Noida','Lucknow','B
我使用spaCy管道从文章中提取所有实体。我需要将这些实体保存在一个变量上,这取决于它们被标记的标签。现在我有了这个解决方案,但我认为这不是最合适的解决方案,因为我需要遍历每个标签的所有实体:
nlp = spacy.load("es_core_news_md")
text = # I upload my text here
doc = nlp(text)
personEntities = list(set([e.text for e in doc.ents if e.label_ == "PER"]))
locationEntities = list(set
我正在使用python中的spacy库处理自然语言。从输入,我得到了几个句子,我分别使用这个
for sent in doc.sents:
对于每个发送,我使用.ents属性搜索任何命名实体。我想要实现的是用一个新的“发送”取代最初的“发送”,在最初的句子中,每一个被识别的实体都会被替换。这里有一个例子:
First sentence: Apple is looking at buying U.K. startup for $1 billion
After replacing: ORG is looking at buying GPE startup for MONEY
当然,使用一个简单的s
你好,开发人员,希望你做得很好,我有点纠结于一个问题,正在寻求社区的帮助
import spacy
import json
nlp = spacy.load("en_core_web_sm")
text = "Apple and Facebook and jobtarget looking at buying U.K. ie London startup for $1 billion and hiring more software engineer's lets see "
entity = [
{
"wor
我试图在heroku中部署一个应用程序,它成功地完成了,但是当我点击查看应用程序时,它在一个红色的框中显示了这个错误!
OSError: E050找不到'en_core_web_trf‘模型。它似乎不是Python包,也不是数据目录的有效路径。
这是我的代码:
import spacy_streamlit
import streamlit as st
import pandas as pd
from spacy_transformers import Transformer
from spacy_transformers.pipeline_component import DEFA
我在返回值"GPE“值最高的列名时遇到了问题。在本例中,我希望输出只是“文本”,因为该列有两行'GPE‘,而列text2有1,text3列有0。
代码:
import spacy
import pandas as pd
import en_core_web_sm
nlp = en_core_web_sm.load()
text = [["Canada", 'University of California has great research', "non-location"],["China", 'MI
我正致力于构建一个使用spacy来识别新实体的自定义NER,而不是spacy的NER。现在,我将使用spacy.Example标记和添加我的培训数据。我在使用BILOU计划。我的怀疑是,我有超过3个单词的实体。例如:
Housing Development Finance Corporation reported heavy losses in the past quarter.
我想把住房开发金融公司作为一个单一的实体,使用BILOU计划。有点像
'Housing' B-Entity
'Development' I-Entity
'Financ