文章/答案/技术大牛

发布

问ner列车数据集的构造
EN

Stack Overflow用户

提问于 2022-11-25 21:23:19

回答 1查看 27关注 0票数 0

我的意见是：

text = "Apple est une entreprise, James Alfred travaille ici"
spans = [
    {
"start":0,
"end":5,
"label":"ORG"
},
{
"start":26,
"end":38,
"label":"PER"
}
]

correspondance_dict = {"PER":2, "ORG": 4 , "O" : 0}

我想要标记文本并根据跨列表构造标签，即：

我想要产出：

tokenized_text = ["Apple", "est", "une", "entreprise", "," , "James","Alfred", "travaille", "ici"]
labels = [4,0,0,0,0,2,2,0,0]  #this list constructed with correspondance_dict and spans (4 because Apple is ORG and  the "2,2" because "James,Alfred" is person

nlp

spacy

python

python-3.x

回答 1

Stack Overflow用户

发布于 2022-11-26 06:23:18

如果您试图在程序的其他部分使用huggingface的管道，那么使用适当的策略来聚合输出文本块是很容易的。

详细解释的文档可获得这里！

from transformers import pipeline

# Initialize the NER pipeline
ner = pipeline("ner", aggregation_strategy="simple")

# Phrase
phrase = "David helped Peter enter the building, where his house is located."

# NER task
ner_result = ner(phrase)

# Print result
print(ner_result)

产出：

[{'entity_group': 'PER', 'score': 0.99642086, 'word': 'David', 'start': 0, 'end': 5}, {'entity_group': 'PER', 'score': 0.99559766, 'word': 'Peter', 'start': 13, 'end': 18}]

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/74577951

复制

相似问题

问ner列车数据集的构造
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问ner列车数据集的构造EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问ner列车数据集的构造
EN