首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >命名实体识别:如何标记训练集并选择算法?

命名实体识别:如何标记训练集并选择算法?
EN

Stack Overflow用户
提问于 2014-01-07 11:59:09
回答 3查看 2.8K关注 0票数 2

对于包含公司名称的文本,我希望训练一个自动标记contractors (执行任务的公司)和主体(公司雇用承包商)的模型。

例句如下:

花公司聘请“大思考”的顾问来制定外包战略。

以“大思考”为承包商,以“花朵公司”为主营业务。

我的第一个问题是:是否足以标记我培训集中的负责人和承包商,还是更好地使用POS标记?

换句话说,

/NN顾问/NN大/承包商的神经网络开发/NN开发/NN外包/NN策略/NN.

大/大/承包商的/NNS/认为/承包商/开发/开发/VB/DT外包/NN战略/NN ./。

第二个问题:一旦我有了我的训练集,哪种算法是最有前途的? N-Gram标签,Brill标签,TnT标记,Maxent分类器,朴素贝叶斯,.?还是我完全走错路了?

我是新加入NLP的,我只是想征求意见,然后我投入大量的时间来标记我的培训集。我的文字是德文,这可能会增加一些困难.谢谢你的建议!

EN

回答 3

Stack Overflow用户

发布于 2014-01-08 22:05:31

我建议你不要合并命名实体和POS信息。大多数工作表明POS (或其他一些形态和/或大写特征)对于检测命名实体很有价值。由于您可以非常安全地使用自动POS标签器(除非您处理嘈杂的文本),您可能会得到以下内容:

代码语言:javascript
运行
复制
Blossom/NNP/PRINCIPAL Inc./NNP/PRINCIPAL hires/VBZ/O the/DT/O consultants/NNS/O of/IN/O Big/NNP/CONTRACTOR Think/NNP/CONTRACTOR to/TO/O develop/VB/O an/DT/O outsourcing/NN/O strategy/NN/O ./.

其中POS级别将自动标记,而您可以手动注释主和承包商。还请注意,大多数人使用生物格式来标记命名实体。

记住,认识组织通常是相当困难的-至少比人员和地点更难。除非您有一个预先定义的组织列表,否则需要大量的词典。顺理成章地说,我想你可以把你的任务分成:

  1. 识别和过滤组织(ORG),例如使用新标签
  2. 注入附加处理(模式/语法/语义)
  3. 实施第二个模型,在主或承包商中转换相关的ORG
票数 2
EN

Stack Overflow用户

发布于 2014-01-07 12:11:05

  1. 您不需要手动标记POS。POS标签会为你做的。
  2. 有关词性标注德语,请参见这个问题
票数 1
EN

Stack Overflow用户

发布于 2015-11-20 09:04:07

命名实体识别(斯坦福)对您的问题已经足够了。

使用POS标签无助于解决问题。

有足够数量的训练数据来生成NER模型会给你很好的效果。

如果您使用Stanford,那么它使用CRF分类器和算法。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/20971073

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档