对于包含公司名称的文本,我希望训练一个自动标记contractors (执行任务的公司)和主体(公司雇用承包商)的模型。
例句如下:
花公司聘请“大思考”的顾问来制定外包战略。
以“大思考”为承包商,以“花朵公司”为主营业务。
我的第一个问题是:是否足以标记我培训集中的负责人和承包商,还是更好地使用POS标记?。
换句话说,
/NN顾问/NN大/承包商的神经网络开发/NN开发/NN外包/NN策略/NN.
或
大/大/承包商的/NNS/认为/承包商/开发/开发/VB/DT外包/NN战略/NN ./。
第二个问题:一旦我有了我的训练集,哪种算法是最有前途的? N-Gram标签,Brill标签,TnT标记,Maxent分类器,朴素贝叶斯,.?还是我完全走错路了?
我是新加入NLP的,我只是想征求意见,然后我投入大量的时间来标记我的培训集。我的文字是德文,这可能会增加一些困难.谢谢你的建议!
发布于 2014-01-08 22:05:31
我建议你不要合并命名实体和POS信息。大多数工作表明POS (或其他一些形态和/或大写特征)对于检测命名实体很有价值。由于您可以非常安全地使用自动POS标签器(除非您处理嘈杂的文本),您可能会得到以下内容:
Blossom/NNP/PRINCIPAL Inc./NNP/PRINCIPAL hires/VBZ/O the/DT/O consultants/NNS/O of/IN/O Big/NNP/CONTRACTOR Think/NNP/CONTRACTOR to/TO/O develop/VB/O an/DT/O outsourcing/NN/O strategy/NN/O ./.
其中POS级别将自动标记,而您可以手动注释主和承包商。还请注意,大多数人使用生物格式来标记命名实体。
记住,认识组织通常是相当困难的-至少比人员和地点更难。除非您有一个预先定义的组织列表,否则需要大量的词典。顺理成章地说,我想你可以把你的任务分成:
发布于 2014-01-07 12:11:05
发布于 2015-11-20 09:04:07
命名实体识别(斯坦福)对您的问题已经足够了。
使用POS标签无助于解决问题。
有足够数量的训练数据来生成NER模型会给你很好的效果。
如果您使用Stanford,那么它使用CRF分类器和算法。
https://stackoverflow.com/questions/20971073
复制相似问题