我正在使用fott.azure网站上的培训工具来训练我的模型,我能够正确地标注字段,但是这个工具删除了所有识别文本中的空格。我对识别API也有同样的问题。
下面是一个例子
实际文本:United States of America
JSON回复:UnitedStatesofAmerica
是否有任何关于培训工具的设置来防止这一问题?
在用简单的标记后,split(' ')标记单项名称。
我需要训练和识别包含空格的名字。我该如何训练识别器?
例如:“我看到了一棵大红苹果树。”--我如何标记训练,然后识别“大红苹果树”,而不是识别四个单独的单词?
这对培训数据有用吗?
I\tO
saw\tO
a\tO
Big Red Apple Tree\tMyName
.\tO
来自识别器的输出是否与此相同?
FAQ中的培训部分说:“训练文件解析器并不是很宽容:您应该确保每一行只包含内容字段和制表符,空格不起作用。”
我通读了Lingpipe for NLP,发现我们有能力识别提到的人名、地点和组织。我的问题是,如果我有一个训练文档集,在文本中提到了比如说软件项目,我是否可以使用这个训练集来训练命名实体识别器?一旦训练完成,我应该能够将文本文档的测试集提供给训练过的模型,并且我应该能够识别那里提到的软件项目。
这个通用的NER可以使用NER吗?如果是这样,我应该使用哪些应该馈送的功能?
谢谢Abhishek S
因此,我最终将OpenNLP整合到了我的项目中,并且我已经成功地在15k行训练数据上训练了我的模型,并存储了它,当我想使用它来识别程序中的实体时,可以加载它!
我用它来识别标签,所以我的训练数据看起来像这样:
...
Jim , I know you to be a fighter <START:HASHTAG> #usmarine <END> @ USMC Kira has your strength & amp ; ours @ t1r1u1t1h R love 2 U , Kira & amp ;
What has cha