首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >CoreNLP TrueCaseAnnotator在某些情况下返回超感知文本

CoreNLP TrueCaseAnnotator在某些情况下返回超感知文本
EN

Stack Overflow用户
提问于 2019-07-26 08:26:48
回答 1查看 93关注 0票数 0

我经常会得到更高的结果。在某些情况下,模型工作良好,但在更糟糕的情况下。有没有机会解决这个问题?

一些坏案例的例子:

  • 世界上最小的花瓶!->世界上最小的花瓶!
  • 斯沃娜·查图尔维迪喜欢。植物和少数点击赢得他的自由露台花园!->斯沃纳聊天喜欢。植物和少数点击,以赢得他的免费露台花园!
  • 灭霸!赢得无限高恩特莱特堡垒之夜:战斗皇家->萨诺斯!赢得无限高恩特莱特堡垒之夜:战斗皇家现场
  • 带硬盘的DIY静态轨道砂光机->带硬盘的DIY静态轨道磨光机
  • 酷圣诞卡->酷圣诞卡
  • 这个未来派的3D打印机用光打印->
  • 晚餐用->放大
  • 整容外科医生使用激光去除痣->美容外科医生使用激光去除痣 @anelkasam

我试着调整偏置参数,但问题仍然存在。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-07-27 06:36:46

你最好的选择就是训练你自己的模特。我们可能会考虑培训一种新的模式,并在某个时候分发。

您可以查看我们用来训练模型的道具文件,方法是从主要模型jar中提取这个文件:

代码语言:javascript
运行
复制
edu/stanford/nlp/models/truecase/truecasing.fast.caseless.prop

训练数据只是空格分隔的标记,每行一句与正确的情况。我们不能将我们所使用的训练数据分配给我们所分发的模型。无论您的典型领域是什么文本,您都可以将数百万句话输入到培训过程中,并为您的数据集提供更好的新模型。

我们使用的训练数据有1,301,730个句子。

这里有一个关于以下内容的GitHub线程:https://github.com/stanfordnlp/CoreNLP/issues/336

培训指挥部应是:

代码语言:javascript
运行
复制
java -Xmx100g edu.stanford.nlp.ie.crf.CRFClassifier -prop custom.prop

作为参考,提取的属性文件如下所示:

代码语言:javascript
运行
复制
serializeTo=truecasing.fast.caseless.qn.ser.gz
trainFileList=/scr/nlp/data/gale/NIST09/truecaser/crf/noUN.input
testFile=/scr/nlp/data/gale/AE-MT-eval-data/mt06/cased/ref0

map=word=0,answer=1

wordFunction = edu.stanford.nlp.process.LowercaseFunction

useClassFeature=true
useWord=true
useNGrams=true
noMidNGrams=true
maxNGramLeng=6
usePrev=true
useNext=true
useLongSequences=true
useSequences=true
usePrevSequences=true
useTypeSeqs=true
useTypeSeqs2=true
useTypeySequences=true
useOccurrencePatterns=true
useLastRealWord=true
useNextRealWord=true
useDisjunctive=true
disjunctionWidth=5
wordShape=chris2useLC
usePosition=true
useBeginSent=true
useTitle=true

useObservedSequencesOnly=true
saveFeatureIndexToDisk=true
normalize=true

useQN=false
QNSize=25

maxLeft=1
l1reg=1.0

readerAndWriter=edu.stanford.nlp.sequences.TrueCasingForNISTDocumentReaderAndWriter
featureFactory=edu.stanford.nlp.ie.NERFeatureFactory

featureDiffThresh=0.02
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/57216020

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档