文章/答案/技术大牛

发布

社区首页 >问答首页 >CoreNLP TrueCaseAnnotator在某些情况下返回超感知文本

问CoreNLP TrueCaseAnnotator在某些情况下返回超感知文本
EN

Stack Overflow用户

提问于 2019-07-26 08:26:48

回答 1查看 93关注 0票数 0

我经常会得到更高的结果。在某些情况下，模型工作良好，但在更糟糕的情况下。有没有机会解决这个问题？

一些坏案例的例子：

世界上最小的花瓶！->世界上最小的花瓶！
斯沃娜·查图尔维迪喜欢。植物和少数点击赢得他的自由露台花园！->斯沃纳聊天喜欢。植物和少数点击，以赢得他的免费露台花园！
灭霸!赢得无限高恩特莱特堡垒之夜:战斗皇家->萨诺斯！赢得无限高恩特莱特堡垒之夜:战斗皇家现场
带硬盘的DIY静态轨道砂光机->带硬盘的DIY静态轨道磨光机
酷圣诞卡->酷圣诞卡
这个未来派的3D打印机用光打印->
晚餐用->放大
整容外科医生使用激光去除痣->美容外科医生使用激光去除痣 @anelkasam

我试着调整偏置参数，但问题仍然存在。

stanford-nlp

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-07-27 06:36:46

你最好的选择就是训练你自己的模特。我们可能会考虑培训一种新的模式，并在某个时候分发。

您可以查看我们用来训练模型的道具文件，方法是从主要模型jar中提取这个文件：

edu/stanford/nlp/models/truecase/truecasing.fast.caseless.prop

训练数据只是空格分隔的标记，每行一句与正确的情况。我们不能将我们所使用的训练数据分配给我们所分发的模型。无论您的典型领域是什么文本，您都可以将数百万句话输入到培训过程中，并为您的数据集提供更好的新模型。

我们使用的训练数据有1,301,730个句子。

这里有一个关于以下内容的GitHub线程：https://github.com/stanfordnlp/CoreNLP/issues/336

培训指挥部应是：

java -Xmx100g edu.stanford.nlp.ie.crf.CRFClassifier -prop custom.prop

作为参考，提取的属性文件如下所示：

serializeTo=truecasing.fast.caseless.qn.ser.gz
trainFileList=/scr/nlp/data/gale/NIST09/truecaser/crf/noUN.input
testFile=/scr/nlp/data/gale/AE-MT-eval-data/mt06/cased/ref0

map=word=0,answer=1

wordFunction = edu.stanford.nlp.process.LowercaseFunction

useClassFeature=true
useWord=true
useNGrams=true
noMidNGrams=true
maxNGramLeng=6
usePrev=true
useNext=true
useLongSequences=true
useSequences=true
usePrevSequences=true
useTypeSeqs=true
useTypeSeqs2=true
useTypeySequences=true
useOccurrencePatterns=true
useLastRealWord=true
useNextRealWord=true
useDisjunctive=true
disjunctionWidth=5
wordShape=chris2useLC
usePosition=true
useBeginSent=true
useTitle=true

useObservedSequencesOnly=true
saveFeatureIndexToDisk=true
normalize=true

useQN=false
QNSize=25

maxLeft=1
l1reg=1.0

readerAndWriter=edu.stanford.nlp.sequences.TrueCasingForNISTDocumentReaderAndWriter
featureFactory=edu.stanford.nlp.ie.NERFeatureFactory

featureDiffThresh=0.02

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/57216020

复制

相似问题

问CoreNLP TrueCaseAnnotator在某些情况下返回超感知文本
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问CoreNLP TrueCaseAnnotator在某些情况下返回超感知文本EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问CoreNLP TrueCaseAnnotator在某些情况下返回超感知文本
EN