我经常会得到更高的结果。在某些情况下,模型工作良好,但在更糟糕的情况下。有没有机会解决这个问题?
一些坏案例的例子:
我试着调整偏置参数,但问题仍然存在。
发布于 2019-07-27 06:36:46
你最好的选择就是训练你自己的模特。我们可能会考虑培训一种新的模式,并在某个时候分发。
您可以查看我们用来训练模型的道具文件,方法是从主要模型jar中提取这个文件:
edu/stanford/nlp/models/truecase/truecasing.fast.caseless.prop
训练数据只是空格分隔的标记,每行一句与正确的情况。我们不能将我们所使用的训练数据分配给我们所分发的模型。无论您的典型领域是什么文本,您都可以将数百万句话输入到培训过程中,并为您的数据集提供更好的新模型。
我们使用的训练数据有1,301,730个句子。
这里有一个关于以下内容的GitHub线程:https://github.com/stanfordnlp/CoreNLP/issues/336
培训指挥部应是:
java -Xmx100g edu.stanford.nlp.ie.crf.CRFClassifier -prop custom.prop
作为参考,提取的属性文件如下所示:
serializeTo=truecasing.fast.caseless.qn.ser.gz
trainFileList=/scr/nlp/data/gale/NIST09/truecaser/crf/noUN.input
testFile=/scr/nlp/data/gale/AE-MT-eval-data/mt06/cased/ref0
map=word=0,answer=1
wordFunction = edu.stanford.nlp.process.LowercaseFunction
useClassFeature=true
useWord=true
useNGrams=true
noMidNGrams=true
maxNGramLeng=6
usePrev=true
useNext=true
useLongSequences=true
useSequences=true
usePrevSequences=true
useTypeSeqs=true
useTypeSeqs2=true
useTypeySequences=true
useOccurrencePatterns=true
useLastRealWord=true
useNextRealWord=true
useDisjunctive=true
disjunctionWidth=5
wordShape=chris2useLC
usePosition=true
useBeginSent=true
useTitle=true
useObservedSequencesOnly=true
saveFeatureIndexToDisk=true
normalize=true
useQN=false
QNSize=25
maxLeft=1
l1reg=1.0
readerAndWriter=edu.stanford.nlp.sequences.TrueCasingForNISTDocumentReaderAndWriter
featureFactory=edu.stanford.nlp.ie.NERFeatureFactory
featureDiffThresh=0.02
https://stackoverflow.com/questions/57216020
复制相似问题