我想将文档(由单词组成)分为3类(肯定的、否定的、未知的/中性的)。文档单词的子集成为特征。
到目前为止,我已经编写了一个朴素的贝叶斯分类器,使用信息增益和卡方统计作为特征选择器。现在,我想看看如果我使用赔率比作为特征选择器会发生什么。
我的问题是我不知道如何实现赔率比。我应该:
1)计算每个单词w,每个类的赔率比:例如w:
Prob of word as positive Pw,p = #positive docs with w/#docs
Prob of word as negative Pw,n = #negative docs with w/#docs
Prob of
我正在尝试获取一个正则表达式,该正则表达式匹配不包含特定单词的字符串,并且在未匹配的单词之后包含特定字符。例如,它不应该匹配任何以“break”开头、后跟“;”字符的单词,而应该匹配任何不以“break”开头但以“;”结尾的单词。因此,在下面的示例中:
break; // does not match
code // does not match
code; // matches
我尝试了以下代码,但总是匹配:
/?!break;/
从我在jcrfsuite示例中给出的POS标记示例中了解到的情况。培训文件是选项卡分隔的,第一个标记是标签。但我不明白大集群的事。有人能帮我在训练文件中指定记号吗?
例子如下:
O BigCluster00Big群集00000000000000 NextBig群集0100 NextBig群集01000101 NextBig群集01000101 NextBig群集010001010101011111 POSTagDict N POSTagDict N POSTagDict X^POSTagDict^POSTagDict$POSTagDict V 1-预测下一次t=0上限
测试文件格式:
好了!B