我最初使用的是来自NLTK的以下Penn Treebank标记:
POS_Tagger = UnigramTagger(treebank.tagged_sents(), backoff=DefaultTagger('NN'))
然而,这并不是口头的文本。例如,"hello“在应该是”hello“时不被认为是感叹词。我从这里(标签,为什么“你好”被归类为名词?)读到,如果我想标记口语文本,我将“需要对整个宾州树银行的标记者进行培训,其中包括大约300万单词的英语口语”。我现在面临的问题是,如何才能做到这一点?我来过这里(宾州树银行项目),但在上面找不到任何东西。
如果整个宾州树银行的培训太难了,还有什么可供选择的呢?我正在考虑布朗语料库,然而POS标签是不同的,这使我不得不重写程序的其他部分。
发布于 2013-10-09 05:56:18
不幸的是,宾州树状银行只能通过语言数据联盟收取高额费用。如果你的需求是非商业的,你可能会找到一个学者谁可以允许你访问它。
或者,您可以通过在其他数据(新闻文章、布朗、维基百科等)上运行诸如ClearNLP工具或斯坦福CoreNLP工具等现有POS taggers来创建自己的银本位(而不是金本位)数据。然后,您可以使用这些标记的数据并训练NLTK taggers。当然,如果您需要更好地面向语音的数据,您可能需要查看总机语料库。看起来有一个带有POS和句法注释的版本可以通过Creative获得。
发布于 2014-05-12 15:21:58
你可以考虑一下美国国家语料库。虽然不是所有的都是免费的,但一个实质性的子集是(大约1,400万字)。该部分被称为"OANC“("O”表示"Open")。它的标签上有宾州树状银行POS标签。
它还包括较高层次的注释,如段落、句子、名词和动词“块”,您可能需要,也可能不需要,但当然可以忽略。
见http://www.anc.org/。
发布于 2015-06-19 07:48:21
NLTK中的宾州树状银行语料库只是真正的宾州树状银行的一个例子,参见银行
该示例只包含3000+语句,而NLTK中的棕色语料库包含超过50,000。除非你能访问整个PTB,否则最好使用其他的语料库。
https://stackoverflow.com/questions/16900503
复制相似问题