在前几篇我的关于形式语言的文章中,我们大致可以理解到形式语言有以下的几个缺陷:
1:比如像汉语,英语这样的大型的自然语言系统,形式语言就比较难以构造精确的文法.
2:形式语言的逻辑规则太过于复杂,实际上并不符合我们的学习语言的习惯...,怎么可能从训练数据中正确的估计出这些参数.当然我们也不可能采用这样的笨方法,科学家们为了解决这个问题,相处了方法,可以将历史(w1,w2,....wi-1)按照某一个法则映射到等价类E(w1,w2,....这样一来,这个自由参数的数量也会大大减少,通常用的一个方法是将两个历史映射到同一个等价类,当且仅当两个历史最近的n-1的词相同时,如果E1=E2,呢么就说里边的历史是相同的....满足上述的语言模型就是成为n元语法,但是我们在使用时n不应该选取的过大,否则等价类太多,自由参数依旧存在,这样的话其实和没有改进没有啥区别,一般情况下我发现n=3是非常合适的,当n=1时,wi是独立于历史的...就按照三元文法为例:
在之前的介绍中,我们可以认为这是一个词的概率实际上只是跟前边的词有关,那么就可以有以下的方程:
?