版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/github_39655029/article/details/84869448
HMM描述的是已知量和未知量的一个联合概率分布,属于generative model,而CRF则是建模条件概率,属于discriminative model;且CRF特征更加丰富,可通过自定义特征函数来增加特征信息,CRF能建模的信息应该包括HMM的状态转移、数据初始化的特征;主要包括两部分特征:
基本步骤:
每个词只在对应的index置1,其他位置均为0,难点在于做相似度计算;
LSA使用词-文档矩阵,矩阵常为系数矩阵,行代表词语,列代表文档;词-文档矩阵表示中的值表示词在文章中出现的次数;难点在于当语料库过大时,计算很耗费资源,且对未登录词或新文档不友好;
包括CBOW和Skip-gram模型;CBOW的输入为上下文的表示,然后对目标词进行预测;Skip-gram每次从目标词w的上下文c中选择一个词,将其词向量作为模型输入; Skip-gram主要结构: