我当时正在阅读FastText 纸,我对用于分类的模型有一些疑问。由于我不是来自NLP背景,有些我不熟悉行话。在图中,x_i到底是什么?我不知道N ngram功能意味着什么。如果我的文档有总L单词,那么如何使用N变量(x_1、.、x_n)来表示整个文档?N到底是什么?

-\frac{1}{N}\sum_{n=1}^Ny_n\log(f(BAx_n)) ,如果y_n是标签,那么在softmax之后用输出向量乘以它又有什么意义(标签是0,1,2,3,。)?作者的意思是,在计算损失时,我们取输出向量的y_n-th分量?
发布于 2020-06-13 06:22:44
如果y_n是表示类的一个热编码标签的行向量,并且乘法是用单列矩阵log(f(B A x_n))表示由softmax函数f给出的所有类的日志似然,那么这个公式就有意义了。
至于x_n,它当然也必须是一个向量,表示n-th文档中的N-grams。
https://datascience.stackexchange.com/questions/74991
复制相似问题