我做了大量的谷歌搜索,但找不到一篇论文,提出了一种算法,将产生密集的特征向量,为简短的文本输入。我很乐意找到一种特征提取算法,它的性能至少与稀疏词、单字和双字形特征向量一样好。
目前,我正在探索使用LDA (潜在Dirichlet分配)的想法,但是在处理短文本(每个文档2-7个单词)方面存在问题。
手头的任务是简短的文本分类。我的数据的类数从10个到20个不等。类表示得相当好,单词unigram和bigram特性都很好地工作。我想为其他实验计算密集的特征向量。
任何文件的指针,最好是简单的实施,将不胜感激。
发布于 2017-02-14 15:49:46
在我的工作中,我们已经取得了一些成功,仅仅使用经过预先训练的嵌入的平均值(例如,GloVe向量)来对短文本进行分类。你试过吗?
https://datascience.stackexchange.com/questions/9456
复制相似问题