我知道单词嵌入中的不同维度代表了不同的信息,例如,可以在两个嵌入之间执行代数操作。
有人能告诉我关于从一个词嵌入向量中选择特定维度的文献吗?我不是指降维,但论文遵循的理论是,所有这些维度并不对所有任务都很重要,对于特定的任务来说,具体的维度将更重要。例如:情绪分析将受益于维度5至55和250至300,而不是使用整个300维度。
如果这个理论不是真的请告诉我。
发布于 2021-01-03 15:42:16
关于这一主题的理论工作不多。嵌入的维数是一个经验问题,取决于语料库和任务。
彭宁顿的"手套:字表示的全局向量“论文显示,通过增加数百个然后递减的收益,精度有了很大的提高。
最常见的维度数是128或256。128和256都是2的幂,可以加快训练时间。
https://datascience.stackexchange.com/questions/77341
复制相似问题