语义分析,运用的范围相当广,例如可以通过一定语义算法科学地抽取文档的主题,可以发现文章中的重点词汇、研究文本的感情色彩等。本案例用Excel来做文档的语义分析。
本案所用的数据文档是爬取电商网站评论文本数据,再经过Excel的文档特征抽取工具提取出的文档术语矩阵,如下图所示:
在Excel的潜在语义分析工具中做好基本设置(具体的设置步骤将会分享在知识星球),选择30个主题数,以便为这组文档显示尽可能多的主题,而且还可以在计算出的截断矩阵上获得适当的解释方差,之后将每个主题的最大术语数(“最大术语/主题”)设置为5,以便仅在主题表以及与相关矩阵相关的不同图中可视化每个主题的最佳术语。
下图的摘要表显示每个主题的术语和文档总数:
下表和图形与一个数学对象(特征值)有关,它们各自对应于主题的重要性。
从N个维度(N是开始时的术语总数,在此数据集中为269个)移动到较小数量的维度(在示例中为30个)时,投影的质量是通过累积的可变性百分比来衡量的。
因此,每个特征值都与一个主题相对应,在这里我们看到将维度设置为30即可获得大约原始矩阵的60%的总累积变异性。
下表列出了找到的每个主题的最佳术语。这些主题以相关主题的重要性降序显示。第一个结果强调了通常与在线购买的服装的某些方面的正面或负面感觉相关的元素类别。
例如,主题8和24由术语对{small,large}和{run,bast}组成,涉及服装生产线上的尺寸问题。因此,可以将这些对组合成为一个通用术语,该符号表示此大小问题,从而消除了初始文档术语矩阵中的语义冗余(同义词)。
主题6通过将积极的情绪{sweet}与衣着行{top,peplum}相关联来表达成功。
术语对之间的关系强度通过下面的相关图直观地表示。它允许可视化新创建的语义空间中术语之间的相似度(余弦相似度)。余弦相似度测量可以比较具有不同出现频率的项。
相似度在0到1之间,值1对应完美的相似度或不相似度(一致的情况下为相似,不一致的情况下为相似)。
下面的两个示例以相似度从高到低的顺序显示了下拉列表中最接近所选词语的词语之间的相似度。