情感倾向明显:明显的词汇 如”好” “可以”
语言不规范:会出现一些网络用词,符号,数字等
重复性大:一句话出现词语重复
数据量大....,下有,判断不重,放下
7.读完后,判断上下,若重则压缩.
4.4然后我们再进行中文的分词,分词的大致原理是:
中文分词是指将一段汉字序列切分成独立的词。...模型二:.LDA模型
传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的...可以看到上面这两个句子没有共同出现的单词,但这两个句子是相似的,如果按传统的方法判断这两个句子肯定不相似,所以在判断文档相关性的时候需要考虑到文档的语义,而语义挖掘的利器是主题模型,LDA就是其中一种比较有效的模型...("\\n","",data1_cut)
data1_cut=gsub("[a-z]*","",data1_cut)
data1_cut=gsub("\\d+","",data1