还有一些无意义的评论,像是自动好评的,我们要识别并删去.
4.3压缩语句的规则:
1.若读入与上列表相同,下为空,则放下
2.若读入与上列表相同,下有,判断重复, 清空下表
3....若读入与上列表相同,下有,判断不重,清空上下
4.若读入与上列表不同,字符>=2,判断重复,清空上下
5.若读入与上列表不同,下为空,判断不重,继续放上
6.若读入与上列表不同...1.字符串匹配算法是将待分的文本串和词典中的词进行精确匹配,如果词典中的字符串出现在当前的待分的文本中,说明匹配成功。...常用的匹配算法主要有正向最大匹配、逆向最大匹配、双向最大匹配和最小切分。
2.基于理解的算法是通过模拟现实中人对某个句子的理解的效果进行分词。...单词由单字构成,在文本中,相邻字共同出现的次数越多,他们构成词的概率就越大;因此可以利用字之间的共现概率来反映词的几率,统计相邻字的共现次数,计算它们的共现概率。