检索式聊天机器人包括:
1、检索式问答系统核心技术之倒排索引
技术点:关键词抽取,tf-idf,倒排索引,NLP
2、检索式问答系统核心技术之rank
技术点:ctr预估,learning to rank,排序模型指标评测...对于中文而言,需要通过jieba、pkuseg进行分词,再进行停用词处理或剔除频次极地的词汇。
对于本文而言,由于聊天记录是非常口语化的,建议只做分词,不做进一步处理。...-------------------------------
# 中文常用停用词,因为都是口语短语,所以只处理标点符号
stoplist_ch = set(', . : ; ?...': 3, '以为': 4, '会': 5, '我': 6, '是': 7, '从不': 8, '反话': 9, '说': 10, '你': 11, '哈哈': 12, '大熊猫': 13, '没有':...->多少文档包含这个token
# {0: 1, 2: 1, 1: 1, 6: 3, 4: 1, 5: 1, 7: 2, 3: 1, 8: 1, 10: 1, 9: 1, 14: 1, 12: 1, 11