2018“云移杯- 景区口碑评价分值预测

用户1147447

发布于 2019-05-26 09:24:38

6740

发布于 2019-05-26 09:24:38

文章被收录于专栏：机器学习入门

2018“云移杯- 景区口碑评价分值预测 (初赛第9)

github链接：https://github.com/demonSong/DF_CCF_CONTEST

前言

实在太忙，找实习，天池，华为等比赛都放在一块了，该方案初赛第9，进入复赛之后就先放下了。此处记录从春节到3月份关于NLP的学习感悟，供大家参考。

任务

根据每个用户的评论，预测他们对景区的情感值（1~5）。

思路

分类问题：通过分类器学习评论与情感值的复杂映射关系。
回归问题：情感值实际是有先后等级关系，因此可以采用回归大法，直接预测。

注意：分类可以采用softmax多分的手段，实测效果很差。因此，我最终还是采用了回归大法。

特征 (Feature Engineering 0209.xlsx)

特征很重要，自然语言处理作为非结构化数据的代表需要处理成计算机能够认识的语言，才能送入分类器来学习。首先需要对中文评论进行分词，此处采用两种开源分词：

结巴分词，pyhton版本，可直接在python处理。
hankcs分词，java版本，NLP大神的开源大作，链接如下：https://github.com/hankcs/HanLP

分词之后，有两种处理手段：

把每个词当作一个标签，进行one-hot-code编码，也就是bag of words，变成一个稀疏矩阵，采用ridge or lasso等LR模型进行学习。
word2vec，该方法能够避免one-hot-code编码的稀疏性，且可以计算每个词之间的距离，得到近义词，反义词等。当然它还不仅如此，比如：king - man + women = queen

针对第一种bag of words得到每个单词对应的标签，比如：喜欢 -> 23, 不喜欢 -> 24, 杭州 -> 68，注意在进行标记时，我是根据每个词出现的频率来打标签的，这里可以简单理解为”杭州”出现的频率 > “不喜欢”出现的频率 > “喜欢”出现的频率

统计特征

根据情感值标签，统计每个词出现的频次，从大到小排序：

label_1: 不认大众化斑斑驳驳过团找罪船下双倍透顶一百误导差价一片狼藉夸耀太矮再行倒闭值不值谁家三十块明教质…
label_2: 小得望了望五毛钱欲望关了形同虚设多钱无法比拟次数脏乱差差太多人多车还花金领佳音室内环境宰死王小二帮到…
label_3: 聊胜于无名声大噪兵谏亭超强不太值好深耗时间白跑一趟慈城做礼拜请问体会出景點看提啥子金融机构亦昌冶坊可不…
label_4: 显贵古庙菽庄花园没钱门市总归明月山土家族早年天主教堂虎丘桥边紫藤九门麋鹿兴坪冰挂古装偷偷留着一探…
label_5: 叩拜海鲜热播泰国环岛只选藏兵广州市区亲眼看到妃子铺满千奇百怪水底大会堂内景西域忘不掉透明加深慈禧…

对于每个情感值标签，出现词的集合是不一样的，简单统计它们的频次之后，可取topK的词进行离散化，比如由label_1构成的top5词集合为{不认，大众化，斑斑驳驳，过团，找罪},接着针对每一条评论，如果这些词出现在这条评论里，则为1，否则为0，对应能够生成5个特征。label_2至label_5同理。

地点特征

往往景区差评成群聚现象，好的地方大都好评，差的地方整体呈现脏乱差现象，因此：

取整个词料库top100的地点进行离散化
差评景区离散化

情绪窗口（/features/feature_extract.py）

采用snownlp做情绪预测，输入一条评论能够得到(0~1)之间的情感值，越接近1情感越积极。直接做整条评论的情感值特征提取效果不佳，采用如下trick：

固定一个情感窗口，如窗口大小为2，则根据评论”我不喜欢这个地方”，能够得到【我不】，【不喜欢】，【喜欢这个】，【这个地方】四条独立的组合，取情感值的最大，最小，均值，能够有效提取情感值较差的词组合。

tf-idf

如果单纯的根据频次统计词集合，会出现大量无意义的词，如{的，是}等等这些词会占据绝大部分，因此可以借助停用词表来过滤这些无意义的词。不过实测效果不好，这需要一个很强大的停用词表，而每种NLP任务的停用词表千变万化，一套大而全的停用词往往得不到一个针对性的效果。

解决思路：采用关键词提取法，tf-idf会对一条评论的每个词进行打分，根据打分进行排序，就能得到topK的关键词集合。核心思想如下：首先一个词在该条评论中出现的次数与该分成正比，这样某个词出现的次数越高说明越能成为这条评论的关键词（tf）。此时，过滤出了真正的关键词和无意义词，为了再过滤无意义词，可以根据整个文档进行统计，词在文档中出现的频率越高，该打分应该越小（idf）。公式如下：