前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Home Depot Product Search Relevance

Home Depot Product Search Relevance

作者头像
用户1733462
发布2018-08-13 17:31:50
5790
发布2018-08-13 17:31:50
举报
文章被收录于专栏:数据处理数据处理

kaggle赛题链接Home Depot Product Search Relevance,这个题目关键点就是特征提取,给的数据需要观察处理

第一类特征(词汇语意)
  • 可以用Levenshtein.ratio函数来评估两个英文单词相似度,
  • 使用nltk工具,nltk.corpus 中 wordnet来判断两个词语意相似度
  • 如果以上两个相似度都很低,还要查看属性文件中是否有匹配单词(只发现一个训练集是三分,但是与title、description十分不匹配,但是与属性文档中一个项匹配)
  • 如果以上都不匹配,至少发现四个案例是这样,搜索的产品型号,需要使用google搜索(网络请求),用搜索到的第一个内容再来判断相似度
第二类特征 词向量(gensim中wod2vec)
  • 用word2vec训练维基百科英文语料,来衡量两个词汇相关性
  • 用word2vec将product_title与product_description合起来作为语料训练得到词向量
第三类特征 tidf
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018.07.29 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 第一类特征(词汇语意)
  • 第二类特征 词向量(gensim中wod2vec)
  • 第三类特征 tidf
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档