Home Depot Product Search Relevance

kaggle赛题链接Home Depot Product Search Relevance,这个题目关键点就是特征提取,给的数据需要观察处理

第一类特征(词汇语意)

  • 可以用Levenshtein.ratio函数来评估两个英文单词相似度,
  • 使用nltk工具,nltk.corpus 中 wordnet来判断两个词语意相似度
  • 如果以上两个相似度都很低,还要查看属性文件中是否有匹配单词(只发现一个训练集是三分,但是与title、description十分不匹配,但是与属性文档中一个项匹配)
  • 如果以上都不匹配,至少发现四个案例是这样,搜索的产品型号,需要使用google搜索(网络请求),用搜索到的第一个内容再来判断相似度

第二类特征 词向量(gensim中wod2vec)

  • 用word2vec训练维基百科英文语料,来衡量两个词汇相关性
  • 用word2vec将product_title与product_description合起来作为语料训练得到词向量

第三类特征 tidf

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

【资源】Python实现多种模型(Naive Bayes, SVM, CNN, LSTM, etc)用于推文情感分析

【导读】近日,Abdul Fatir 在自己的CS5228课程报告使用不同的方法进行Tweets情感分析(作为二分类问题),并对这些方法的性能进行比较,主要是基...

47210
来自专栏日常学python

教你如何用Python玩转小程序游戏「一笔画完」

欢迎大家关注。话不多说,直接上张图,看看一笔画完游戏是什么样的,我们需要将灰格子都走完且只走一遍 Z

1544
来自专栏Aloys的开发之路

判断一个数是不是2的幂

我们经常会遇到这样一个问题,就是判断某个数据是否为2的n次方(1,2,4,8,16...)。例如如果用户输入的不是2^n,则要求用户重新输入。为了说明这种判断算...

2228
来自专栏机器之心

GPU捉襟见肘还想训练大批量模型?谁说不可以

2018 年的大部分时间我都在试图训练神经网络时克服 GPU 极限。无论是在含有 1.5 亿个参数的语言模型(如 OpenAI 的大型生成预训练 Transfo...

3553
来自专栏SDNLAB

使用机器学习算法对流量分类的尝试(续)——关键报文的发现

导言 在上一篇文章《使用机器学习算法对流量分类的尝试——基于样本分类》(http://www.sdnlab.com/17324.html)中,我提供了一种使用朴...

3798
来自专栏程序你好

使用ML.Net和CSharp语言进行机器学习

本文介绍.net中的机器学习技术实现,不涉及数学方面的内容。它将重点关注在.net中的基本工作流程及其数据处理结构,以及怎么样通过使用开源项目ML.Net 0....

5593
来自专栏玉树芝兰

如何用 Python 和循环神经网络(RNN)做中文文本分类?

本文为你展示,如何使用 fasttext 词嵌入预训练模型和循环神经网络(RNN), 在 Keras 深度学习框架上对中文评论信息进行情感分类。

1814
来自专栏点滴积累

geotrellis使用(十六)使用缓冲区分析的方式解决投影变换中边缘数据值计算的问题

Geotrellis系列文章链接地址http://www.cnblogs.com/shoufengwei/p/5619419.html 目录 前言 问题探索 ...

3504
来自专栏人工智能

如何仅使用TensorFlow C+来训练深度神经网络

作者|Florian Courtial 译者|Debra 编辑|Emily AI 前线导读:训练神经网络是一件十分复杂,难度非常大的工作,有没有可能让训练的过程...

2245
来自专栏机器之心

手把手教你为iOS系统开发TensorFlow应用(附开源代码)

选自machinethink.net 机器之心编译 参与:赵华龙、邵明、吴攀、李泽南 在你使用深度神经网络做预测之前,你首先要训练神经网络。现在存在许多不同的神...

3119

扫码关注云+社区

领取腾讯云代金券