我做了个数据选品工具,帮你们搜寻护发神器

还在为用什么品牌的护发品烦恼吗?有了大数据,你需要做的也许只是动动指头。就读于纽约大学的一位数据侠,基于护发产品的用户评论等数据,开发了一款选品工具,本文分享了她的数据分析方法,看看对你有何启发?

如何找到最适合自己的护发品

你喜欢尝试新产品吗?你对现在最流行哪种护发品感到好奇吗?又或者你想让你的头发有光泽,并且一直渴望有一款合适的洗发水、护发素或者发油产品?

不妨试试我制作的这个选品工具,可以帮你迅速找到你需要的产品。(DT君注:后台回复“选品工具”可获取工具及代码链接)

这篇文章我将具体介绍我的研究方法和发现,以及我是怎么鼓捣出这个小工具的。

(图片说明:本文作者制作的选品工具页面截图,这个页面集中展示了不同的护发品牌的得分、网友评论关键词等,在这工具里搜索品牌名或者护发需求,还可查看对应品牌的平均得分、评论数、产品排名等。)

第一步:提出问题

一开始,需要先明确我想要通过这个研究来解决什么问题:

  • 市场上,哪些护发品牌最为流行?
  • 在Influenster.com这个网站上,用户行为又是怎样的? (DT君注:Influenster是一个针对互联网购物产品的发现、评分和分享的搜索引擎,用于帮助购物者能找到最佳的产品,本文作者的选品工具就是基于抓取到的该网站数据。)
  • 哪些因素可能对顾客满意度有着重要影响?
  • 如果能建一个搜索引擎, 输入需求是否能直接获得最相关的那款产品呢?

第二步:数据收集

为了获取最新的护发产品信息,我决定抓取Influenster网站上的数据,这个网站上有超过1400万条评论和超过200万种产品供用户选择。

为了缩小调查范围,我主要关注三类产品:洗发水、护发素和发油。

我收集了每一类别中排名前54的产品。

对于产品相关的数据集,我抓取了品牌名、产品名、产品评分、排名以及评论等信息。另外,我抓取的评论数据集则包括了作者名、作者位置、内容、评分以及发型等。

第三步:数据分析

接下来,到了揭晓我的发现的时候了,先是热门品牌的排名:

需要指出的是,"其他"(others)这一类指的是单一品牌仅占有一项或两项热门商品的集合,因为小品牌一一列出过于琐碎,因此全部归类为“其他”。基于此,我们从上面这个饼图大致可以判断出:大多数的流行品牌都属于大品牌。

接着我们再来美国不同地区的人们给护发品给出的平均评分情况:

为了解答前面提出的Influenster这个网站上用户行为的问题,我画了上面这张地图,它反映了美国各地的用户的不同评分倾向。

我甚至还绘制了两张地图来验证是否有关于不同地理位置的有趣结果,不过,由于我抓取的是每一类产品中排名前54的产品,它们的最终评分在全国都很高,很难从中发现什么区域差异。

然而,当我在观察Influenster网站上来自不同地区用户对护发产品的评论数量时,我们看到加州、佛罗里达州、德克萨斯州以及纽约分别有高达4740、3898、3787以及2818条评论。

(图片说明:美国各州的护发产品用户评论数量)

我还分析了评论数量和评分之间的关系,其实两者之间呈负相关关系。

比如,在总分是5分的情况下,对比之下可以发现,Pureology这款产品得到了最高分数4.77分,但它只有514条评论;而另一方面,OGX的评分是4.4分, 尽管它有超过5167条评论。

(图片说明:用户评论数量与用户评分的关系)

除了具体的评分,我们还会对用户最关心的因素,以及哪些因素对产品满意度影响最大等问题感兴趣。

为此我专门去查了这7.7万条评论中最常提到的关键词。

开始时我试着基于洗发水、护发素和发油这三类产品的评论,加上总体的全部评论给出4张词云图,然而,我发现从这4张图之间并不能看出显著的区别。

为此,我专门制作了一个“比较词云”,来核对在评论中最常见的词。从中可以发现,顾客认为最重要的因素还是产品的功效和香味。

另外,“推荐” 一词在评论数据集中是经常出现的。所以,我认为口碑是值得品牌们关注的重要的市场策略。

(图片说明:左图是基于各品类全部评论得出的词云,右图是将洗发水、护发素和发油三类产品的评论关键词放在一起做对比的情况;相比之下,右图这种“比较词云”的形式更能体现品类差异。)

我的选品工具是怎么做出来的

前面也提到了我的选品工具,是基于抓取到的数据制作。

下面这个视频展示了其中的“搜索功能”,比如你输入smooth这个词,那么你可以获得那些在柔顺度方面表现最佳的产品排名:

视频内容

为制作这个工具,我使用了“词频–反向文档频率”(TF-IDF)这种自然语言处理法,用来反映一个词在语料库中的某个文档中的重要性。

在我制作的搜索引擎中, 我利用了 “tm”包,并对词频采用了weightSMART“nnn”加权的方式。简单来说,weightSMART“nnn”是一种自然的加权计算,它统计了每一个单独的词语在数据集文档中出现的次数。

进行了“词频-反向文档频率”处理后,我还设法让每一次查询,都能根据“余弦相似度”的分数来推荐产品。

什么是余弦相似度呢?

它是在内积空间两个非零向量之间的一种相似度的度量,即计算他们之间角度的余弦值。

就信息检索如搜索引擎来说,两个文档的余弦相似度的值是在0到1之间的,因为词频(TF-IDF权重)不能为负。换言之,两个词频向量之间的夹角不能大于90度。此外,当余弦值接近1的时候,表示两个向量之间 (产品)有更高的相似性。

余弦相似度的计算公式如下所示:

我的几点结论

  • 大多数护发品产品属于家居品牌。
  • 在Influenster上,来自加州、佛罗里达州、德克萨斯州和纽约的用户更为活跃。
  • 一款产品的评论数量和评分之间往往呈负相关。
  • 对护发品来说,功效和香味是最为重要的因素。
  • 尽管“推荐”是一个普遍被使用的词,但在本文的研究中,其实我们还是很难判断用户用这个词是正面的还是负面的反馈,也许下一步我还可以对用户的情感进行分析。
  • 我开发的这个带有搜索引擎的选品工具,采用了“词频–反向文档频率”这种处理法并且引入了余弦相似度的概念,如果我能够再加入一些产品本身的描述,可能会运行地更棒。通过加上产品描述,用户有更高的概率不仅仅是匹配产品名称,还可以匹配产品描述来检索,这样他们能够检索到更相关的商品,并且探索更多产品的新特性。

注:本文编译自NYCdatascience.com网站博客文章,原题《Web Scraping Influenster: Find a Popular Hair Care Product for You》

作者 | 陈愉涵

编译 | 童睿

数据侠门派

本文数据侠陈愉涵(Chen Yu-Han),纽约大学管理与系统项目专业硕士生,专注于企业风险管理研究。目前在纽约数据科学院(NYC Data Science Academy)担任数据分析师与课程助教。

原文发布于微信公众号 - DT数据侠(DTdatahero)

原文发表时间:2017-09-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

神经科学新突破!新算法助力超算进行人类大脑模拟

---- 新智元编译 作者:谢永芬 【新智元导读】由德国于利希神经科学和医学研究所联合国际研究机构提出的新算法,解决了限制在E级超级计算机上模拟大脑神...

2838
来自专栏新智元

【深度学习框架大PK】褚晓文教授:五大深度学习框架三类神经网络全面测评(23PPT)

【新智元导读】 香港浸会大学褚晓文教授团队在2016年推出深度学习工具评测的研究报告《基准评测 TensorFlow、Caffe、CNTK、MXNet、Torc...

4368
来自专栏华章科技

极度烧脑+惊人发现:4个颠覆你世界观的量子理论实验

导读:最近,“量子”这个词成了网红。科幻作家们用量子理论虚构一个神奇的世界;量子计算是最火热的前沿技术之一;量子纠缠也成了伪科学用来忽悠人的幌子……

1041
来自专栏AI研习社

【头条】NVIDIA的Volta架构GV100大核心曝光;GPU终于可用于Google Compute Engine

【AI研习社】关注AI前沿、开发技巧及技术教程等方面的内容。欢迎技术开发类文章、视频教程等内容投稿,邮件发送至:zhangxian@leiphone.com ...

3494
来自专栏AI科技评论

专访英特尔中国研究院院长宋继强:gcForest开源了,该用什么硬件来训练?

近日,周志华教授开源了其在深度学习领域研究的新型算法——gcForest。他在论文中提到,不同于DNN的神经网络结构,它是一种基于决策树集成的方法。同时相比DN...

2937
来自专栏数据科学与人工智能

【大规模机器学习】大规模机器学习流程的构建与部署

大规模机器学习流程的构建与部署 现在有许多的机器学习算法实现是可以扩展到大数据集上的(其中包括矩阵分解、SVM、逻辑回归、LASSO 等等)。实际上,机器学习专...

30110
来自专栏AI科技大本营的专栏

Google发布“多巴胺”开源强化学习框架,三大特性全满足

强化学习是一种非常重要 AI 技术,它能使用奖励(或惩罚)来驱动智能体(agents)朝着特定目标前进,比如它训练的 AI 系统 AlphaGo 击败了顶尖围棋...

902
来自专栏大数据文摘

李飞飞说,机器是又快又准确,但是人类聪明呀!除此,她还推荐你读这十个机器学习误区

2043
来自专栏机器之心

PyTorch一周年战绩总结:是否比TensorFlow来势凶猛?

35110
来自专栏PPV课数据科学社区

TensorFlow产品经理:机器学习如何改变未来十年的软硬件?

本文为你分享Google产品经理关于机器学习工具的讲座概要。 最近,Google Brain员工,TensorFlow产品经理Zak Stone在硅谷创业者社群...

2904

扫码关注云+社区

领取腾讯云代金券