还在为用什么品牌的护发品烦恼吗?有了大数据,你需要做的也许只是动动指头。就读于纽约大学的一位数据侠,基于护发产品的用户评论等数据,开发了一款选品工具,本文分享了她的数据分析方法,看看对你有何启发?
你喜欢尝试新产品吗?你对现在最流行哪种护发品感到好奇吗?又或者你想让你的头发有光泽,并且一直渴望有一款合适的洗发水、护发素或者发油产品?
不妨试试我制作的这个选品工具,可以帮你迅速找到你需要的产品。(DT君注:后台回复“选品工具”可获取工具及代码链接)
这篇文章我将具体介绍我的研究方法和发现,以及我是怎么鼓捣出这个小工具的。
(图片说明:本文作者制作的选品工具页面截图,这个页面集中展示了不同的护发品牌的得分、网友评论关键词等,在这工具里搜索品牌名或者护发需求,还可查看对应品牌的平均得分、评论数、产品排名等。)
一开始,需要先明确我想要通过这个研究来解决什么问题:
为了获取最新的护发产品信息,我决定抓取Influenster网站上的数据,这个网站上有超过1400万条评论和超过200万种产品供用户选择。
为了缩小调查范围,我主要关注三类产品:洗发水、护发素和发油。
我收集了每一类别中排名前54的产品。
对于产品相关的数据集,我抓取了品牌名、产品名、产品评分、排名以及评论等信息。另外,我抓取的评论数据集则包括了作者名、作者位置、内容、评分以及发型等。
接下来,到了揭晓我的发现的时候了,先是热门品牌的排名:
需要指出的是,"其他"(others)这一类指的是单一品牌仅占有一项或两项热门商品的集合,因为小品牌一一列出过于琐碎,因此全部归类为“其他”。基于此,我们从上面这个饼图大致可以判断出:大多数的流行品牌都属于大品牌。
接着我们再来美国不同地区的人们给护发品给出的平均评分情况:
为了解答前面提出的Influenster这个网站上用户行为的问题,我画了上面这张地图,它反映了美国各地的用户的不同评分倾向。
我甚至还绘制了两张地图来验证是否有关于不同地理位置的有趣结果,不过,由于我抓取的是每一类产品中排名前54的产品,它们的最终评分在全国都很高,很难从中发现什么区域差异。
然而,当我在观察Influenster网站上来自不同地区用户对护发产品的评论数量时,我们看到加州、佛罗里达州、德克萨斯州以及纽约分别有高达4740、3898、3787以及2818条评论。
(图片说明:美国各州的护发产品用户评论数量)
我还分析了评论数量和评分之间的关系,其实两者之间呈负相关关系。
比如,在总分是5分的情况下,对比之下可以发现,Pureology这款产品得到了最高分数4.77分,但它只有514条评论;而另一方面,OGX的评分是4.4分, 尽管它有超过5167条评论。
(图片说明:用户评论数量与用户评分的关系)
除了具体的评分,我们还会对用户最关心的因素,以及哪些因素对产品满意度影响最大等问题感兴趣。
为此我专门去查了这7.7万条评论中最常提到的关键词。
开始时我试着基于洗发水、护发素和发油这三类产品的评论,加上总体的全部评论给出4张词云图,然而,我发现从这4张图之间并不能看出显著的区别。
为此,我专门制作了一个“比较词云”,来核对在评论中最常见的词。从中可以发现,顾客认为最重要的因素还是产品的功效和香味。
另外,“推荐” 一词在评论数据集中是经常出现的。所以,我认为口碑是值得品牌们关注的重要的市场策略。
(图片说明:左图是基于各品类全部评论得出的词云,右图是将洗发水、护发素和发油三类产品的评论关键词放在一起做对比的情况;相比之下,右图这种“比较词云”的形式更能体现品类差异。)
前面也提到了我的选品工具,是基于抓取到的数据制作。
下面这个视频展示了其中的“搜索功能”,比如你输入smooth这个词,那么你可以获得那些在柔顺度方面表现最佳的产品排名:
为制作这个工具,我使用了“词频–反向文档频率”(TF-IDF)这种自然语言处理法,用来反映一个词在语料库中的某个文档中的重要性。
在我制作的搜索引擎中, 我利用了 “tm”包,并对词频采用了weightSMART“nnn”加权的方式。简单来说,weightSMART“nnn”是一种自然的加权计算,它统计了每一个单独的词语在数据集文档中出现的次数。
进行了“词频-反向文档频率”处理后,我还设法让每一次查询,都能根据“余弦相似度”的分数来推荐产品。
什么是余弦相似度呢?
它是在内积空间两个非零向量之间的一种相似度的度量,即计算他们之间角度的余弦值。
就信息检索如搜索引擎来说,两个文档的余弦相似度的值是在0到1之间的,因为词频(TF-IDF权重)不能为负。换言之,两个词频向量之间的夹角不能大于90度。此外,当余弦值接近1的时候,表示两个向量之间 (产品)有更高的相似性。
余弦相似度的计算公式如下所示:
注:本文编译自NYCdatascience.com网站博客文章,原题《Web Scraping Influenster: Find a Popular Hair Care Product for You》
作者 | 陈愉涵
编译 | 童睿
本文数据侠陈愉涵(Chen Yu-Han),纽约大学管理与系统项目专业硕士生,专注于企业风险管理研究。目前在纽约数据科学院(NYC Data Science Academy)担任数据分析师与课程助教。