七夕来了,是时候喂一波“狗粮”了 | DT×NYCDSA

今天的狗粮,真的是狗粮哦!作为宠物爱好者,数据侠 Summer Sun 一直很关心自己宠物的口粮问题。她爬取了美国宠物市场上的食品信息,用数据分析的方法为自己的宠物做了一份科学的食物分析。

2017年第一季度,美国市场的宠物食品销量同比增长40%。食品种类也更加多样。作为一个养宠物的人,我总是很纠结如何挑选更好的宠物食品,因为我的毛茸茸的伙伴有时候会对我给它买回来的食物嗤之以鼻。于是我决定展开这个爬虫项目,来进一步了解宠物食品。我的一些发现不仅会对宠物主有帮助,也会有益于刚刚进入这个市场的供应商们。

在2016年全美宠物市场中,市值159.2亿美元的宠物食品市场占了大头。但是这个市场还是高度集中化的,几大厂商(雀巢、马氏、 Big Heart、高露洁、蓝爵)占据了70%的市场份额。所有的厂商都要按照消费者的需求进行设计,而根据问卷调查的结果,消费者最关心的是产品的“高品质”问题。

什么样的产品算是高质量的宠物食品?我们研究中的假设是,宠物食品的品质取决于它的材料。

我的分析会从营养成分分析开始,它会显示整个食物的营养成分构成。

(图片说明:宠物食品的营养成分构成)

市面上有4500多种产品,我从美国领先的在线零售网站 (chewy.com) 上爬取了猫粮和狗粮的数据。下面是一个爬取数据的样本。我用 Python 包 Pandas 对数据进行了预处理,使用复杂的多步骤数据处理方式,将宠物食品成分进行了单独区分。

(图片说明:爬虫下的数据示例)

基于刚才提到的假设,我的研究包括以下三步:首先,比较营养成分分析中的基本数据,以查看它们的营养构成信息;其次,识别被用户视为“好品质”和“差品质”产品;最后观察不同品质产品的区别。

实验中用到的方法包括:Scrapy(一种python爬虫框架),k-平均算法(K-mean Clustering),方差分析(ANOVA test),散步图(Scatter text)。

我对大约4500个产品的数据进行了预处理。我们基于大约70种不同的原材料,使用无监督学习的方法对产品进行了聚类处理。我们使用k-平均算法,基于不同原材料所占的比例将它们分成5个部分。

数据通过主成分分析法(PCA)降维算法降成两个维度。下图展示了5个数据群集的情况。

(图片说明:PCA后的数据集群情况)

这部分的结果是基于这样的假设:产品的评价数量和评级情况反映了它的品质(也就是上文提到的两个评价维度)。为了按照品质来区别不同产品,我使用了方差分析(ANOVA test)。观察得出,下图中3号和4号数据群比1和2拥有更高的评级和更多的用户评论。这说明,事实上,产品品质的确取决于所用材料。

(图片说明:5个数据群的评级(1星到5星)分布)

(图片说明:5个数据群的产品评论数量)

数据群3、4被认为是好品质的产品,1、2被视为差品质的产品。0号数据群表示缺失评论数据的例外情况。

下面是产品材料出现的频率图。

(图片说明:好产品和坏产品中出现的材料的不同频率)

一些只频繁出现在“好品质”的产品中的材料包括:鱼油(Lutine) 、甜味剂(FOS)、纤维 (Mannan-oligosaccharides or MOS)等。

一些只出现在“差品质”的产品中的材料:防止胃流感(Gastrointestinal )、烟酸(Niacin)、钾(Potassium)。

其他材料也被按照好产品和坏产品出现频率进行了比较:好产品中,葡萄糖胺和软骨素的出现频率更高。差产品的水分含量会更高。因为水分更高会挤占其他如蛋白质等营养元素的比重。这解释了为何流食没有干粮受欢迎。

(图片说明:宠物食品原料分布说明。)

所以,我的结论是:功能和营养水平是区分产品品质好坏的主要因素。健骨、明目,更多的蛋白质/纤维素,以及更好的味道是好产品的反馈中被消费者提及最多的元素。而纤维之外的消化支持,以及更高比例的水分则更频繁出现在“差品”的用户反馈中。

食物材料导致了好坏品质之分。这些发现可以帮助生产商制造更多“好品质”的产品,更好的跟上快速变化的宠物食品市场。由于时间有限,我的项目的关注点比较有限。未来的研究可以加入更多考量因素,比如价格、功效、用户评价以及其他产品信息。

注:本文编译自数据博客《How to Recommend Pet Food Product from Unsupervised Learning》。点击“阅读原文”查看。内容仅为作者观点,不代表DT数据侠立场。文中图片部分来自作者。

作者 | Summer Sun

题图 | 站酷海洛

期待更多数据侠干货分享、话题讨论、福利发放?在公众号DT数据侠(ID:DTdatahero)后台回复“数据社群”,可申请加入DT数据社群。

▍数据侠门派

Summer Sun 对数据科学充满热情,她有三年的数据行业经验,曾为大型金融机构分析海量用户数据。她喜欢挑战各类有挑战的课题。

原文发布于微信公众号 - DT数据侠(DTdatahero)

原文发表时间:2018-08-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

人工智能(AI)自然语言理解的问题

在韩国首尔举行的围棋赛的中途,世界级顶尖围棋选手李世石和谷歌人工智能阿尔法狗的较量中,人工智能阿尔法狗走出了超越人类令人不安的神秘的一步棋。

4319
来自专栏CSDN技术头条

2016年人工智能技术进展大盘点

如果说2015年大家还在质疑深度学习、人工智能,认为这是又一轮泡沫的开始,那么2016年可以说是人工智能全面影响人们生活的一年。从AlphaGo到无人驾驶,从美...

2385
来自专栏机器之心

英伟达刚刚发布全球最大GPU:GTC2018黄仁勋演讲核心内容都在这了

机器之心报道 参与:李泽南、李亚洲 昨天,第九届年度 GPU 技术大会(GTC)在加州圣何塞 McEnery 会议中心正式开幕。在刚刚结束的 Keynote 演...

3576
来自专栏杨建荣的学习笔记

技术学习的一些建议

所以我们总是在不断的学习中,这个技能的迭代速度早就远超大学的学习内容。相比来说,现在我们学习更加追求高效和通俗,即学到的技能相同,但是学习的内容能用大白...

1162
来自专栏华章科技

AI取代人类?这4种工作仍将是从业者的“铁饭碗” | 未来

导读:围棋人机大战、人脸识别、自动驾驶、智能控制、语言和图像理解……这些年,人工智能的威力,我们已经见识过太多。“人工智能”甚至入选“2017年度中国媒体十大流...

1024
来自专栏数据科学与人工智能

【数据挖掘】金融行业的数据挖掘之道

工商银行文本挖掘技术应用探索分享 工商银行在大家传统的印象当中是一个体形非常庞大但是稳步前行的形象,但是近些年来在大数据的挑战下工商银行积极应对外界变化,做一些...

2675
来自专栏机器人网

做机器人算法工程师是怎样一种体验?

我应该也算是机器人算法工程师了,我所在实验室就叫学习算法与系统实验室(LASA, Learning Algorithm and System Lab,Learn...

1.1K8
来自专栏新智元

【荐读】Michael Nielsen《神经网络和深度学习》:智能可以用简单的算法表示吗?

【新智元导读】本文选自量子物理学家、著名科普作家 Michael Nielsen《神经网络和深度学习》最后一章,探讨智能能否用简单算法来表示。Nielsen 从...

37516
来自专栏新智元

NLP 60年沉思录:Finding a Voice

【新智元导读】《经济学人》1月5日发表万字长文,回顾了机器语言技术长达60多年的发展历程,全文分为五个部分:人机对话、语音识别、机器翻译、语义理解和未来展望。文...

3494
来自专栏新智元

微软对话语音识别再获突破,首次达到人类专业水平

1 新智元推荐1 来源:微软研究院AI头条 【新智元导读】继 9月13日微软将对话语音识别错误率降至6.3%的记录后,前天再次宣布进一步将错误率降至 5.9%...

3916

扫码关注云+社区

领取腾讯云代金券