超市預知高中生顧客懷孕惹風波,原來是“關聯分析”惹的禍!

尿布和啤酒擺在一起銷售

某零售業巨頭在對消費者購物行為進行分析時發現,男性顧客在購買嬰兒尿片時,常常會順便搭配幾瓶啤酒來犒勞自己,於是嘗試推出了將啤酒和尿布擺在一起的促銷手段。沒想到這個舉措居然使尿布和啤酒的銷量都大幅增加了。如今,被人廣為傳播的“啤酒+尿布”的分析成果,早已成了大數據技術應用的經典案例。

超市預知高中生顧客懷孕

Minnesota一家Target被客戶投訴,一位中年男子指控Target將嬰兒產品優惠券寄給他的女兒(高中生)。但沒多久他卻來電道歉,因為女兒經他逼問後坦承自己真的懷孕了。Target就是靠著分析用戶所有的購物數據,然後通過相關關係分析得出事情的真實狀況。

It's still a nice example,of cource. As they say,never let truth get in the way of a good story.

雖然,故事的真偽無從考證,我們也看不到把尿布和啤酒放在一起賣的商家,但是我們可以看見一些商家將大家經常一起購買的東西放在一起打折優惠,鼓勵大家購買。比如現在京東、亞馬遜就這麼幹的。

關聯分析是什麼?

尋找經常出現在一塊的物品的集合(頻繁項集,frequent item set),暗示兩種物品之間可能存在很強的關係(關聯規則,association rules)。反映事物之間的相互依存性關聯性,最初提出的動機是針對購物籃分析(Market Basket Analysis)問題。

從大規模數據集中尋找物品間的隱含關係被稱為關聯分析(association analysis)或者關聯規則學習(association rule learning)。

關聯規則

01

支持度(Support)

即交易集合中同時包含物品集A和B的交易數與所有交易數之比。

02

置信度(Confidence)

即交易集合中同時包含物品A和B的交易數與包含物品集A交易數之比。

03

提升度(Lift)

即使用規則後商品在購物車中出現的次數是否高於商品單獨出現在購物車中的概率。

Apriori算法

一般來說,只有支持度置信度均較高的關聯規則才是有效的。Apriori算法就是一種經典的生成布爾型關聯規則的頻繁項集挖掘算法,由Rakesh Agrawal和Ramakrishnan Srikant兩位博士在1994年提出。其核心基於:如果某個項集是頻繁的,那麼它的所有子集也是頻繁的;反過來,如果一個項集是非頻繁的,那麼它的所有超集合也是非頻繁的

本期Apriori算法進行關聯分析涉及到的基本概念已經介紹完了,下期我們將從具體示例出發,對Apriori算法的應用作進一步深入探討

DiVoMiner網絡大數據挖掘平台具有靈活開放的操作系統,對研究人員來說,可充分利用平台數據或自有數據擴充數據庫,建立專屬數據庫。可充分發揮研究設計、類目建構、內容編碼及數據分析的能力,同時,所有數據及結果均可追踪查證,達到科學透明的學術要求!

點擊“閱讀原文”了解更多DiVoMiner網絡大數據挖掘平台詳情。

更多乾貨

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180105G0Q0V100?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券