【趣味】数据挖掘(7)——团拜会与鸡尾酒会上的聚类

在硕博士生的数据挖掘课程中,聚类是难点,一文难尽。此文用宴会上的见闻,用异于传统的方式,从讲课PPT上取些素材(这样比较快),来说明聚类的一些概念,为下篇做些铺垫,下篇将通过通俗的例子说明一个著名的方法。

团拜会上一道风景线

岁末年初,参加了几个团拜会。朋友们都知道我对酒特过敏,宽容地让我以茶代酒,因而能在酒席上清醒地倾听、观察和记忆,并在这里调侃敬酒的艺术。 社会是由各种纽带联络而成的人的集合,敬酒是众多纽带中的一种。老百姓敬酒传达亲情友情;伟人(如罗斯福、斯大林)的敬酒也是政治;文人敬酒吟诗作赋,企业家敬酒不忘投资。作为数据挖掘阵地上的戒酒一兵,笔者在敬酒中观察到了聚类技术的应用。

敬酒与聚类技术

善敬酒者都是聚类专家,试看下例: “赵总,你我同学多年,这一杯酒你要喝了,… “老张,你我一同扛过枪,这一杯酒你要干了 ,… “老李,你我同乡兼同学,感情深,这杯一口闷,…… 善劝酒者总是抓住自己与被敬酒者的相同点,说对方和自己聚在同一个“簇”,令对方推迟不得,用的是对称聚类技术;“簇”--cluster,有时也译为“类”。 当对方非常德高望重,不好意思把对方和自己聚成一簇,敬酒人会找几个同簇人士壮胆,说“我们几位同YYY,一起来敬..."; 有时,还分“簇”发起集团冲锋,让对方喝得尽兴;仔细思量,用的是非对称(或单侧)聚类技术。 常用敬酒词汇与短语还有:同学、同乡、同事、一同下过乡、一起扛过枪,...,等等。如果一时找不到具体的共同点,对炎黄子孙,总可用“同胞”。上述的“同学”、“同乡”等名词,相当于英文中的 Homo-Something,在数据库技术中称为属性,对应英文单词Attribute,所以,这种敬酒技巧可泛称为同A技巧。

同A技巧的推广

同A技巧还可推广。例如,假如那一天来临,科幻迷有机会到银河系中心开联合星系(联合国的推广)团拜会,来的都是广义人(外星智慧生命),见“人”都可称同系(同一个银河系);如果见到了我们这个太阳系的火星人,那简直是老乡见老乡,两眼泪汪汪(假定火星人也是两只眼睛),同在他乡为异客:“这一杯一定要干”,不干不解乡愁。

簇内相似度大,簇间相似度小

如果只往大处找共性(如同胞同星系),不足为荣,因为概念太大,而无特色。把一个大集合只聚成一类,最蹩脚的聚类家也会。 能干的聚类家于细微处见功夫,要找某些子集的特色,把大集合中的对象凝聚成若干个特色小簇,使得簇内相似度大,簇间相似度小,那才是万紫千红、信息量丰富的春天。

同A聚类 -- 投影到属性A上的小小区间

顾名思义,同A即在属性A上的值相同或相近;前者投影到属性A上一个点,是严格的同A聚类,后者投影到不太大的区间 [a-ε, a+ε],是宽松的同A聚类。 巧得很,中华文明早为聚类作了准备。中文中有很多形如“同某”的词汇,如同学,同乡,同志,同事,同袍,还有数学上的同态,同构,拓扑学中的同坯,等等。 图1中,横轴是籍贯,纵轴是班级。图中的点代表学生。在横轴投影相近的那些点称为同乡,在纵轴上投影相近的那些称为同学,红圈中的点在双轴上投影都较近,所以是“同学+同乡”。多维的情形稍微复杂,但是思路是同样的。

鸡尾酒会上人以群分

国际学术会议常有鸡尾酒会方式的招待会(reception),人们端着酒杯,不断流动,笑声中交流学术,干杯时结识朋友。 聚类之主动 vs 分类之被动鸡尾酒会上,常看到一群学子围住一个学术带头人;也常看到几位研究者坐在角落,一边品酒,一边在草稿上写写画画,讨论问题;偶尔也有不善交际的离群点(outlier),远离人群,在边沿灯下,“独酌无相亲,...对影成三人”。这里,影响聚群的不是万有引力或电磁力,也不是强、弱相互作用,而是学术思想的凝聚力,是人格魅力。 鸡尾酒会上没有人指挥谁谁应该到哪里。所遵循的是“物以类聚,人以群分”,聚类对象是主动的。 而在在分类中,对象是被动的,网络上时髦的“被”句型,是分类技术在社会生活中的体现,如菜园子张青“被”分类到地煞,豹子头林冲“被”分类到天罡。某人“被捐款”,某人“被集资”,等等。主动与被动之差别,是聚类和分类的最大区别。分类有训练集和测试集,它代表了人们主观意志对分类过程的监督,在机器学习中,分类又称为有监督的机器学习,而聚类称为无监督的学习。

坐标变换与聚类

观察图2,左图是图1内容旋转45o的结果。在XOY坐标系中,不容易简单表达聚类准则。旋转45o后,在新坐标系X’OY’中,能直接看出同乡即同X'同学同Y’。

图2 (1)坐标旋转 (2)极坐标 令θ=-45o,它顺时针旋转,就转回XOY平面,中学数学中有坐标变换公式: x'=xcos(-45 o)-ysin(-45o), y'=xsin(-45 o)+ycos(-45o); 下面讲核函数概念还要用到它,现在暂且按下不表。

坐标变换与核函数

聚类可以表现为在簇周围画一条紧边界。考察图2右边的紫色扇面簇,在直角坐标系中的描述稍复杂一些,但在极坐标中却很简单。坐标变换公式是: f(x,y)=r=x2+y2 , g(x, y)=θ=ArcSin(y/(x2+y2)(1/2)) 坐标变换后,扇面变成<r, θ>平面上的矩形,例如,{ { (r, θ)|1≤r≤2 , 45 o ≤θ<90 o }是一个扇面。在XOY平面,扇面边界是非线性的,在<r, θ>平面上,边界却是直线段! 又例如, { (r, θ)|0≤r≤1 , 0≤θ< 360 o } 描述了图2(2)中的那个白色的园核。 于是,我们有理由称 f(x,y),g(x, y)为核函数或类核函数,可以这样来理解名称中的“核”字: (1)如果把图2右边看成是染色的青核桃, f(x,y) ≤1所描述的正好是中间哪个白色的核。 (2)图2左边的坐标变换中类核函数是f(x,y)=x’=xcos(-45 o)-ysin(-45 o) , g(x,y)= y’=xsin(-45o)+ycos(-45 o) 。设a,b为常数, X’=a, 是一条直线,也是一个同乡簇的中心线; Y’=b, 是一条直线, 是一个同学簇的中心线;点(X', Y')=(a,b) 是一个点,是同乡兼同学簇的中心点;中心线与中心点都与“核”概念相关,这也提示了选择和设计核函数的思路,设法引入曲线坐标系,综合考虑坐标曲线簇与对象簇中心线、以及簇的边界的联系,设法联系原点与重要簇的中心,则核函数选择就有线索了。 核函数(Kernal function) 是个较难懂的概念,在分类的支持向量机SVM技术中也要用到。这里斗胆对核函数做了一个直观解释,有点反传统,未提及在对应的高维空间中的线性可分性,仅供辅助理解,科普不能代替严格的数学定义和证明,如有不妥,请专家指正。

多样化的距离,海内存知己,天涯若比邻

设描述人的维度有(x,y,z,t,籍贯,感情,信仰,…..)。设人与人的距离为d, (1)把d定义为在籍贯维上投影的差别,得到的簇是同乡; (2)把d定义为在信仰维上投影的差别,得到的簇是同志。 (3)把d定义为在感情维上投影的差别,得到的簇是朋友。 如果两个人在信仰和感情上的投影一致,哪怕x,y,z,t有巨大的时空差别,也心心相印,这就是“海内存知己,天涯若比邻”的数学描述或解释,天涯和比邻描述的是在不同维度上的距离。 正邪两方都会用科学规律,二战时,德日意三国的欧式空间距离不小,却聚成了一个反人类集团,是在政治和利益两个维度上的投影相近。

Minkovski-距离 p维空间中两点的Minkovski -距离

当q=1,结果为各维度上差别之和 ,又称为曼哈顿距离.说的是,城市曼哈顿以方格子路为特色,(似乎济南老城区经纬路那一块也类似),从(x1,y1)到 (x2, y2),有若干条最短路径,虽然转弯的次数不同,但长度都是|x1-x2|+|y1-y2}。

当q=2;是最普通的欧式空间距离。实践中,有时为夸大距离,采用q=3;有时为了缩小差别,可用q=3/2,等等。 但是,一旦人们在聚类之初选择了距离类型,或多或少地加入了主观干预,极大地干预了最后结果,例如,如上面所述,选择不同的距离定义,似乎开始的差别不大,但可导致结果分别是同乡和同志,这两个概念差之千里,同乡不一定是同志,蒋介石的奉化同乡中也有坚定的共产党员。 笔者以为,如果距离的类型也是挖掘出来的,而不是主观指定的,那才真的是“无监督”,或者,从分布熵的角度,避开距离来解决聚类,这方面也许还有许多工作,可供处于选题饥饿的博士生做。

为深入研究准备的准备

聚类是数据挖掘中难度较大的内容,本文只是为哪个准备而做的准备的准备,从远处看看轮廓,讲讲思想, 尝尝味道,有了这些铺垫,下篇将通过通俗的例子说明一个著名的方法。

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2014-07-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

循环神经网络的增强方法:注意力机制以及更多

AI 科技评论按:一提起 RNN,我们最容易想到的实现就是 LSTM + attention。LSTM 作为经典的网络结构可谓是老当益壮,而另一方面注意力机制过...

551
来自专栏一个会写诗的程序员的博客

计算机中的数学【集合论】现代数学的共同基础

现代数学有数不清的分支,但是,它们都有一个共同的基础——集合论——因为 它,数学这个庞大的家族有个共同的语言。集合论中有一些最基本的概念:集合(set),关系(...

673
来自专栏人工智能头条

通俗理解信息熵

1503
来自专栏华章科技

再说深度学习是黑匣子,就把这篇文章糊 Ta 脸上

导语:可视化不只是画画那么简单,它或许是我们理解神经网络的世界的方法。PS:标题是作者说的,不是我说的,要打,就打他(逃

853
来自专栏AI科技大本营的专栏

800万中文词,腾讯AI Lab开源大规模NLP数据集

10 月19 日,腾讯 AI Lab 宣布开源大规模、高质量的中文词向量数据。该数据包含 800 多万中文词汇。

863
来自专栏数说工作室

训练集是题库,测试集就是高考!| 不能更简单通俗的机器学习名词解释

1. train? valid? or test? 机器学习最明显的一个特点是需要大量的数据。特别对监督学习来说,就是需要大量的带标签数据(labeled da...

4118
来自专栏量子位

与神经网络相比,你对P图一无所知

从一张照片里取出某个元素,再把它神不知鬼不觉地混入另一张图片里,似乎是一件很有难度的事情。毕竟,分分钟就会产生魔性的拼贴效果,不管是手动操作,还是AI的计算。

752
来自专栏应兆康的专栏

谷歌论文抢鲜看:教机器画画

在谷歌最近的论文“A Neural Representation of Sketch Drawings”中,提出了一种能够产生普通物体草图的生成式复现神经网络,...

3343
来自专栏量子位

Facebook的新AI「Rosetta」会识别表情包,还会删帖丨论文

不过,表情包上的那些网络金句都是.jpg或者.gif的图片格式,无法被搜索、无法被计算机监测,字太小不清晰的时候还会让视力不好的同学看不清楚。

692
来自专栏AI2ML人工智能to机器学习

哈密尔顿,不变的爱

前面我们提到两大变( “变分の美” 和 “Legendre变变变” ), 那么一直在变的话,什么时候不再变呢? 这就是我们今天想概述的。 所谓物极必反, 又所...

651

扫码关注云+社区