今天,尝试用Orange数据挖掘工具,对于图片进行分类,一个很可爱的工具!
看起来很开胃吧!听听名字、看看图形,想不想来一杯橙汁!
言归正传,先来看看有哪些图片素材?
图片有人物、文字、动物,眨眼一下好纷杂,有人会问,就这几张图片,自己人工分开不就得了,还整那么多事,杀鸡用牛刀呀!
当然不是,如果是上万张图片呢?要实现关联图片的自动推荐,首先要解决的问题就是区分不同的图片,实现图片的聚类。
接下来,Orange就上场了,是不是界面很友好与简洁?整个分析流被很快的建立了起来,这个界面很像SPSS MODELER,虽然有着复杂的内在逻辑,不过习惯就好,多拖动几次就熟悉了。基本的逻辑:提取特征值---距离分析---聚类
看一下对于图片的尺寸、高度、宽度等一系列客观指标的描述:
之后,对于每张图片提取了2048个特征值,为后面的聚类提供参数支持。
依照特征值的聚类情况,输出了聚类的树状图,有关树状图的解读方法,参见SPSS、SPSS Modeler的聚类分析。
依照自己的判断,可以选择不同的聚类数,鼠标滑来滑去,颜色还真挺不错,赤橙黄绿青蓝紫......
虽然颜色好看,但还是要干正事,咱们来看看到底是否真能区分不同的图片?
文字的聚类:
鸡的聚类
小兔子的聚类
看完以上整个过程,是不是感觉很简单?其实数据挖掘、机器学习虽然专业,但并非不可触及。如果要平时玩一下,还是可以的,但是要搞得很专业,那可就要下大功夫了。
下次再和大家分享利用机器学习来分析文本情绪、文本分类。
------待续
领取专属 10元无门槛券
私享最新 技术干货