本文分析的技术数据来源知乎,三大问题搜索:“单身理由”,“单身的好处”,“为什么越来越多的人选择单身”。
数据概览
数据收集对象:主题,回答/文章内容,赞同人数, 关键词, 关键词数量。回答/文章总数:535个,赞同人数:295044人, 关键词数量:1115个。
亮眼的高赞回答
“还没找到自己,如何去找另一半” 赞同人数:14706人
“高颜值,160的身高,有胸有腰,爹妈公高(公务员高干);他要求男朋友:必须是博士, 有钱有颜。” 赞同人数:30669人
“写过《瓦尔登湖》的梭罗曾把单身生活称做:你最好珍惜的时光。” 赞同人数:11364人
“开始耐心的权衡婚姻是否可以提高生活质量,毕竟婚姻是人生的一种选择,但并不是通往幸福的唯一道路。” 赞同人数:15451人
“要在中国单身一辈子,最重要的是有强大的人体自己和接受自己的决心与能力。” 赞同人数:7574人
关键词词云
关键词高频词云
R对单身原因进行主成分分析
数据转换
从上文环境中,可知我们有535篇文章,每个文章都有赞同数(用于加权),每个文章的关键词反映出对单身原因的看法,1篇文章对应多个关键词,是不是说明1篇文章反馈出多种单身的原因呢?基于词云我们可以将单身的原因进行聚类分析。量化每一篇文在聚类原因中的权重值,这也我们是不是将数据转化为 535 行,n类(聚类个数)的单身原因权重表呢?
关键词归为7大类:
社会环境(x1):社会,中国,乡镇,教育....
家庭因素(x2):家庭,父母,子女,兄弟....
生活态度(x3):旅行,电影,读书....
时间观念(x4):青春,年轻,大龄,时间....
爱情婚姻观(x5):爱情,婚姻,幸福,颜值....
工作压力(x6):加班,单位,考勤,绩效....
经济基础(x7):事业,房子,车子,工资....
[对应词频*赞同率多个关键词的和 = 因素重要程度值]生产数据表:选取赞同数>=100 的114篇文章,生产114行7列的二位数据表
#部分数据样本
> read.table(pipe("pbpaste"),sep='\t',header=T)->data
> data (7大因素的二维数据如下)
x1 x2 x3 x4 x5 x6 x7
1 793 517 211 728 900 1434 381
2 526 225 428 728 728 1219 581
.......
什么是主成分分析?
主成分的概念由Karl Pearson在1901年提出,考察多个变量间相关性一种多元统计方法。研究如何通过少数几个主成分(principal component)来解释多个变量间的内部结构。即从原始变量中导出少数几个主分量,使它们尽可能多地保留原始变量的信息,且彼此间互不相关。主成分分析的目的:数据的压缩,数据的解释常被用来寻找判断事物或现象的综合指标,并对综合指标所包含的信息进行适当的解释
主成分分析步骤
对原来的p个指标进行标准化,以消除变量在水平和量纲上的影响;根据标准化后的数据矩阵求出相关系数矩阵;求出协方差矩阵的特征根和特征向量;确定主成分,并对各主成分所包含的信息给予适当的解释
R具体操作
1,载入数据到R控制台:
> read.table(pipe("pbpaste"),sep='\t',header=T)->data;data
x1 x2 x3 x4 x5 x6 x7
1 793 517 211 728 900 1434 381
2 526 225 428 728 728 1219 581
....
2,求出样本相关系数矩阵:
> R<-round(cor(data),3);R
> PCA=princomp(data,cor=T);PCA
Call:princomp(x = data, cor = T)
Standard deviations:
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7
1.42659724 1.04377423 1.03044704 0.99731643 0.96457786 0.94186945 0.03695955
7 variables and 114 observations.
从输出的结果可以看出,主成分的标准差,即相关矩阵的七个特征值的开方;
前五项:0.290+0.155+0.151+0.142+0.126=0.864大于80%,构成主成分,可以作为解释单身的主要因素;
说明7大因素中:社会环境,家庭因素,生活态度,时间观念,爱情婚姻观 构成了单身原因的主要成分;而工作压力,经济基础这两张成分却居于次要位置。人是社会的动物,社会环境左右着我们的主观意识,在潜移默化中影响我们人生的重大决策。
如下:通过主成分碎石图,可以直观的看7个因素的影响成分大小:
#预估成分影响
> round(predict(PCA),3)
#画碎石图
> screeplot(PCA, type='lines')
主成分碎石图
> PCA$scores #可计算主成分得分
> load<-loadings(PCA)
> plot(load[,1:2],xlim=c(-0.6,0.6),ylim=c(-0.6,0.6))
> text(load[,1],load[,2],adj=c(0.5,-0.5))
> abline(h=0);abline(v=0);
两个主成分的载荷图
进过R的主成分的分析计算:
单身不是穷困无奈的必然选择,是社会发展潮流带来的一种新的生活方式,单身的渴望自由潇洒的生活,更多的幸福感来自于自己。
要自律。当你时刻不要让生活约束自己的时候,你还要时刻自己约束着自己,丰富自己阅历、知识,能够承受着起岁月的磨炼。
人生有一种成功就是按照自己喜欢的方式活着。