前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >身不由己:单身,是我的错吗?

身不由己:单身,是我的错吗?

作者头像
herain
发布2022-04-27 14:16:01
2900
发布2022-04-27 14:16:01
举报
文章被收录于专栏:数据指象

本文分析的技术数据来源知乎,三大问题搜索:“单身理由”,“单身的好处”,“为什么越来越多的人选择单身”。

数据概览

数据收集对象:主题,回答/文章内容,赞同人数, 关键词, 关键词数量。回答/文章总数:535个,赞同人数:295044人, 关键词数量:1115个。

亮眼的高赞回答

“还没找到自己,如何去找另一半” 赞同人数:14706

“高颜值,160的身高,有胸有腰,爹妈公高(公务员高干);他要求男朋友:必须是博士, 有钱有颜。” 赞同人数:30669

“写过《瓦尔登湖》的梭罗曾把单身生活称做:你最好珍惜的时光。” 赞同人数:11364

“开始耐心的权衡婚姻是否可以提高生活质量,毕竟婚姻是人生的一种选择,但并不是通往幸福的唯一道路。” 赞同人数:15451

“要在中国单身一辈子,最重要的是有强大的人体自己和接受自己的决心与能力。” 赞同人数:7574

关键词词云

关键词高频词云

R对单身原因进行主成分分析

数据转换

从上文环境中,可知我们有535篇文章,每个文章都有赞同数(用于加权),每个文章的关键词反映出对单身原因的看法,1篇文章对应多个关键词,是不是说明1篇文章反馈出多种单身的原因呢?基于词云我们可以将单身的原因进行聚类分析。量化每一篇文在聚类原因中的权重值,这也我们是不是将数据转化为 535 行,n类(聚类个数)的单身原因权重表呢?

关键词归为7大类:

代码语言:javascript
复制
社会环境(x1):社会,中国,乡镇,教育.... 
家庭因素(x2):家庭,父母,子女,兄弟....
生活态度(x3):旅行,电影,读书....
时间观念(x4):青春,年轻,大龄,时间....
爱情婚姻观(x5):爱情,婚姻,幸福,颜值....
工作压力(x6):加班,单位,考勤,绩效....
经济基础(x7):事业,房子,车子,工资....

[对应词频*赞同率多个关键词的和 = 因素重要程度值]生产数据表:选取赞同数>=100 的114篇文章,生产114行7列的二位数据表

代码语言:javascript
复制
#部分数据样本
> read.table(pipe("pbpaste"),sep='\t',header=T)->data
> data (7大因素的二维数据如下)
      x1  x2   x3  x4  x5   x6   x7
1    793 517  211 728 900 1434  381
2    526 225  428 728 728 1219  581
.......

什么是主成分分析?

主成分的概念由Karl Pearson在1901年提出,考察多个变量间相关性一种多元统计方法。研究如何通过少数几个主成分(principal component)来解释多个变量间的内部结构。即从原始变量中导出少数几个主分量,使它们尽可能多地保留原始变量的信息,且彼此间互不相关。主成分分析的目的:数据的压缩,数据的解释常被用来寻找判断事物或现象的综合指标,并对综合指标所包含的信息进行适当的解释

主成分分析步骤

对原来的p个指标进行标准化,以消除变量在水平和量纲上的影响;根据标准化后的数据矩阵求出相关系数矩阵;求出协方差矩阵的特征根和特征向量;确定主成分,并对各主成分所包含的信息给予适当的解释

R具体操作

1,载入数据到R控制台:

代码语言:javascript
复制
> read.table(pipe("pbpaste"),sep='\t',header=T)->data;data
      x1  x2   x3  x4  x5   x6   x7
1    793 517  211 728 900 1434  381
2    526 225  428 728 728 1219  581
....

2,求出样本相关系数矩阵:

代码语言:javascript
复制
> R<-round(cor(data),3);R
> PCA=princomp(data,cor=T);PCA
Call:princomp(x = data, cor = T)
Standard deviations:
Comp.1     Comp.2     Comp.3     Comp.4     Comp.5     Comp.6     Comp.7 
1.42659724 1.04377423 1.03044704 0.99731643 0.96457786 0.94186945 0.03695955 
 7 variables and  114 observations.

从输出的结果可以看出,主成分的标准差,即相关矩阵的七个特征值的开方;

前五项:0.290+0.155+0.151+0.142+0.126=0.864大于80%,构成主成分,可以作为解释单身的主要因素

说明7大因素中:社会环境,家庭因素,生活态度,时间观念,爱情婚姻观 构成了单身原因的主要成分;而工作压力,经济基础这两张成分却居于次要位置。人是社会的动物,社会环境左右着我们的主观意识,在潜移默化中影响我们人生的重大决策。

如下:通过主成分碎石图,可以直观的看7个因素的影响成分大小:

代码语言:javascript
复制
#预估成分影响
> round(predict(PCA),3)
#画碎石图
> screeplot(PCA, type='lines')

主成分碎石图

代码语言:javascript
复制
> PCA$scores #可计算主成分得分
> load<-loadings(PCA)
> plot(load[,1:2],xlim=c(-0.6,0.6),ylim=c(-0.6,0.6))
> text(load[,1],load[,2],adj=c(0.5,-0.5))
> abline(h=0);abline(v=0);

两个主成分的载荷图

进过R的主成分的分析计算:

单身不是穷困无奈的必然选择,是社会发展潮流带来的一种新的生活方式,单身的渴望自由潇洒的生活,更多的幸福感来自于自己。

要自律。当你时刻不要让生活约束自己的时候,你还要时刻自己约束着自己,丰富自己阅历、知识,能够承受着起岁月的磨炼。

人生有一种成功就是按照自己喜欢的方式活着。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-01-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据指象 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档