如何用数据找到“钱多事少离家近”的工作?

“钱多事少离家近,位高权重责任轻,睡觉睡到自然醒,数钱数到手抽筋”, 这样的工作真的存在吗?快随本文数据侠,一起搜罗吧~

本文转自公众号城市数据团(ID:metrodatateam)

前几天学姐来找我:“我想换一个工作。你用数据帮我看看什么行业好?”

我说:“好呀。学姐你对工作有什么要求呢?”

学姐说:“钱多事少离家近。”

虽然我不相信有这样好的工作,但看看总没有坏处嘛。于是我打开电脑,开始对行业一项一项进行筛选。

第一项,钱多。这个容易。根据《上海统计年鉴2017》,各行业平均年收入如下图所示:

根据上图,可将20个行业大项分为四类:

1、收入超高(20万以上):金融业; 2、收入较高(10-20万):水电气生产供应业、采矿业、信息服务业、卫生和社会工作产业、公共管理业、科研服务业; 3、收入中等(5-10万):交运仓储业、文化体育娱乐业、商务服务业、批发零售业、公共设施管理业、房地产业、制造业; 4、收入较低(5万以下):建筑业、住宿餐饮业、农林牧渔业、教育业。

显然,在“钱多”的标准下,金融、水电气生产供应、采矿、信息服务等都是不错的选择。

第二项,事少。数据论证有点麻烦,姑且跳过吧。

第三项,离家近。由于学姐不肯透露她住在哪里,我只好假设学姐住在上海各地的概率与上海人口总体分布概率相同。然后,我以人口密度最高处(市中心)为原点,绘制出各个行业企业的密度衰减曲线。

上图中,离市中心距离为0处的企业密度越高,说明该行业在市中心的密集度越高。假如学姐从事了该行业的工作,那么工作地点离学姐家近的概率也越高。(学姐明确表示:一些行业她没有进入渠道(如水电气生产和供应),另一些行业她没有能力从事(如农业、卫生),因此,图中只保留了像学姐这样的大多数普通人有一定选择空间的10个行业大类;其中,信息服务业和科研服务业进行了合并。)

根据上图,从行业密集(离家近概率)的角度,我们再次将行业分为四类:

1、行业聚集度极高(离家近概率很大):金融业、住宿餐饮业; 2、行业聚集度较高(离家近概率较大):商务服务业、房地产业、文化体育娱乐业; 3、行业聚集度一般(离家近概率一般):批发零售业、信息服务业、交运仓储业; 4、行业聚集度较低(离家近概率较低):制造业、建筑业。

我指着图说:“学姐,同时符合钱多和离家两个要求的只有金融了。次优的选择是信息科技服务业,钱多,但离市中心不算近;商务服务、文化娱乐的距离比较适中,但收入就不算太高了。”

学姐皱眉思考了片刻:“金融虽然很好,但据说加班很厉害。我可不想把美好的青春年华都奉献给工作。你再帮我看看哪些行业不加班吧。”

我叹了口气,看来“事少”的研究是逃不掉了。

怎么衡量“事少”呢?从常识来看,事少的行业应该符合以下表现中的至少一个:上班晚、下班早、工作时间短。而为了找到大家都在什么时候上下班,我不得不搬出了前几天 延华智能 提供的建筑用电量数据。

(图片说明:这是一张“城市呼吸”图。图中白金色线条代表道路和来往人流,柱子代表建筑,红色柱子为我们的样本建筑。用电量越大的时刻,红色越深。每一天随着时间的变化,人来人往,灯亮灯灭。)

我们的建筑样本全部位于上海市黄浦区。用电数据为2017年全年、每隔15分钟记录一次的用电量。其中,我们用于研究的是办公建筑(写字楼),样本数量约100个。(由于样本数量、抽样规则和推算方法的不完善,我们的结论与实际情况将存在一定偏差。不过,依然不失为一次有趣的尝试。)

从时间上看,写字楼用电具有明显的周期性规律:

可以看到,写字楼的三个周期规律为:

1、季节周期:用电量与气温高度相关。4-6月和9-11月的用电量相对稳定,在最热的7-8月和最冷的12-1月,用电量有显著增加。

2、节假日周期:以年为周期,春节、国庆等法定节日用电量减少;以星期为周期,周末用电量为工作日的1/2-2/3。

3、天周期:每天的零点到6点用电量处于低谷,从7点开始用电量飙升,于10点达到最高峰,其后缓慢下降,下午5点开始剧烈下降。

根据上述规律,我们制定如下研究思路:

1、基于写字楼用电量设计工作状态指标;

2、通过地址匹配找到入驻各幢写字楼的企业,并进一步计算行业结构;

3、用回归模型对各行业的工作状态进行模拟。

由于时间序列上的用电量绝对值不仅仅由工作用电决定,还受到基础用电、气温等多重因素的影响(本文最后的彩蛋有更为具体的解释),为了减少这些干扰,我们将用电量处理为相对值,并由此引申出上班时间、下班时间、工作时长的概念:

上图中:

1、相对用电量 = (当前时间分段用电量-当日分段用电量最小值) / (当日分段用电量最大值-当日分段用电量最小值)

2、上班时间为相对用电量第一次达到最高峰值70%的时刻,下班时间为相对用电量最后一次达到最高峰值70%的时刻,工作时长为下班时间与上班时间之差。

3、每幢写字楼的上下班时间和工作时长各不相同。总体水平为8:30上班,6:00下班,工作时长9.5小时(含午休)。

接下来,我们要找到每幢写字楼里都有哪些企业。我们以 启信宝 提供的企业经营地址,与写字楼地址进行了匹配,从而获得了写字楼中企业的规模和行业信息。

现在,我们可以展开回归分析了。以行业结构(某行业占该写字楼中所有企业的比例)为自变量,以工作时长、上班时间、下班时间为因变量,标准化处理后进行三次回归分析,模型的平均误差在5%左右,R2介于0.7-0.8。

根据回归系数的大小,我们对各行业的工作状况进行了推算:

(图片说明:回归系数反映的是各行业对 工作时长/上下班时间 的贡献大小和方向。本图是根据系数大小的推算结果,不能等同于 工作时长/上下班时间 的排名。)

根据上图,从“事少”的角度,我们再次将行业分类:

1、早起早归型:批发零售业、信息技术服务业、交运仓储业 2、晚起晚归型:建筑业 3、起早贪黑型:商务服务业、住宿餐饮业、房地产业 4、正常型:金融业、制造业、文化体育娱乐业

至此,我们可以从“钱多事少离家近”三个角度给出十大行业的综合排名了:

1、金融:收入超高-离家近概率很大-工作状态普通; 2、信息科技服务业:收入较高-离家近概率一般-早起早归; 3、文化体育娱乐业:收入中等-离家近概率较大-工作状态普通; 4、商务服务业:收入中等-离家近概率较大-起早贪黑; 5、房地产业:收入中等-离家近概率较大-起早贪黑; 6、交运仓储业:收入中等-离家近概率一般-早起早归; 7、批发零售业:收入中等-离家近概率一般-早起早归; 8、制造业:收入中等-离家近概率较低-工作状态普通 9、住宿餐饮业:收入较低-离家近概率很大-起早贪黑。 10、建筑业:收入较低-离家近概率较低-晚起晚归。

看着这个榜单,我恍然大悟:“居然真的有钱多事少离家近的工作呀!……唉,学姐你去哪?”

“买两本CFA教程。”

▍彩蛋:一年之中,何时加班最疯狂?

学姐走后,我觉得这个小研究做得还不过瘾。不妨顺便用这组数据再看一看,大家都在什么时候加班多,什么时候休假多?

个人的加班或休假行为很难在用电数据层面体现。但群体的加班或休假将使得用电发生相应变化:

1、大量员工休假→在岗员工数量减少→工作用电量减少

2、大量员工加班→夜间用电比例增加→工作用电量增加

由此可以推知,工作用电量是衡量员工工作状态的重要指标。然而,工作用电只是建筑用电的一部分。因此,需要从建筑用电量中剥离出工作用电量,再判断其数值是否处于合理区间。

一般来说,办公建筑用电可以粗略分为三个部分:基础用电、空调用电和工作用电。

  • 基础用电。办公楼正常运转的基础消耗,如通风用电、电梯用电、走廊灯光用电等。
  • 假设每日基础耗电量是一个常数,以β表示。
  • 空调暖气用电。温度偏离适宜温度越远,空调需求量越大。
  • 空调暖气用电量与气温(t)有显著相关性,空调积温指数(T)是一种常见的测算方法,T=max(thigh-27,0)+max(10-tavg,0)。该部分用电量与空调积温指数呈线性相关,假设其形式为α1T。(参考文献:chenqin《上海用电量一年降了30多亿度,其实原因很简单》。)
  • 理想状态下的工作用电。假设一年中员工数量没有大规模变动,则工作日的正常工作时间内(8-18点)、正常工作强度下为一个常数,表示为α2。
  • 设定一个虚拟变量W,工作日W=1,节假日W=0,则每日的常规工作耗电量为α2W。

由此可以构建回归方程:e = β + α1T + α2W + ε

上式中,e表示每日总用电量,β表示基础用电,α1T表示空调用电,α2W表示理想状态下的工作用电;ε表示回归模型的残差,也就是预测用电量与实际用电量的差值,(α2W+ ε)近似代表实际的工作用电量。

若实际用电量小于预测用电量(ε<0),很可能意味着在岗员工数量较少、大量员工处于休假状态;若实际用电量大于预测用电量(ε>0),则有着员工数量增加、工作时间延长、工作强度增大等多种可能,需要进一步验证。

接下来,我们采用线性回归,求出β、 α1、α2三个参数的值(模型的平均误差为9.5%,R2为84.4%)。将参数值代入到方程中,将可以分别模拟得到每日的各项用电量及总用电量,并从而得到预测用电量与实际用电量的残差ε。如下图所示:

上图中,黑色实线表示实际用电总量,深蓝色区域表示预测基础用电量、天蓝色区域表示预测空调用电量,浅蓝色区域表示理想工作用电量,绿色区域表示超额工作用电量(实际值高于预测值,ε>0),橙色区域表示不足工作用电量(实际值低于预测值,ε<0)。

图中橙色和绿色区域为选择性展示,实质为A与B的交集。A:实际用电量与预测用电量的差值大于平均误差水平的日期。B:使用随机森林模型进行每天每小时用电量预测,其中全天用电量偏低(橙)/或夜间用电量比例偏高(绿)的日期;该部分方法本文中不再展开。

由图可知,用电超额的时段(绿色),也就是大家最可能在疯狂加班的时段,可以分为两类:

1、第一类零星分布在3月、5月、6月、9月的许多周末。

2.、第二类集中分布在6月中下旬、8月到9月中旬。

而用电不足的时段(橙色),则可以分为三类:

1、第一类为春节前两周、春节后一周,此类用电不足主要是因为员工数量不足;这反映出春节前提前休假、春节后推后上班,是较为普遍的做法。

2、第二类用电不足时段分布在清明节-劳动节、以及国庆节后;这两个时段是一年中不需要开空调、气候最为适宜的时节,也是旅游度假的最好时机。

3、第三类则零散分布在某些工作日的周四、周五,原因嘛,大家都懂的……

本文的行业榜单和加班/休假时间分布,与你的认知是否相符呢?欢迎给本文留言交流。

注: 本文仅为作者观点,不代表DT财经立场。

作者 | 若木、团支书

题图 | 视觉中国

▍数据侠门派

本文数据侠来自城市数据团,他们关注生活在城市中的个人,致力于用市民的生活轨迹,数字化地描绘城市生活、揭示城市问题。

原文发布于微信公众号 - DT数据侠(DTdatahero)

原文发表时间:2018-05-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据挖掘DT机器学习

用R语言对上海市链家二手房数据分析

via : https://mp.weixin.qq.com/s/DS4fFs0-rLD0UPkdTwQ5k 如果你手上有一批数据,你可能应用统计学、挖掘算...

58280
来自专栏深度学习与数据挖掘实战

头条|全球OCR文字识别测试最新结果公布:中国AI企业霸屏

今天,国际文档分析与识别大会(ICDAR)数据集最新结果公布,中国高校及企业包揽排行榜前五。据了解,云从科技提出的Pixel-Anchor框架在多个ICDAR测...

38720
来自专栏龙行天下CSIEM

科学瞎想系列之十八 能源危机的化解

上回说到,能源危机其实不是能量没了,只是越来越不好用了,那么如何才能化解这个危机呢?推广可再生能源是一个不错的点子。 有人会问了,你不是说能量...

29970
来自专栏思影科技

脑电研究:睡眠中的婴儿大脑预测发育情况

传统观点认为九个月大之后的婴儿才能建立真正词汇的语义长程记忆,之前都处在呀呀学语的原词状态。来自德国柏林洪堡大学的学者Manuela Friedrich等人探索...

27440
来自专栏思影科技

AD与MCI患者白质纤维束的减少(基于FBA分析)

来自澳洲Florey 神经科学与心理健康研究所的Remika Mito在Brain杂志上发文,基于全新的FBA(fixel-based analysis...

37760
来自专栏新智元

长尾有多长:人工智能先驱与分形之父的幂律之争

【新智元导读】因为在人工智能等方面的突破性研究荣获图灵奖的赫伯特·亚历山大·西蒙(Herbert Alexander Simon)曾就幂律及其产生机制的问题与被...

35860
来自专栏DT数据侠

张翰娜扎为何分手?这个“科学配对实验”已洞穿一切

连张翰娜扎这种外形登对的高颜值组合都宣告分手,圣诞节独守空房的你有什么资格老泪纵横。在这个什么都讲究精准配对的时代,遇不到真爱可能真的是概率问题。

8600
来自专栏SIGAI学习与实践平台

永远的金大侠-人工智能的江湖

金庸先生已离我们远去,笔者当天在朋友圈看到这一消息时心情非常沉痛。作为在小学时就开始读金庸小说的80后,先生给我们的,不仅仅是一个个鲜活的人物,跌宕起伏的故事情...

9210
来自专栏新智元

CVPR2019提交论文爆炸增长!有效论文数达5165,在线编辑器一度崩溃

今天,CVPR2019程序主席微软华刚在朋友圈透露,他和另外三位程序主席一起清点完CVPR2019的送审论文,发现:

12120
来自专栏大数据挖掘DT机器学习

中国快递包裹总量的预测-基于SARIMA模型

国家邮政局发布的数据显示,2015年4月底,快递业务量完成15亿件,同比增长50.9%。目前,快递业务量增速已连续50个月超过50%,尤其是网购旺季(双十一、双...

35040

扫码关注云+社区

领取腾讯云代金券