论IT业,深圳可能要比上海领先不止两年呢

作为“一夜崛起之城”,深圳城市的发展速度众所周知。其实,“深圳速度”不仅体现在盖高楼,更体现在工作岗位的升级变迁上。在7月27日的深圳城市大数据活跃报告发布会现场,来自e成招聘的首席科学家陈鸿博士,用海量人才大数据展示了另一种“深圳速度”。

看职业:仓储管理员少了,软件开发者们多了

在北上广深四个一线城市中,深圳无疑是最年轻的。自从1979年有一位老人在南海边画了一个圈后,不知不觉,深圳也走过了37年的发展历程了。从最初的小渔村到如今的超级大都市,深圳的城市变迁轨迹从某种程度上来说,其实也是人口活动的变迁轨迹。

在上周深圳的数据侠实验室活动中,e成招聘的首席科学家陈鸿博士结合e成的就业大数据,从人的维度结合地理位置信息,更细致地描绘了深圳这几年的发展变化。

e成是一家专注于人力资源行业的大数据公司。全网积累了1.3亿份简历数据,其中已经识别到1248个城市的8300万份简历(1248个城市包括发达地区的部分地级市及县级市和不发达地区的部分地级市)。

这些简历提供了很多有价值的实体数据,例如公司、所在行业、年龄、技能等,其中公司是有地理位置信息的,这就把“人”和“地点”联系在了一起。陈鸿在分享中说:“有地理信息,我们通过就业数据来理解城市变迁特征的可能性就从此打开了,我们可以知道在城市的哪一个地点有哪些人在工作,在活动。这件事情很有趣。”

首先,陈鸿先将深圳的人才数据根据职能进行了统计。他发现,从2015年到2017年,深圳市的高级职能人才变多了,低级职能人才在减少。

(图片说明:深圳2015-2017年间不同职业人才的数量变化)

城市是多样的,这个多样归根到底是人的多样。从劳动者的结构上看,深圳在过去的三年中,销售、软件开发、行政和人力资源类的就职人口增加迅速,国贸、会展中心、高新园等地铁站点的职能变化速度较快。相对应的,文员、销售导购、仓库管理人员、操作工等相对低端的职能,则正在从深圳消失。

对比分析上面这两张图,深圳城市的职能变化就更清楚了。以高新园区这个站点为例,在过去三年中,这里的仓库管理员在大量消失,与此同时软件开发等职位在快速增加。说明这里应该是出现了产业结构的变化——从物流业到IT业变动的趋势。

“深圳这两年,还出现了更多的白领、销售、行政。如果一个地方写字楼不多的话,是不会有很多行政的,所以我们就能够看出一些变化。而且,这件事情对政府和商业圈的选址也有用,比如麦当劳想选址,先在城市按照销售额去排名,看哪些地点是卖的不错的,然后再找到相似的地点,就可以快速的得到好的地址。”陈鸿说道。

看业态:深大站变化最大,福田口岸原地踏步

除了这些宏观的简单统计,如果还想更细致地看到深圳各区域城市业态的变化,这就需要对数据进行进一步处理。

陈鸿用到的方法,是把简历中这些抽象的标量数据变成连续的向量(DT君注:向量是指一个同时具有大小和方向的几何对象,向量之间是可以运算的),构成一个向量空间。陈鸿解释说,“这个职能空间是一个300维的抽象数学模型,每个职能在向量空间里都有一个位置,然后我们获取了每个地点周边的工作信息,把地点信息也变成向量空间中的一个位置。这样,深圳100多个地铁站就也跑到抽象的职能空间中去了。我们就可以通过计算向量的差值,来定量得度量不同年份间城市不同位置的业态变化了。”

(图片说明:深圳2015-2017年间城市业态变化最大的十个地点)

深大、会展中心、市民中心、福田、科苑、购物公园、高新园、国贸、车公庙、竹子林是用这种算法计算出的深圳在2015-2017年地区业态变化最大的十个地点。从数据上来讲,这些地方应该是发展比较快、有更多的就业人口涌入的区域,或者说是业态发生了巨大的转型,才会导致这些向量的改变值比较大。

(图片说明:深圳2015-2017年间城市业态变化最小的十个地点)

反过来,我们也可以找出一些变化最小的地区,即周围的就业人口结构在这两年之间基本上是没有什么变化。令人惊讶的是,福田口岸这一深圳著名的站点竟然榜上有名,福田口岸虽然人流量巨大,但是这些年的城市业态几乎鲜有变化。如果对比一下两张图的纵坐标,其实差距就更明显了。第一张图的纵坐标是百位,第二张图则是十分位,相差了几百倍。

陈鸿认为,深圳这个城市不同地点的快速发展,肯定是有起有伏,用这个方法就可以画出城市变化的中心地和变化的边缘区。“我很想看到深圳哪个地方发展的更快,哪些地方是接近停滞的。”

平心而论:上海的IT业可能比深圳落后了两年

这些向量,不仅可以进行计算,还可以对他们进行聚类。陈鸿首先把不同年份地点对应的职能向量放在一起(取2015、2017两个年份),对各个站点进行了聚类。这可以看出来深圳不同地点在不同时间的发展情况,去发现城市功能分区在时间序列上的挪移。

(图片说明:深圳2015年与2017年的各地点的表征向量聚类结果图)

大剧院2017、下沙2017、科苑2015、深大2015等这些站点聚在了一起,说明2017年的大剧院附近的业态与2015年的深大、科苑等比较接近。由于深大、科苑等地点一直都是对应的IT产业,所以大剧院、下沙等地的IT业在2017年有进步的可能。

但是即便如此,这些数据对于不了解深圳的外地人来说,依然十分抽象。想要快速了解深圳的话,最简单的方式就是拿一个自己熟悉的城市去比较。于是,陈鸿在向量空间中加入了上海的数据,又做了一次聚类。这样就可以通过一个转移效应,快速了解深圳的情况。

(图片说明:深圳各地点与上海地点在向量空间内聚类的结果图)

例如,在这份聚类中,深圳的IT园区深大2017,还有科苑2017、高新园2017各自自成一类,在聚类表的前列。上海的IT园区张江高科则与科苑2015聚在了一类,也就是说,张江高科附近的城市业态与科苑2015年的水平更加接近。“仅仅从这个数据上来讲,深圳的IT产业可能要领先上海2年呢。”

注:以上内容根据陈鸿演讲实录整理,图片均来自嘉宾PPT,文章经过本人审阅。关注DT数据侠(微信ID:DTdatahero)

编辑| 程一祥

数据侠门派

陈鸿,e成合伙人,首席科学家,正致力于将海量职场数据变成连接人与工作的知识图谱。陈鸿博士毕业于北京大学计算机系,曾担任豆瓣第一任数据科学家,分析过豆瓣小组的七种可能形态和演化路径,也用算法跑出社区用户的行为辞典供Growth Hacking。他拥有近十年业界前沿数据挖掘和机器学习经验积累。在自然语言处理,推荐系统,舆情分析,用户画像,知识图谱等领域有过深入积累。

本文分享自微信公众号 - DT数据侠(DTdatahero)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-08-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏IT派

AI 经典书单分享 人工智能学习该读哪些书?

算法、深度学习、机器学习、自然语言处理、数据结构、Tensorflow、Python 、数据挖掘、搜索开发、神经网络、视觉度量、图像识别、语音识别、推荐系统、系...

21000
来自专栏镁客网

人工智能已到瓶颈!院士“联名”反深度学习,并指出AI未来发展方向

针对当下深度学习的技术瓶颈,包括清华大学张钹在内的多位院士、教授给出了自己的研究思路。

21170
来自专栏前沿技墅

“机器学习”三重门,“中庸之道”趋若人

博士毕业于电子科技大学,美国西北大学访问学者,现执教于河南工业大学。中国计算机协会(CCF)会员,CCF YOCSEF郑州2018—2019年度副主席,ACM/...

16640
来自专栏前沿技墅

数据驱动产品智能——数据应用与用户智能

神策数据创始人兼CEO,浙江大学计算机科学与技术专业硕士,在百度任职8年,从无到有构建了百度用户日志大数据平台,覆盖数据收集、传输、元数据管理、作业流调度、海量...

24230
来自专栏机器之心

学界 | 担心面部识别泄露隐私?多伦多大学图像「隐私过滤器」了解一下

每当用户将照片或视频上传到社交媒体平台时,这些平台的面部识别系统都会对用户有一定的了解。这些算法会提取包括用户的身份、所在地以及认识的人在内的数据,而且还在不断...

15700
来自专栏IT派

TensorFlow实现流行机器学习算法的教程汇总(3/3)

13500
来自专栏数据魔术师

机器学习|刘博士谈机器学习--机器的“是非观”

我开始写这篇公众号的时候已经是凌晨,希望我的头脑还能在写作过程中保持足够的清醒。在前两篇清谈型的文章后(没看过的还是要看一下),今天我终于要进入到机器学习的正题...

14440
来自专栏WOLFRAM

Mathematica 30年的历史才仅仅是开始

6月23日,我们庆祝 Mathematica 发布三十周年。大多数三十年前开发的软件现在已经消失了,但 Mathematica 依然在这里。事实上,从很多方面来...

13420
来自专栏IT派

TensorFlow实现流行机器学习算法的教程汇总(1/3)

有一些案例需要 MNIST 数据集进行训练和测试。运行这些案例时,该数据集会被自动下载下来(使用 input_data.py)。

14900
来自专栏机器之心

前沿 | MIT提出实时3D医疗影像生成算法:速度提升1000倍

Voxelmorph 项目链接:https://github.com/voxelmorph/voxelmorph

16800

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励