首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

计算社会科学:起底CSS的前世今生

Computational Social Science(CSS),中文:计算社会科学。这一概念出现在2009年《科学》(Nature)杂志上,由来自哈佛大学的Lazer, 耶鲁大学的Nicholas A. Christakis等社会学家, 和MIT的计算机科学家Alex Pentland等众多顶级学者一起共同署名提出。其定义为:用计算手段来研究社会科学的一门交叉学科。

Computational social sciencerefers to the academic sub-disciplines concerned withcomputationalapproaches to thesocial sciences. (Wikipedia)

计算社会科学这股风从哪里吹过来?

随着互联网和社交网络的兴起,美国社会学地位的巩固和强化,对于具体可见的数据的偏好已经逐渐成为社会科学研究中的不可逆的一股趋势。目前,芝加哥大学、康奈尔大学、斯坦佛大学、密歇根大学、苏黎世联邦理工学院和微软研发中心都成立了专门的CSS研究机构,并且提供post-graduate level课程的训练,可以说虽然这个学科作为交叉学科的兴起比较晚,但是其研究价值和应用价值不容小觑。

Dive Deep into Big Data

以芝加哥大学为例,芝加哥大学近年来在社会科学教育领域的跨学科实验深刻地体现了这一点:目前芝加哥大学社会科学学院共开设有两大跨学科硕士项目:MAPSS和MACSS,都明确把编程coding技能纳入到社会科学教育的基础板块中,足以证明其重要性。

同时Uchicago还有自己的数据可视化实验室,提供各类workshop,并将自己课程的slides都上传到网页share给需要的学生们。

对于社会科学而言,其研究对象具有独特性,区别于自然科学对于自然世界的探寻,社会科学关注的是人类社会和人类行为。传统上由于数据可得性和数据处理技术的限制,社会科学中常用的量化研究方法是调查(Survey),田野调查(field )或是实验法、(无)结构访谈法等虽然也作为观察和了解研究对象的其他方式,但是不常被量化研究使用。调查法有其自身固有的局限——霍桑效应,同时也存在着收集时间长、问题设计困难的困境,在这一情况下计算社会科学的出现就助力了这些问题的解决。目前就计算社会科学的产生原因有如下分类:

1. 社会网络理论与研究方法的发展;

2. 人工智能——新型文本与影音资料处理系统的问世;

3. 计算机模拟领域内基于行动者模拟方法的发展;

4. 互联网,尤其是移动互联网时代的到来。

上述所总结的技术进步对于社会学研究方法创新的推动的四个方面的表述(罗玮&罗教讲, 2015),其逻辑分类上存在重叠和交叉,不是非常清楚。如第一点对于社会网络研究反作用于计算社会科学产生的表述,诚然,计算社会科学领域目前的研究主题多集中在社会资本、社会网络等子领域,但是其研究方法上的创新却源自于机器学习和算法上成熟模型的应用,如BP神经网络、自然语言处理等,因此把这一点单独罗列出来未免有失妥当,因为在环境社会学、移民社会学中的数据收集和模型建立都有目前现有的尖端数据模型的应用。因此在总结数据科学领域和计算社会科学文献的基础上想提出一些可以改进的地方。

大数据的“大”在社会科学中意味着什么?

理解计算社会科学的兴起,除了考虑到定量方法的强势主导地位和技术支持的快速升级,不能不考虑我们这个时代的独特背景——“大”数据的可得和超级计算的助力。

社会科学中,实证研究传统上使用的数据多为微观的调查数据,在国内学者们常用CHIP、CHARLS、CFPS、CHNS、CGSS、UHS等,这些调查设计中PPS抽样调查为主流,

这些调查多为研究机构支持(CDC、北大、人大等),存在花费高、问卷收集时间长(存在滞后问题)、问卷设计无法全面描述个人行为和选择等诸多问题。因此大数据的出现为社会调查打开了一扇新的大门。

大数据 V.S. 传统数据:

“大”的,而非“小”的;(样本=总体)

“自然”的,而非“调查”的;

“挖掘”的,而非“搜集”的;

首先,大数据的量极大,需要超强的系统框架和硬件支持,自动化的重复扒取数据和校验,这一方面这对研究者的computer programming的要求提高了,另一方面带来了海量的、实时的、动态的总体数据,即社会科家们可以省去编制样本框、入户调查的复杂流程,取而代之的是更具有代表性的庞大数据集合。

其次,作为用户(被试,subject)自发生成,自行撰写的数据集合,有效避免“霍桑效应”是大数据的另一个优势,这不但可以减少bias,而且通过LBS(location Based Service)我们还可以对地理分布、时间偏好等多种外部因素的影响进行分析,可以说这样构建出来的模型真正实现了“天时地利人和”。

不过,完成这样海量数据的收集整理却没有想象中的费时、费力,通过Python的帮助,一枚没有任何计算机背景的文科高中生也可以利用Spider获取她想要的新浪微博她家idol的所有帖子。虽然技术上的支持已经不是大的障碍,但是就社交网络上的信息而言,伦理问题的探讨,个人隐私的保护正成为计算社会科学们面临的新挑战。

计算社会科学应用在哪里?

我最初对于CSS的关注源自于JHU移民与发展课程上老师的Migration Flow图,Flow图的特点在于展示的可视化的移民数量变化相当直观,圆状展示的多边关系摆脱了传统的条形图进行比较时缺乏参照和标准的bias,其实这只是数据可视化的一个很小的部分,以下的几个例子可以说是目前计算社会科学做得比较完善和成熟的sub-area。

数据可视化:移民数据可视化

社会网络距离的测量

社会网络同质性的测量

数据收集:Spider爬虫--以sina weibo用户数据为例

自然语言处理(NLP):信息提取、加工和自动总结

数据可视化:移民数据可视化

从安格鲁萨克森时代开始,美国就作为重要的移民国家,成为各国高端人才的“羊毛剪”。移民问题作为宏观社会学分析的主要议题,借助数据可视化技术,移民动态流动的全景就清晰展现。

社会网络距离的测量

还记得格兰诺威特的《镶嵌》么?他对于找工作过程中强关系与弱关系的探讨已经成为社会网络研究中的典范之作。而如今,借助Linked-in/Indeed等求职平台,社会科学家们可以轻而易举地进行社会网络距离的测量,曾经的“六度分离”的度如今正成为看得见摸得着的社交信条。

数据收集:Spider爬虫--以sina weibo用户数据为例

Github:

Sina_Spider1: 《新浪微博爬虫分享(一天可抓取 1300 万条数据)》

Sina_Spider2: 《新浪微博分布式爬虫分享》

Sina_Spider3: 《新浪微博爬虫分享(2016年12月01日更新)》

以上的例子只是作为计算社会科学研究的一部分应用展示,随着机器学习和数据挖掘的不断发展,我们有充分的理由相信,唯有我们这一代人有此际遇见证农业文明、工业文明与资讯社会并存的魔幻现实,并通过我们的技术努力去描述并解释它。

社会学并不是一门不可能的科学,但的确是一门很艰难的科学(柯林斯、马科夫斯基,2006:1-23)。

参考文献:

[1] Cioffi-Revilla C (2016). Bigger Computational Social Science: Data,Theories, Models, and Simulations—Not Just Big Data.The 8th International ACM Web Science Conference (WebSci’16), Hanover,Germany, May 22–25

[2]Cioffi-Revilla C. (2014).Introduction to computational Social Science: Principles and Applications, Springer

[3]Lazer D, Pentland A (Sandy), Adamic L, et al. Life in the network: the coming age of computational social science.Science (New York, NY). 2009;323(5915):721-723. doi:10.1126/science.1167742.

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171215G0DA0T00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券