计算社会科学:大数据时代的第四范式

We have to do better producing tools to support the whole research cycle - from data capture and data curation to data analysis and data visualization.

——Jim Gray

1

概念

“范式(paradigm)”来自托马斯·库恩的著作《科学革命的结构》,指科学研究赖以运作的理论基础和实践规范,也就是科学家共同遵从的“套路”;纵观人类科学研究史,可以看到范式演化的三个阶段:

1

第一范式:实验科学

以观察和实验描述自然规律

2

第二范式:理论科学

实验条件不具备时,用模型简化并通过演算得到结论

3

第三范式:计算科学

利用电子计算机对科学实验进行模拟仿真

2007年1月11日,图灵奖得主Jim Gray发表著名演讲,提出:

4

第四范式:数据密集型科学

科学研究不再需要模型和假设,而是利用超级计算能力直接分析海量数据发现相关关系,获得新知识

图1:Science Paradigms.

来源:Tony Hey, Stewart Tansley, Kristin Tolle, 2009

不难发现,第三范式与第四范式的显著区别在于:计算科学是先提出可能的理论,再搜集数据,然后通过计算仿真进行理论验证;而数据密集型科学,是先有了大量的已知数据,然后通过计算得出之前未知的理论。

计算社会科学是数据驱动的社会科学(Data-driven social science),是大数据时代社会科学研究的第四范式。计算社会科学主要通过机器学习、自然语言处理、统计分析等手段,分析网页、文本、视频、图片等形式的海量数据。终结传统的定量、定性方法的分野(David Lazer,Gary King等,2014)。计算社会科学应用的技术工具涵盖大数据分析的全过程:数据的采集与存储,数据结构化、清洗与预处理,自然语言过程与实体识别、数据仓储与关联数据、机器学习与数据挖掘、数据开放与检索、数据可视化与人机互动。

2

案例

借助大数据,计算社会科学方法将帮助我们研究政治传播、社会运动、外交、公共政策、公共卫生、公共安全、公共交通、腐败、网络舆情、应急管理等方方面面的现象与规律。这里举两例研究:

通过美国参议院2007年来发布的24000余份新闻通告数据,利用贝叶斯分层主题模型进行文本分析,研究美国参议员与选民的政治沟通。发现每个参议员的关注重点与其他参议员的关注事件之间存在显著相关性,关注重点的地域分布具有一定的集聚性(Justin Grimmer,2010):

图2:Senate debates and external events explain spikes in the daily press releases from each topic.

来源:Justin Grimmer,2010

通过2010年美国国会大选时对6100万Facebook用户发送的政治动员消息随机控制实验,研究线上社交网络和面对面社交网络影响政治行为的路径。发现政治动员消息直接影响网民的政治自我表达、信息搜寻和现实投票行为;政治动员消息不仅影响了接受者,还影响了接受者的网友、网友的网友,而这种社会传递效应对投票行为的影响要强于直接动员效应;信息传播更容易发生在具有见面关系的关系密切的朋友中(Robert M. Bond,Christopher J. Fariss等,2012):

图3:The experiment and direct effects. a, b, Examples of the informational message and social message Facebook treatments (a) and their direct effect onvoting behaviour (b). Vertical lines indicate s.e.m. (they are too small to be seen for the first two bars).

来源:Robert M. Bond,Christopher J. Fariss等,2012

参考文献与延伸阅读

1

Tony Hey, Stewart Tansley, Kristin Tolle. The Fourth Paradigm: Data-Intensive Scientific Discovery[M]. Redmond: Microsoft Research, 2009:xviii

2

David Lazer, Alex Pentland, Lada Adamic, Sinan Aral, Albert-László Barabási, Devon Brewer, Nicholas Christakis, Noshir Contractor, James Fowler, Myron Gutmann, Tony Jebara, Gary King, Michael Macy, Deb Roy, Marshall Van Alstyne. Computational Social Science[J]. Science, 2014, 323(1):721-723

3

Justin Grimmer. A Bayesian Hierarchical Topic Model for Political Texts: Measuring Expressed Agendas in Senate Press Release[J]. Political Analysis, 2010, 18(1):1-35

4

Robert M. Bond, Christopher J. Fariss, Jason J. Jones, AdamD. I. Kramer, Cameron Marlow, Jaime E. Settle, James H. Fowler. A 61-Million-Person Experiment in Social Influence and Political Mobilization[J]. Nature, 2012, 489(7415):295

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180912B11DTC00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券