计算机和统计专业的同学们,你有没有想过:
传统的问卷调查可以当作机器学习训练集来提高效率?
社会科学:远超人们想象的复杂学科
还记得本周二的投稿《走进神经网络》吗?
撰稿人提到了对生物神经元的抽象——感知机模型。当下,基于感知机的人工神经网络已经被广泛地应用于学术、工程与技术,但目前的一般计算机最多支持存在十万个左右或三十层左右(也有ResNet-152那种超长网络)神经元的神经网络的训练,而这比起复杂生物神经网络的神经元个数不值一提。
人们已经能够画出部分生物的神经系统,如下图:
图/线虫神经网络
这是线虫的神经网络,可以看到已经和常规规模的人工神经网络在复杂度上有一拼了。
高等生物——特别是人类的神经网络远比线虫的神经网络复杂,受到技术限制,我们目前还画不出来。即使画得出来,要摸清人类神经网络的运作方式也是一个挑战。
网络能够根据节点的特征分成若干种。
图-几种网络结构
生物神经网络属于上图的小世界网络(Small-World Network)。在这样的网络里,信息传递速度快,并且少量改变几个连接,就可以显著地改变网络的表现,对已存在的网络进行调整。
人类社会中也存在这种小世界网络。
图/Linked上一个路人甲的社交网络
真实世界是由数以百万计的异质的个体在不同维度的网络里相互作用。我们目前受制于数据和技术限制还画不出这些网络,且同生物神经网络一样,即使画出了网络,要理解网络的运作方式还有很长的一段路要走。
而且,社会网络分析(Social Network Analysis, SNA)只是分析、理解社会现象的一个方法。
神经网络和社交网络都是小世界网络,有很多相同属性的。
神经生物学和社会科学的学者都在研究极其复杂的现象。但很多人从来不觉得社会科学是硬科学,甚至只是死记硬背的“文科”。
社会科学目前就好比17世纪的天体物理。当时的天文望远镜为天体物理带来了革新,在社会学领域,我们刚得到我们的“天文望远镜”,即大数据和计算机科学。
“计算社会科学”
“计算社会科学”是一个比较宽泛的概念。
从研究方向定义,计算社会科学是包括了自动化社会信息提取(Automated Social Information Extraction),社会网络(Social Networks),社会复杂性(Social Complexity)和社会模拟建模(Social Simulation Modeling)四个方面的一系列社会科学分支的统称。
从研究方法和技术上定义,计算社会科学是“广泛应用计算机技术研究、认知和理解社会现象的社会学分支,包括计算机模拟、人工智能、复杂统计方法、社会网络分析技术等在内的多种手段和工具,通过对多样化社会互动的基础建模方式而提出并检验了关于复杂社会进程的多种理论发现”
计算社会科学是所有用以上方法研究的社科领域的总称。这包括了计算社会学,计算经济学,计算政治科学,计算心理学,计算语言学等等。
图/社会网络
如上图,每个颜色代表了2016年美国大选时人们讨论的一个话题。
图/社会复杂性
计算社会科学的发展史
“计算”社会科学曾经指的是用计算机进行的社会模拟。1971年,诺贝尔奖得主Thomas Schelling(托马斯谢铃) 创造了一个很简单的代理人基模型(Agent Based Model)来模拟美国社会的种族隔离[1]。
图/代理人基模型
图/湾区种族隔离
图/芝加哥种族隔离
2000年代中期有三个趋势极大促进了领域的发展:
网络科学发展成为自己的领域:
社会网络分析成为研究社会现象的一个重要方法。
数据的规模和范围的增加:
“大数据”作为一种新形式的观测数据开始活跃在科研和工程应用领域。
网络社交平台给研究带来了无线可能:
社会实验的规模可以突破物理限制,社会实验的人群范围和时间跨度也大大增加。
2009年,15个知名学者联名在Science发表了文章The Coming age of Computational Social Science,计算社会科学正式作为一个领域为学术界接受。
美国大学里的计算社会科学
图/康奈尔大学的CSS学科首页
美国康奈尔大学的信息科学系就是由计算机和社会科学教授联合建立的前沿专业。
康奈尔大学做计算社会科学的学者包括了:
计算机系杰出教授,信息科学系主任Jon Kleinberg
经济系杰出教授,系主任Lawrence Blume
通迅系杰出教授,系主任Geri Gay
社会学和信息科学系杰出教授Michael Macy
计算机系杰出教授,副院长Eva Tardos
数学系杰出教授Steven Strogatz
社会学教授Michael Macy
他刚被Science期刊邀请作评审员
(这是社会科学学者的先例)
图/部分重要科学家
计算社会科学领域的杰出学者能够在Science, Nature,PNAS等顶级自然科学期刊发表文章和观点。这也代表着用前沿科技和研究方法的社会科学终于接近自然科学的研究标准,成为“硬科学”。
图/Duncan Watts在Nature期刊上发表的观点
自认为是社会学家的Duncan Watts,一共在Nature, Science上发表论文和文章12篇。
以一篇在Science期刊上发表的论文[2]为例。文中作者使用手机问卷的原数据建立模型预测了卢旺达不同地区的贫富差异。这样做比金牌传统问卷快了10倍,成本仅为五十分之一。
Fig. 1 Predicting survey responses with phone data.
可以看到作者甚至使用了ROC曲线这种在生物、信息科学领域广泛应用的曲线,而模型的曲线下面积(Area Under Curve, AUC)也达到了一个可观的值。
Fig. 2 Construction of high-resolution maps
of poverty and wealth from call records.
上图是作者对不同地区的贫富预测,可以看到详细程度也很可观。
Fig. 3 Comparison of wealth predictions
to government survey data.
可以看到作者的预测与政府的预测基本吻合。
近几年的更多优秀成果包括:
Shi, Feng, Yongren Shi, Fedor A. Dokshin, James A. Evans, and Michael W. Macy. "Millions of online book co-purchases reveal partisan differences in the consumption of science." Nature Human Behaviour 1, no. 4 (2017): 0079.
Vosoughi, Soroush, Deb Roy, and Sinan Aral. "The spread of true and false news online." Science 359, no. 6380 (2018): 1146-1151.
Hofman, Jake M., Amit Sharma, and Duncan J. Watts. "Prediction and explanation in social systems." Science 355, no. 6324 (2017): 486-488.
Mao, Andrew, Lili Dworkin, Siddharth Suri, and Duncan J. Watts. "Resilient cooperators stabilize long-run cooperation in the finitely repeated Prisoner’s Dilemma." Nature communications 8 (2017): 13800.
国内的计算社会科学
清华大学与学术界
清华大学在今年八月刚刚举办了第一届计算社会科学论坛,正在建立计算社会科学平台。而就在上周末,清华的“AI新时速“人工智能成就展中,计算社会科学平台作为唯一社科背景研究机构参展。
中国人工智能学会将计算社会科学叫做社会计算与社会智能专业。
人大附中的计算社会科学
响应翟小宁校长国家社科基金重点课题子课题《智能时代的科技创新教育与人才培养模式时间研究》,本学期人大附中开设了计算社会科学选修课。该课程由在康奈尔读本科的校友陈健坤编写教材,武迪老师教授。课程设计和材料选择由康奈尔的杰出教授Michael Macy把关过。
这个领域目前美国本科生也很难接触到,领域入门书也刚出版,都是针对研究生编写的。
课程会以介绍领域为目标。学生会了解领域著名研究的研究和学者。
在授课过程中,我们发现专业意向计算机,统计或自然科学专业的学生更容易理解社科的复杂性,也希望能有更多相关的学生了解到这个前沿领域。
这算是一种教学上的创新,将美国大学的先进领域简化开设给优秀的中学生。学生将直接跳过传统社会科学,跳过国内学界直接了解到这个领域最新动态。
课程收获
学生会比较系统的了解到计算社会科学这个前沿领域
学生会获得一种新的看待社会现象视角
学生会了解科技发展对理解社会的帮助
对即将申请美国大学的计算机/信息科学/社科专业学生来说,这门课可能会对文书写作有启发,也会带学生了解到康奈尔,卡内基,MIT等学校知名学者的研究
我们的征途是星辰大海
参考资料:
[1] http://nifty.stanford.edu/2014/mccown-schelling-model-segregation/
[2] Blumenstock, Joshua, Gabriel Cadamuro, and Robert On. "Predicting poverty and wealth from mobile phone metadata." Science 350, no. 6264 (2015): 1073-1076.
领取 专属20元代金券
Get大咖技术交流圈