“社会计算”与“大数据”之辩:概念的应用、反思与展望

本文4600字,阅读用时约7分钟

近几年随着 互联网、云计算、物联网和人工智能技术的迅猛发展,有关“大数据”“社会计算”等概念在新闻传播领域的研究呈井喷趋势,成果丰富,角度多元。然而在大量的研究文献中,有关“社会计算”和“大数据”在概念和方法的运用上经常混淆不清、相互串用。相关研究内容庞杂多元,亟待梳理出清晰的研究体系。

在新闻传播领域,“大数据”的相关研究大都从宏观层面概括性阐述大数据的概念与社会意义,或探析它为新闻传播学科带来的相关思考,仍较缺少用具体的案例来解读大数据方法的应用和问题的解决。例如喻国明教授指出大数据时代传播学研究的模式、逻辑和手段已经产生了新的变化。彭兰也认为大数据技术将在一定程度上对现有新闻生产的模式与机制产生影响,新闻业务发展需要更多跨界的合作。而“社会计算”被提及的次数更是微乎其微,相关的研究内容也停留在宏观概念的叙述和探究上,缺乏深入具体的应用与分析。对于“社会计算”与“大数据”,学者们尚未厘清及统一它的概念和界限,相关定义模糊不清,不同学者各执一词。例如沈浩指出,大数据时代下进行社会计算会让我们越来越多地从数据中观察到人类社会的复杂行为模式。他认为“大数据”是环境和时代的特征,而“社会计算”是研究方法的存在。但在王飞跃等学者的研究中,社会计算利用大数据来解析复杂系统,即大数据是社会计算视域下的一种计算方法和解决思路。综上,这种未将“大数据”“社会计算”的概念定义明确,甚至将其界限混为一谈的现象,容易造成方法论使用上的混淆。本文试图通过对两者进行概念梳理和内涵思辨,为新闻传播学领域的相关发展建言献策。

一、概念争议:“大数据”与“社会计算”的多重理解

“ 大数据”的概念首见于1998年《科学》(Science)中的《大数据的管理者》(A Handler for Big Data)一文。2008年9月《自然》(Nature)出版了“bigdata”专刊,使得“大数据”爆发,在学术界得到认可和广泛利用。究竟何为大数据?学者Manyika等认为“大数据”是指超越传统典型数据各方特性的新型数据集合。研究机构Gartner对“大数据”的定义是海量、高增长率和多样化的信息资产。国内学者刘建明、丁柏铨等也曾论述,“大数据”是信息爆炸的表现,是巨量资料、浩瀚信息的另一种称呼。所以,“大数据”被理解为一种超越常规工具收集和处理极限的巨量数据集合。而另一方面,一些学者则对“大数据”的概念持有更广义的诠释。方环非指出大数据在指向数据集合或信息资产之外,更多地意味着技术层面的大数据技术概念。喻国明在其研究中表示,大数据分析的关键其实并不在于掌握大的数据,而是在于从数据中提取意义的能力,以及发现隐藏的模式与可能的关系的能力。因而,“大数据”不仅只强调数据的海量,更进一步指出数据背后的复杂形式以及对数据的分析、处理等专业化能力,体现了多重技术的协同。在新闻传播领域,关于“大数据”概念的争论,不同的学者往往围绕上述两个方向各抒己见。

而“社会计算”的概念早于“大数据”,在1994年就已经第一次出现,Schuler认为:“社会计算可以是任何一种类型的计算应用, 以软件作为社交关系的媒介或聚焦”。在英文中“Social Computing”实质内容多指“社会软件(Social Software)”,而非面向社会活动、社会过程、社会组织等的计算方法研究和应用。但随着信息网络的兴起和科学技术的快速发展,社会计算被不断赋予新的内涵和意义。近年来,社会计算不仅是一种技术、一种社会现象,也成为各学科研究的手段和趋势,对其概念的理解和界定也存在着较大差异。王飞跃指出,除了技术层面的认识之外,“社会计算”可以理解为是技术与人文交融、研究视角多元的学科领域。王琳琳也指出社会计算是一门现代计算技术与社会科学之间的交叉学科,是一个社会行为和计算系统交叉融合而成的研究领域。而另有一些学者,对于“社会计算”的概念思辨偏向于研究范式的理解。孟小峰等认为社会计算是一种理论和方法论体系,使用系统科学、人工智能、数据挖掘等科学计算理论作为研究方法,结合社会科学理论与计算理论,来解决复杂性社会问题。

由此,“大数据”和“社会计算”的概念并未在学术界得到统一,它们的内涵和意义仍然不断蜕化、不断发展,在各个研究者的论述与定义中一直流变。

二、内涵辨析:“大数据”是原材料,“社会计算”是建筑过程

其实大数据从提出伊始在信息科学领域并不存在较大争议,即具有规模性(volume)、多样性(variety)、高速性(velocity)和有价值(value)等特点的数据集合。自然科学中“大数据”作为琐碎庞大的原材料,需要经历诸多步骤才能实现其最终的价值;如图1所示,“原材料”首先被筛选成“目标数据”;经过预处理、变换后,成为数据结构完整的规则数据;然后通过智能化数据挖掘和可视化得到“能读懂的信息”。而后,在跨学科领域的后半段过程中,人文社会科学等再对其进行进一步的归纳和解释,通过对一些研究方法的运用和既有理论的再加工,将“信息”处理成为“知识”。而对“知识”的后续思辨根据人文社科的研究格局可分为三个递进领域:一是“知识发现”,指通过对基础数据的计算展开的现象描述,例如对传播要素、传播过程的解释和分析等;二是“知识提取”,是在现象描述的基础上,发现和探索现象背后的组织构造和运行原理,即机制,例如深入论证各要素之间的因果关系;三是“模式分析”,是基于前两者,通过科学方法对事物的发展趋势具有预测性的推理,以期实现人们看待事物的方法或者学科思维结构上的“创新”。综上,数据的挖掘、处理,信息的加工,知识的生产,是一个需要多重学科知识、跨领域的复杂过程。期间环环相扣,缺少任何一个步骤都不能完全实现数据最终的有效价值。

以上过程中,自然科学领域研究者通常关注如何将原始“大数据”一步步处理变换得到所谓的“信息”与“知识”,沉浸在算法优化等客观表述中。而社会科学领域的研究者对问题具有较高敏感度,更擅长于对所谓的“知识”进行分析、发现和提取。所以在跨学科合作的研究中,信息计算学者实现的往往是知识生产前的计算工作,而社会科学学者更偏向于人文思辨的知识生产。由于对前一部分的计算工作了解并不深入,社会科学经常提及的“大数据”便囊括了数据从获取、筛选到各种处理变换的整个过程。所以,社会科学领域出现了一批将“大数据”理解为方法技术的学者。

而“大数据”实质上是不断增长的海量复杂信息的客观存在。繁杂琐碎的数据必须经过一套系统化的方法处理才能实现其应有的价值。其实从19世纪开始,社会学者们便一直致力于建构系统的方法论。网络科学的出现使原本相对独立的自然科学和社会科学,相互交汇诞生了社会计算科学、计算广告学、计算传播学等一系列跨学科研究。“社会计算(social computing)”的概念就是在这种背景下被提出的,它的产生并不是简单的自然科学技术与人文社会科学的叠加, 而是来自于学者们试图摆脱传统思辨,科学探索问题的一种思维创新。传播学之父施拉姆就曾指出,将自然科学的概念引入人文社会科学用以研究人类的传播方式与过程,将成为一种新的研究模式。

“社会计算”便是这样一种新的研究模式和研究范式,利用信息科学和计算机技术来解决社会科学的相关议题。它实现了知识共享,为社科研究引进了全新的计算方法和工具。如图2所示,以一个形象的比喻来描述“大数据”和“社会计算”的关系。“大数据”可以理解为建筑原材料,研究中所涉及的方法(如复杂网络分析法、数据建模等)则是建筑的设计图,运用的软件工具(如Ucinet、CiteSpace、Python等)是建筑的工具,最后可视化呈现的是建筑的外观,而“社会计算”则类比为整个建筑过程。

三、“社会计算”比“大数据”更符合当下的方法论要求

所以,“社会计算”就是以“大数据”为前提,利用相关计算方法来挖掘数据背后所蕴含的有意义的信息和价值的一套方法论。社会计算关注的重点:一是信息技术中如何嵌入人文知识使之更好地服务于社会活动,二是信息技术如何作为研究工具被使用和发展。祝建华指出,“社会计算”是最近10年内兴起的一种采用互联网、大数据、机器学习等计算技术来研究社会科学问题的新思潮和新方法。“社会计算”不是社会科学家们的专利,而是一个涉及科学、技术、医学、社会、人文等各领域的跨学科“群众运动”。作为新兴崛起的研究范式和方法论,将“社会计算”引入新闻传播学科将受益无穷。沈浩也认为,网络科学和社会网络分析等社会计算方法是“大数据”分析的重要技术和方法论。王成军也在“社会计算”和计算社会科学的基础上提出了计算传播学的概念。因此,“社会计算”应当比“大数据”这一说法更加切合当下的技术发展前景。

新闻传播学科正在经历一场变革与创新,其研究范式正在从以定性描述为主转向以数据实证为主,分析格局由传统的个体统计数据转向海量的关系数据。在这样的时代背景下,新闻传播领域的方法论将注入更多复杂、庞大的计算特色。可计算的方法使得沉睡的数据宝藏逐渐苏醒。从传播学研究的立场来看,如何在当前技术和信息科学的影响下,立足于人文社会的本质问题,加强学科建设,是传播研究者们的关注焦点。总之,传播学和媒介研究在保持对最前沿技术的关注的同时,更应深入思考一个关键性问题:“社会计算”等新型研究范式的崛起能否又如何成为传播学学科变革与继续发展的生长基质?纵观技术革新背景下整个新闻传播学科格局的衍化及走向,由此产生以下两点反思。

第一,传统的量化方法无法解决日益复杂的传播行为,由此突显了“计算”的重要性。随着技术的发展演进,媒体的更迭激发了受众无上限的信息欲望,不断冲击着信息的产生和流动,引导着受众,使其传播行为更加复杂化。如图3左所示,传统量化研究方法基于人类对社会已形成的认知和判断之上,采用一定的统计方法对既有理论、对社会问题或规律提出相关假设并验证真伪。而大数据时代的新型计算过程在部分保留传统研究思维的同时,更多地呈现出一种逆向思维模式。如图3右所示,在价值密度低、量级庞大、爆炸式增长的大数据中,通过智能化的机器算法,从没有形成人类“知识预判”的数据中挖掘隐匿复杂的人类行为模式,并以此为基础深入探索新型的社会特征、演化规律、受众需求等。这种逆向思维的计算过程可以帮助现有的经典理论在技术发展视角下完成新的验证,也可以展开对未知领域的探索,实现认知上的创新,为传播学的发展带来不可多得的机会与革命。

第二,算法和阐释相粘合才易产生新的学科发展。机器算法能够通过标签帮助实现受众的精准分类,更能基于不同的社会群体提供不同的媒介服务。然而这种依赖于算法的传播路径侵蚀了人文社会领域的建设和发展,思维容易囿于惰性并僵化。提出对大数据和社会计算方法的重视,并非意味着对机器算法的依赖,甚至停止人类的思考。对于不断数字化、信息化的未来社会,学术领域为此或将分成两派进行博弈:一是技术理性派,认为机器算法等科学技术是揭示人类社会的有效途径;二是技术批判派,认为盲目的技术垄断会阻碍社会进步,造成更多的伦理困境。然而,技术理性和人文探索之间的取舍并非一道难解命题。随着人文社会科学领域的研究、算法、数据、模型等不断更迭,方法体系的嬗变从未影响人们对未知领域的探索和创新,哲学思辨一直是人类思考的最高境界。两者更加融洽的粘合而非相互排斥,才能拓宽人类社会科学的领域范畴,甚至促成一个崭新的认知体系。

* 本文系国家社科基金青年项目“多语种国际受众的媒体使用特点与我国对外传播力提升研究”(项目编号:14CXW018)的研究成果。

本文作者徐明华,华中科技大学新闻与信息传播学院副教授,新加坡国立大学博士;冯亚凡,华中科技大学新闻与信息传播学院2016级传播学专业硕士研究生

原文发表于《现代出版》2018年第3期

欢迎个人转载,媒体转载请联系后台取得授权

主管:中华人民共和国教育部

主办:中国大学出版社协会中国传媒大学出版社

编辑:中国传媒大学编辑出版研究中心

出版:《现代出版》杂志社

国内发行:中国传媒大学出版社

邮发代号:80-431

海外总发行:中国国际图书贸易集团有限公司

国外发行代号:Q7500

国际标准刊号:ISSN 2095-0330

国内统一刊号:CN 11-5979/G2

| 合作数据库

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180712A097Y700?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券