大数据推动教育科学研究进入新境界

文:张务农|河南大学护理与健康研究所副教授,硕士生导师

文章字数约7700字,阅读约需16分钟

一、万物归数:大数据推动教育科学研究的理论视点

基于大数据的教育科学研究以“大数据”作为研究活动的基本质料,以大数据记录和实时分析作为研究活动的基本形式,延续了经典科学研究范式的“数据依赖”,但大数据研究方法的数据论基础又不同于“小数据”,它蕴含着人们对数据应用认识的“肯定—批判—再肯定”的辩证发展过程,由此构成审视大数据方法的三个理论视点。

(一)可数的世界:对世界的数字化观察

用数据去探究世界万物无论是在东方还是西方都有悠久的历史。孟子说:“权,然后知轻重;度,然后知长短。物皆然,心为甚。”即无论是客观世界还是内心世界都需要用数字去衡量。毕达哥拉斯则提出了“万物皆数”的命题,确立了世界的本质即数据的哲学思想。随着近代自然科学的兴起与发展,数的思想开始从哲学世界观与方法论走进具体的实验科学,成为科学研究方法论的基石:“凡物的存在必有其数量”,“凡有数量的东西都可以被测量”。另外,数据不仅是现象的“证据”,而且是现象本身,数据还是建构理论和证伪理论的工具。数据也是科学共同体、共同体之间、共同体内外的通用语言。正是数的可通约性、可交流性、客观性、精确性,使得基于数据的科学研究成为一种信念、一种科学习惯、一种学术传统、一种成功的范例,从而构建了牢不可破的经典科学研究范式。

因此,科学研究即“数字观察”,数字代表着世界的真实,凡不可数的也是不可靠的。科学实验之目的就是获得各种数据,用数据来解释现象、区别现象、干预现象、构造现象,用数据来揭示某种解决方案及方案的有效性、可行性。以至于“我思故我在”的“我思”也成了不完全可靠的东西,它必须接受数据的检验。如逻辑实证主义就以经验为根据、以逻辑为工具进行推理,然后用概率论来修正结论。由此,数字观察成了对认识活动进行审判的最终尺度。

(二)不可数的世界:对世界数字化的质疑

现代自然科学的发展进程即是数字化揭示世界的进程。在教育研究领域,2017年《教育实证研究华东师范大学行动宣言》便是对数字化方法的一次强化。“用自然科学研究方法进展重构教育研究范式”也成为当前教育研究领域的一种导向,但这并不能遮掩对“世界数字化表征”的质疑。

这种质疑主要来自人文社会科学领域。首先,人文关乎心灵,而心灵的形式化、逻辑化充满挑战。如人工智能以自然科学研究为基础,以数字化方法为支撑,是对人“心灵”的形式化、逻辑化处理的一大尝试,并取得了巨大成功。但对人“心”的形式化处理存在着终极的认识论困惑,人并不存在一颗形式化的心,人只有一个完整的包含“文化”“生理”与“技术”三层结构的“身体”。人的任何思维和情绪都是“具身”的,它不可能抽身而去,等同于一连串数字。其次,在人文社会科学领域,对现象的数字化表征也存在方法论局限。社会环境不同于自然环境,各种影响因素复杂交织、互相影响,很难对社会条件进行控制取得理想数据。用自然科学方法研究社会问题时,往往是把总体分解成单项,然后再还原成总体,这种机械的取数方法与人文社会科学领域有机的世界观和方法论难以相容。

另外是来自自然科学和科学哲学的挑战。在自然科学领域,量子力学的发展对自然现象的数字化表征提出了难题,如量子运动轨迹是无法被观察和测量的,量子通信的保密性正是建立在量子不可测量基础上的。科学哲学的挑战则牵涉休谟对数理逻辑中因果性命题的终极追问。休谟对经典科学研究范式的基石“因果关系”进行考察后发现:所谓的因果关系只不过是“心理习惯”“恒常联系”和“必然性”。上述挑战不仅使经典科学研究范式城堡可能被攻破,也使得镶嵌于其中的数据方法合法性受到质疑。

(三)彻底可数的世界:对世界数字化的极致追求

对数字化方法的质疑是科学研究范式的危机,也孕育着科学研究方法突破的契机,大数据科学研究方法正是在这一危机、契机中间应运而生的。

相对于“小数据”,大数据堪称数据领域的革命。如上所述,“小数据”在揭示人的心理和精神活动方面仍存欠缺,因而无法像发现自然科学规律那样发现人文规律。“小数据”在揭示社会科学规律时也远不如在自然科学领域的表现。据现有认识结论,其中原因乃是“小数据”的局部性、片面性,导致“小数据”对人文和社会复杂现象的揭示只能做到“管中窥豹”“盲人摸象”,无法实现总体性的描述。而大数据是小数据汇聚的结果,不同的数据互相流动、交融,形成了一张疏而不漏的数据之网,从而使从不同观测点把握人文社会现象成为可能。多点观测、综合分析使得人文社会科学规律的揭示成为可能。这便是技术乐观主义者的看法:并非数据不能揭示人文规律,乃是人文规律的复杂性需要用更丰富复杂的数据结构来解释。

数据从“小数据”发展到大数据,进一步使人们坚信“世界本质的数字化构造”,卡尔·波普尔三个世界的划分也从未像今天那么正确。数字世界已不是一个人构世界,也不是一个镜像世界,它是一个“客观实在世界”。正是当今无处不在的数字化活动,以及由此产生的纵横交错的数字网络,使维克托·迈尔-舍恩伯格喊出“世界万物都有数据化的形式,都可以被数据化”,“无论是自然事件还是社会历史事件,都存在着数据的形式”。

既然世界的本质是数字的,科学研究的使命便是挖掘数据,发现其中隐藏的数据规律。在当今技术条件下,这种数据挖掘方法或科学研究方法主要依靠一张布满了传感器和数据处理器的所谓“智慧网”“物联网”。这种技术构架不仅使触网的一切人和事迅速数字化,而且可以做到实时动态记录和分析。它对数据的搜集、传输、处理速度都是小数据方法无法比拟的。且大数据方法可不追究因果性而对事物特性进行描述,因而也可解决“小数据”无法描述的量子纠缠难题。因为,具体的量子传输内容纵然不可测量,但它们的总体活动特征却可通过更大范围数据变化进行描述。

二、方法演变:大数据推动教育科学研究的范式转换

托马斯·塞缪尔·库恩将科学研究的范式定义为科学共同体在科学活动中共同的信仰、价值,以及遵循的实践技术规范。根据经典科学方法,教育研究的科学范式至少具有四个要件:客观的研究对象、可靠的数据证据、可再现的研究情景、因果关系。正因为教育科学研究难以满足上述条件,严格意义上的教育科学研究范式并没有确立。教育领域的科学研究方法也一直与人文方法和社会科学方法互相掣肘,甚至对立。但大数据方法从一定程度上突破了经典科学方法的范式框架,形成了明显不同的科学研究结构,称得上是研究范式的革命,对进一步推进教育研究科学化进程具有重要意义。

(一)研究对象设置:从具体客观到无须预设

教育学研究文献对教育科学研究对象的表述大致可概括为三种:教育现象、教育活动、教育问题,但都难言客观性,难以满足经典科学对研究对象的要求。首先,教育现象领域主要是意义和价值系统,属于生活世界的组成部分,而生活世界又是感性直观、不言而喻的前科学世界,它是与科学世界相区分的领域。因此,教育作为生活世界的现象无法成为经典科学探索的对象。其次,教育活动也不同于自然科学领域的物质运动,甚至不同于社会治理领域的社会活动,教育是社会的人文活动,也是人文的社会活动。相对于社会治理领域的社会活动,更人文的教育活动具有更弱的“规律性”。最后,教育问题是价值问题而非客观问题,因为教育活动从目的看是求善而非求真。教育问题充满知识、权力和利益的冲突,但解决方案是求善的,而不一定是真实客观的。因此,教育科学领域实在难以找到科学、客观的研究对象,除非将教育领域中的师生主体排除在外,寻找一种抽象的教育结构。当“教育研究约定的对象只是虚幻”时,教育科学研究如何前进?大数据方法则开辟了一条道路。在大数据方法中“既没有设定的目标,也没有设定的问题;既没有设定的条件,也没有设定的理论模型”。因此大数据方法不需要预设所谓研究对象,它只需拥有数据就足够了。大数据方法要做的事情,就是在大数据海洋的某些地方设置合适的观测点,“通过特定算法对大量的数据进行自动分析,揭示数据之间隐藏的关系、模式和趋势”。

(二)研究数据处理:从局部数据到全部数据

教育现象能否数量化、如何被数量化、数量化的解释力等一直受到质疑,成为教育研究科学化进程的阻力。经典的自然科学研究范式具有典型的“还原论”特点,而教育现象则拒斥还原论。大数据范式从一定程度上克服了该难题,毋宁说是一种更好的还原论。问题解决的进路是:经典科学研究范式中产生和运用的数据是有限性、封闭性、条件性、简化性、单一性的,因而通过该科学方法获得的教育数据只是理想的、局部的、片面的,难以有效揭示教育领域的混沌、复杂现象,而大数据的“4V”特征使它能够更好地揭示教育现象。首先,大数据的数据结构更复杂,它不限于学习数据,而是囊括了生活数据,这是教育科学研究发现更多、更真实教育联系的前提。另外,大数据是自然原始数据,它主要来自各种观测和记录,不经过研究者的修剪和加工。这种数据的采集可以是人为的,也可以是机器自动生成、记录的。人为的数据只是大数据的小部分,当它汇入了大数据的海洋之后,也是原始数据,也要被重新置于更复杂、更广的数据系统中得到检验和发掘。当越来越多的各类数据混杂在一起,数据的间隙就会弥合,教育现象世界的本来面目就有可能真实地被数据化显现出来。这也说明,领域内数据的成熟度是大数据方法发挥效用的前提。

(三)研究方法选择:从重复证明到概率说明

研究情景的可再现性、证据的可重复性是经典科学研究方法的要件之一。但在教育科学研究领域,研究情景往往不可再现、证据也难以重复。比如,要证明一个上补习班学生的学习效果,事实上很难采用严格的实证方法。因为无法让一个学生既去上辅导班又不去上辅导班,从而对两者的效果进行对比。那么,能够找一个没上辅导班的学生对比吗?严格说也是行不通的,因为两个儿童的生活环境不可能完全相同。同理,既无法让一个学生同时上两所高中,以确定哪一所高中更好,也无法让学生上两次同一所高中。

但在大数据方法中,不再追求当A出现时B是否一定作为A的逻辑结果出现,即A和B之间是否因果关联,也即A和B是否会反复伴随出现。而是记录A的类似事件和B的类似事件伴随出现的频率,比如,事件A出现时伴随着事件B;事件A’伴随着B’;A”伴随着B”;……;依此类推。其中,A、A’、A”为类似事件,B、B’、B”也是类似事件。大数据方法正是通过对每一样本(全样本)行为的记录,发现各种伴随事件出现的概率,进而发现关联。尽管事实上不可能真的全样本,但永远向全样本靠近,越靠近,结果就越可靠。总之,大数据方法不刻意追求逻辑因果关系,因此成功地将科学研究中的“重复证明”转化为“概率说明”。

(四)研究结论表达:从因果逻辑到数据相关

如上所述,追求逻辑因果关系是经典科学研究范式的主要旨趣。但事实上,逻辑因果关系一直受到科学哲学的质疑和挑战。波普尔认为,逻辑实证主义的“观察”环节渗透着观察者的种种主观偏见,而且从“有限的观察归纳出无限适用的结论,这种归纳过程是可疑的”。但波普尔本身主张的证伪主义,事实上从某种程度上挑战并抛弃了因果逻辑。当然,给因果关系造成最大冲击的当属休谟,他关于因果关系是“心理习惯”“恒常联系”和“必然性”的观点扭转了人们对因果联系的看法,因果联系并不是逻辑的,而是习惯的、恒常联系的、必然的。大数据方法能在一定意义上与这一新的因果观呼应:大数据基于概率论,不具有必然性,也不具有恒常联系的属性,它只是一种心理习惯意义上的定律,即休谟所谓心理习惯意义上的因果联系。在教育科学研究领域,一果多因、一因多果、多因多果等关系复杂交织,事物的运动变化就像一片飘落的羽毛,具有不确定性,加之教育属于意义价值系统的领域,教育规律更接近于人的文化心理习惯,大数据方法在这里恰恰能够发挥更好作用。

不过,上述心理习惯定律,能否进一步发展到恒常联系和必然性的逻辑定律?这一点学界意见并不统一。尽管W·皮奇通过对大数据的计算机算法进行考察,发现诸如决策树和贝叶斯算法中有消除归纳法等因果逻辑方法,并认为大数据方法可以探索因果性,但这只是计算机的算法个例,并不能说明全部问题。但可以肯定的是,大数据方法拓展了对因果关系的理解,更广义的因果关系可以囊括和解释更多的教育现象,并在一定条件下探索教育活动中的恒常性、必然性联系。

三、理性审慎:大数据推动教育科学研究的实践规范

总体看,大数据方法构建了有别于“小数据”方法的教育科学研究范式,但在超越中也存在着新的数据方法危机,需要加以甄别并恰当应对。

(一)大数据方法需其他研究方法补充

大数据方法的物质基础在于“一个布满传感器”的世界,可随时随地记录人类个体极其复杂和细微的行为,从而对任何触网的物体和个体实现数字化描述。技术的如此进步造就了新的数据功能论,即大数据的庞杂性、混沌性、跨界性使得大数据具有描述和揭示复杂社会现象的可能与潜力。但现代技术条件下的数据化过程仍存在一些问题。首先,尽管在数字化时代,世界可以看成是由连续数字构成的,但技术工具记录的数据仍然是“有限数据”,仍难以实现付诸对象的无缝数据化。其次,现代智能机器对人类个体的数字化描述主要基于“行为数据”而不是“思维数据”。人的思维涉及情绪、情感,涉及生活史、生命史,也涉及理性和非理性,变化莫测、难以捉摸,因此思维的彻底数据化仍存在极大困难。完全的数据化方法仍是以大数据为表现形式的“行为主义”科学方法。在教育研究中,学生的内部思维过程才是研究重点。对内部思维的研究也不是分析被现代人工智能借用的“形式化、数字化认知程序”,而是理解充满生命气息、人文气息的文化心理认知过程。在这方面,标榜超越人类智能的人工智能仍相形见绌,大数据尚不能记录并呈现人类个体昨夜的美梦,这说明教育研究作为人文的研究,不能仅靠数据化方法,教育研究仍需人文研究方法作为补充,并把它置于数据分析的基座之上,且使它成为整个数据分析过程的灵魂。最后,大数据方法与“小数据”方法应互相补充。数据的增加,意味着数据结构更复杂以及数据资源量的增加,但价值密度降低,这需要“小数据”方法来弥补。由此也可看出从“小数据”方法到大数据方法并非彻底的范式转换,还涉及范式融合。

(二)大数据方法应融入教育价值原则

与经典科学研究方法不同,大数据方法取得的结果并非必然的逻辑因果说明,而是关联性说明。因果性是事物之间明确的、确定的逻辑关联,代表着必然性;相关性则是事物之间非明确的联系,代表着盖然性。必然性,是教育活动中必须遵从的价值原则,因为“违背规律必然得到规律的惩罚”。盖然性说明的是概率性事件,包括大概率事件和小概率事件。大概率事件和小概率事件对教育活动来说具有同等重要的意义。大概率事件使得我们在教育活动中要面向大多数、面向一般问题、共性问题,小概率事件则使我们重视教育活动中的个别事件、偶发事件。而教育活动领域正是个别事件和偶发事件集中的场所。甚至在很多情况下,个别事件和偶发事件正是教育追求的东西,因为它们往往代表着学生发展的可能性。而大数据方法,从根本上看主要聚焦大概率事件,它反映的是数据的聚类、分类和趋势。“小数据”方法寻找的则是异常数据和小概率事件,如传统数理统计学中的P值正是追踪小概率事件的重要指标。因此,不妨说大数据方法能更好反映大数据的优势,因为在数据海洋里“小数据”往往被湮没。这也是由大数据的本质特点决定的,大数据由于其价值密度低,不可能筛查数据中的所有异常现象。因此,大数据方法对教育活动中的小概率事件及其价值并不够敏感。这说明,大数据方法在教育研究中的应用要重视两点:一是在研究设计中应当注重对“小数据”、异常数据的检测,另外是给予反映小概率事件的数据以足够重视。

(三)大数据方法需权衡具体适用情景

大数据并不是万能数据,大数据的数据来源、数据特征、数据功能决定了大数据有相对优势的使用领域。大数据的解释力和预测力还需要具体领域进行具体分析。一般认为,社会科学(包括教育科学)是具有低解释力和低可预测性的科学领域,从大数据本身的功能看,则具有低解释力和相对高的预测力。虽然“社会学很少做预测,即便预测了也很少成功”,但大数据还是可能帮助其提高预测力的。而大数据的低解释力则会加剧社会科学的低解释力。由于教育学相对其他社会科学具有更浓厚的人文性、更弱的规律性,因此大数据对教育现象的解释力进一步降低。不过,大数据方法在教育科学领域内部的适用性可以进一步细分。其一,从宏观教育现象与微观教育现象的对比看,大数据显然对宏观问题具有更好的解释力和预测力,这是由大数据之大形成的“宏观视野”决定的。比如,国家根据地方的经济数据对各地进行动态教育财政拨款。但运用国家宏观数据指导具体教学则不合理。其二,围绕微观个体的大数据仍远远没有形成,说明大数据在微观教学领域有比较低的解释力和预测力。其三,大数据在教育理论、教育实践、教育评价等领域的解释力和功用也有差异。大数据在教育评价领域的解释力好于教学实践领域,因为评价本身就是数据化过程,而在实践领域的应用效果则好于理论研究领域,因为教育实践领域是关系复杂的混沌领域,契合大数据的特点,而大数据分析没有确定的理论模型,也不指向理论因果,说明其理论性较弱。最后,大数据对外生性因素的解释力好于内生性因素。由于大数据善于对学生行为进行记录,因此,大数据分析学生学习外生性因素的效果要好于内生性因素。

(四)大数据方法应考量相关数据积累

大数据方法应用不能只从理想视角分析,而应对理想大数据和现实大数据进行区分,以免造成认识上和实践上的混乱。其一,从理想大数据看,大数据基于对世界万物的感知和记录。在技术基础上,可穿戴设备等传感器无处不在,世界的每个角落、物的样态和人的一举一动都在智慧网络的观测记录之内,数据在信息公路上自由流通。然而,大数据的现实是:传感器没有无所不在,智慧网络远未无孔不入,大数据仍是一张稀疏的数据网络。大数据只是相对的大数据、局部的大数据。另外,大数据方法产生于商业领域,在商业领域应用广泛,在教育领域发展滞后。其二,从大数据的挖掘和分析看,大数据的算法有限,诸如贝叶斯算法和决策树等有限种类。很难想象大数据无限的可能会被有限的算法捕捉到。因此,舍恩伯格和克里斯·安德森所宣称的“相关关系代替因果关系”的豪言壮语仍然缺乏物质技术基础。其三,数据伦理问题,包括数据隐私、数据开放、数据共享等。由于种种人为的、技术的和伦理的障碍,数据没有汇聚成大数据的海洋,而是被分割成了无数的数据湖泊,许多关于大数据方法的理想功用仍无法实现。因此,着眼于教育科学研究的发展,应重视教育领域内的大数据库建设,开发针对教育科学研究和教育活动监测的数据搜集处理软件。同时,尽量消除教育领域内各部门之间的数据壁垒,并通过合适的方式与学校外部数据实现对接。在方法论上,把领域内大数据的成熟度作为大数据方法应用及对其结果进行解释的重要依据。

本文来源于《中国教育学刊》2018年第七期,图片来源于网络,仅作分享交流用。著作权归原作者所有,若转载请注明出处。

《中国教育学刊》正刊刊载之全部论文,从不收取任何版面费,有言称收费者,必为假冒,请广大作者仔细甄别,谨慎投稿。

坚持理论创新 彰显实践引领

发扬学术民主 萃取科研精华

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180810B1SLS700?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券