数据与算法的应用,扩张了人的能力,但也带来很多新问题与新风险。
客观性数据可能成为后真相的另一种推手,因为数据生产环节的偏差可能导致客观性数据堆积成的假象,数据分析也可能成为客观事物的干扰因素。个性化算法虽然带来了个人信息服务水平的提升,但也可能在几个方面将人们围困:
一是信息茧房的围困;
二是算法中的偏见或歧视对人们社会资源与位置的限制;
三是算法在幸福的名义下对人们的无形操纵。
数据时代个体面临的另一个风险,是相关权利保护受到更多挑战,特别是在隐私权和被遗忘权方面。要对抗这些风险,需要完善数据方面的基础建设,包括数据素养的培养、数据的“基础设施”建设、数据质量评估体系以及信息伦理规范的建立等。本期全媒派(ID:quanmeipai)带来清华大学新闻与传播学院彭兰教授的新作,深度剖析数据时代的新风险。
近年,我们似乎进入了一个数据的大跃进时代,技术不断赋予我们新的想象力与探索能力,也打开了一些过去人的感官不能达及的新领域,基于数据的各类算法也开始在我们身边流行。但是,在这种大跃进中,又埋伏着很多新风险。对数据与算法的风险的理性分析与判断,可以帮助我们认识新技术可能带来的新陷阱。
“客观性”数据:“后真相”的另一种推手?
“后真相(Post-truth)”这个词在近年进入中国研究者的视野,很大程度上缘于它被《牛津词典》选为2016年度词汇。在这个词里的“post”表示的是“超越”,也就是“真相”不再那么重要。根据《牛津词典》的解释,后真相意味着,“客观事实的陈述,往往不及诉诸情感和煽动信仰更容易影响民意”。
尽管《牛津词典》在解释后真相一词时强调的是情绪等对客观事实的“超越”,但后真相成为一个显性的问题,还与2016年一些民意调查机构对美国大选等结果预测的失灵有关。因此,正如哲学研究者蓝江所指出的,后真相时代是因为原来支撑真相的两大基础都崩溃了,即作为普世性的理性原则(以及与之相伴随的演绎推理逻辑,甚至连哈贝马斯所提倡的协商和交往理性也一并被质疑),以及作为经验性数据收集、统计、分析的客观性结论。
后真相现象提醒我们,数据与算法这些看上去客观的手段与方法,并不一定能带来更多真相,反而可能走向它的方面。
为什么客观性数据也可能带来假象?
数据往往被当作描述客观事物、揭示真相的一种手段,但是,数据应用本身有一整套的规范,如果不遵循这些规范,或者在数据应用中出现了漏洞而未能察觉,未来我们或许会被更多由貌似客观的数据堆积成的假象所包围。从数据生产的角度看,每一个相关的步骤,都可能存在着导致假象的因素。
1. 数据样本偏差带来的“以偏概全”
尽管已经进入到“大数据”时代,而大数据的卖点之一是“全样本”,但事实上,在现实中,获得“全样本”并不是一件容易的事。
今天的数据,特别是互联网数据,被少数平台垄断,出于利益保护等因素考虑,平台通常并不愿意将数据完全公开。他人从这些平台“扒”数据时,会受到技术能力和权限等限制,这可能一定程度上影响到数据的完整性。平台本身,也可能因为各种原因,未必能保留全样本数据,例如,在社交平台,删贴必然会导致相关内容的不完整。
大数据分析也常常要依赖行业性数据,但在中国,由于历史性的原因,很多行业本身就缺乏完整、系统的数据积累,能提供的,常常也是残缺的数据。即使是传统的小样本分析,样本的规模和代表性等方面的质量也越来越令人担忧。
尽管今天人文社会科学都在强调问卷调查等经验性数据分析方法,今天的本科和研究生也受到了一定的方法训练,但是,在实际操作中,充斥着不规范、不严谨的现象,特别是在抽样方面。武汉大学学生会在农民工研究中问卷调查的造假事件,也许不是孤立的个案。客观的障碍是,今天的公众已经厌倦了各种问卷调查,对问卷调查的抵触、不配合或游戏心态,都会影响到问卷调查的开展。
因此,无论是全样本数据,还是行业数据,或是传统抽样方法下的小数据等,都可能存在样本不完整的问题,这也必然对数据分析结果的完整性、代表性产生影响。
2. “脏数据”带来的污染
除了样本的问题外,用各种方式获取的数据,本身质量也可能存在问题。部分缺失的数据、重复的数据、失效的数据、造假的数据等,都被称为“脏数据”。尽管数据处理前都会要求数据清洗,但这未必能完全消除脏数据带来的污染。某些数据分析者也可能因为一些原因而无视脏数据的存在,甚至会制造一些脏数据、假数据。
3. 数据分析模型偏差带来的方向性错误
完整、可用的数据只是数据分析的前提,要利用数据来准确描述或解释客观现象,还需要有科学、合理的分析模型。但是一些基于数据的实证分析,有可能建立的模型本身是有偏差的,有些数据应用者,甚至是为了得到自己希望的结果而在分析模型的设计中进行人为的“扭曲”,这些都必然导致结果的偏差。
3. 数据挖掘能力有限带来的“浅尝辄止”
数据量愈大、数据种类愈丰富、数据应用目标愈多元,也就意味着对数据挖掘能力的要求愈高,然而当各种力量都在快马加鞭地涌入到数据应用领域,争做各类数据产品时,却未必都拥有相应的数据挖掘能力。特别是在媒体行业,以往数据应用传统的缺乏、技术能力的不足,都会限制其数据挖掘能力,然而外界压力却又在迫使媒体力不从心地走向数据化,因此,数据应用多流于表层,其中的漏洞也越来越多。作为“拟态环境”的构建方式,媒体生产的过于简单的、浅层的数据,也可能会误导人们对现实社会的认识。
5.数据解读的偏差
数据解读能力,是数据利用能力的另一个重要层面。而没有良好的数据方面的训练,对数据的解读可能会出现主观随意、简单化等种种问题,例如,将数据的相关关系过度解读为因果关系,是实践中常见的问题之一。数据解读往往也是横向或纵向比较中完成的,如果缺乏参照信息,或比较性数据出现了问题,解读自然也容易产生偏差。
数据描述与分析偏差,不仅会给我们对环境的认识带来误导,更大的风险是,它们可能带来的决策偏差。在大数据或其他数据分析方法越来越多地用于公共决策和个人决策的指导时,这种风险将日益增加。
这些数据的误用、滥用,一方面是因为数据应用能力的不足,另一方面则是数据应用者的价值导向和利益驱动的问题。一些数据分析的出发点,本来就不是要获得对真相的完整认知,而是为了制造符合自己需要的“真相”或结果。错误导向或利益驱动的数据滥用,成为“后真相”现象更大的背景。
数据会成为客观性的另一种干扰因素吗?
2016年美国总统大选,多家民调机构的预测结果的失败,让人们质疑数据的客观性与准确性。而时隔两年之后曝出的Facebook数据门事件,在某种意义上是对民调结果失灵的一个回应,从中或许可以探究当时民调结果失灵的部分原因,尽管我们并不能确定“牛津分析”对大选结果的干预究竟是否起了作用,或是起了多大作用。
这一事件还有着更深层的寓意,它提醒我们面临的一个新挑战:一方面,数据分析的目标是追求客观地描述事物;另一方面,数据分析也可能会成为对客观事物或客观进程的干预力量。而可以预见的是,未来两者之间的博弈可能会更成常态。
大数据的应用方向之一,就是对事物的发展趋势做出判断,从而尽早对风险进行预警,对危险进程进行干预。但实践中,对现实进行干预的边界应该在哪?对大选投票进行干预,是否属于合理的大数据应用?2012年奥巴马在美国大选中获胜,一些研究者对其中的大数据应用津津乐道,而2016年特朗普在大选中胜出后,一些媒体开始对数据分析机构对选民态度的干预进行调查,Facebook数据门事件披露后,研究者似乎更多地对“牛津分析”的做法持批评态度。这或许与人们对特朗普的态度相关,但从另一个角度看,这也表明,大数据应用进入深层后,人们对它的影响及应用伦理的认识也在深入。
“牛津分析”等机构之所以能用数据分析影响人们的态度与立场,甚至影响人们对客观世界的认识,是因为他们可以通过数据分析判断不同人群的心理定位,以此为前提来定向推送信息,对人们感知到的信息环境进行控制,用有偏向的信息来影响人们的态度。
哲学学者刘擎指出:
“后真相问题有其深刻的理论背景,最为相关的哲学渊源是一个多世纪前,尼采对事实真相客观性的挑战。尼采曾在《超善恶》的序言中写道:‘视角(perspective)是所有生活的基本条件。’而在其遗稿‘札记(Nachlass)’中,他留下了著名断言:‘没有事实,只有阐释。’这个被哲学界称为‘视角主义(perspectivism)’的观点是尼采哲学的核心思想之一,也为今天的后真相时代埋下了伏笔。”
他还认为:
“视角主义与后真相问题还具有一个重要的关联线索,可称之为‘视角制造事实’的思路。……如果所谓‘事实’就是满足了‘恰当证据’的事务,而恰当证据的标准又是视角所创立的,那么‘没有独立于视角的真实世界’意味着,‘事实’在一定意义上是视角所制造的。”
今天的某些大数据分析,在某种意义就是在分析甚至“制造”人们的“视角”,然后将符合视角的“事实”推送给他们,虽然推送的“事实”似乎是客观的,但是,当它们被放置在人们的“视角”下时,就成为了影响主观判断和态度的重要手段。
对于后真相问题的破解,刘擎认为,真相的“客观性”依赖于“共同视角”,澳洲学者约翰·基恩也指出,最终关于真相的认同还是取决于人们的共识(agreement)和信任(trust)。这些看法似乎也是多数学者在“后真相”问题上的共识。
因此,从解决“后真相”危机的角度看,今天我们更需要用数据分析来寻找人们的“共同视角”或“共识”。然而,在各种主体都在努力地寻求用数据分析和算法的力量来制造符合自己需要的信息环境和意见格局时,当数据和算法成为一种权力博弈的武器时,共识的发现与形成,必然困难重重。
算法下的个体:数据时代的“囚徒”?
从个体角度看,目前数据应用与他们最直接的关联,是各种个性化算法。通过对与个体相关的数据的分析,来提供与之适配的内容或服务,在今天已经成为普遍现实。
早在上个世纪90年代,美国学者尼葛洛庞帝就在他的《数字化生存》一书里预言了数字化时代个性化服务的可能,并将之命名为“我的日报”(The Daily Me)。 但由于技术的限制,直到近几年,基于算法的个性化服务才变成现实,其中,算法推送新闻更成为一个关注焦点。对于个性化算法的讨论也愈加多元。
算法是否会将人们囚禁在信息茧房中?
个性化信息服务的出现,是信息过载时代的一个必然结果,也是尊重与满足个体的信息权利的一种新手段。但在这一应用走向深层时,对它的争论也越发激烈。
今天伴随着个性化算法的一个常见话题是“信息茧房”。来自于美国学者桑斯坦的这个词,形象地描述了过去传播学研究中提出的“选择性心理”及其结果,在他看来,信息茧房意味着人们只听他们选择和愉悦他们的东西。
研究者对于“信息茧房”也存在一些争议,有人将信息茧房视为算法的原罪之一,有人则认为信息茧房与算法无关。两种判断可能都有些极端。
尽管人的选择性心理从来就存在,传统媒体时代它也会以各种形式存在,社会化媒体也在以社交圈的方式在强化人们的选择,但目前的个性化推荐算法的确在一定程度上会以正反馈形式强化这种心理。桑斯坦提到信息茧房时,重点提到了尼葛洛庞帝所说的“我的日报”,这也意味着,他对“信息茧房”的担忧,更多地是因为个性化信息服务的兴起。
既然是一直就有的一种心理现象,信息茧房是否不足虑?
每个人都有自己的阅读偏好,这自然是正常的现象,但如果每个人关注的只是自己兴趣内的那一小片天地,他对这以外的世界,会越来越缺乏了解,这或许不会影响到他个人的生活,但是,在需要公共对话的时候,人们会缺乏共同的“视角”,而如前文所述,共同“视角”的缺乏,意味着人们对一些事实的判断会出现差异,共识难以形成。同时,信息环境的封闭与狭隘,也可能会进一步固化人们的某些观点与立场。
桑斯坦认为,如果公司建立了信息茧房,就不可能兴隆,因为其自己的决定不会受到内部的充分的挑战。如果政治组织的成员——或国家领导人——生活在茧房里,他们就不可能考虑周全,因为他们自己的先入之见将逐渐根深蒂固。……对于私人和公共机构而言,茧房可以变成可怕的梦魇。尽管桑斯坦提出信息茧房是在协商民主的语境下,但是,信息茧房的影响未必只局限于这一领域。
从人的社会归属需要角度看,公共交流与公共议程也是必要的。公共议程是连结社会不同阶层、不同群体的纽带。从议程设置理论发展出来的议程融合(Agenda Melding)理论,也从深层说明了公共议程对于社会整合的意义,麦库姆斯和唐纳德·肖认为,媒体设置的议程之所以能作用于公众,是因为它们具有聚集社会群体的功能,而这是源于人们都有一种对于“群体的归属感”的需要。
唐纳德·肖还曾提出过“水平媒体”(Horizontal Media)和“垂直媒体”(Vertical Media)这两个概念,他认为水平媒体是某些小众的媒体,而垂直媒体是大众化的媒体。在唐纳德·肖看来,水平媒体与垂直媒体的交织,可以创造一个稳定的“纸草社会”(Papyrus Society)。这从另外一个角度说明了保持个性化信息满足与公共整合之间平衡的意义。
以往的研究都指出,大众媒体的基本功能之一是社会整合,这种整合是以公共信息的覆盖为前提的。今天的大众传播机制在发生变化,基于人际网络和算法的内容分发,正在成为大众传播的新基础,但是,传播的社会整合功能不应该因此而消失,能将各种人群整合起来的公共信息和公共议程仍需要到达最广泛的人群。对个性化算法可能带来的“信息茧房”问题,我们的确应该有所警觉。但另一方面,我们也需要意识到,如果运用得当,算法也可能成为刺破信息茧房的一种武器。
从面向个人的算法角度看,要尽可能减少信息茧房效应,就要在算法设计时深入理解与考虑用户行为与需求中那些摇摆着的矛盾,例如:
“凝固”与“流动”——用户在某个时段阅读偏好会有稳定性,但时间推移,兴趣也可能会发生转移,及时预测用户需求的迁移或扩展,这是提高算法精准度的一个重要方向,也是突破茧房的一种思路。
“套路”与“奇遇”——在迎合个体的阅读“套路”的同时,算法也需要提供一些惯性之外的信息,给个体带来更多“奇遇”,让个体看到更广阔的世界。
“悦耳”与“刺耳”——算法总希望顺应用户的心理,为他们提供“悦耳”的声音,但某些时候,它也需要提供一些刺耳的声音,让用户了解真实世界的多面性。
除了以算法来完成面向个体的内容推荐,算法也可以用于公共性内容的匹配,也就是通过算法洞察公众的共同心理,使具有公共价值的内容到达更广的人群,也同样可能帮助个体挣脱茧房的束缚。
算法是否会将人们囚禁在偏见与固有的社会结构中?
算法的另一种风险,是对社会偏见的继承,以及这些偏见可能带来的文化或社会禁锢。
2016 年,上海交通大学的研究者发表的论文《基于面部图像的自动犯罪概率推断》引起了争议。2017年,斯坦福大学一个研究团队发表了标题为《通过面部图像分析深度神经网络比人类更精准判断性取向》(Deep neural networks are more accurate than humans at detecting sexual orientation from facial images)的论文,称对男同性恋识别的准确率高达 81%,对女性的性取向判别的准确率为 74%,这一研究同样带来了巨大争论。
这些算法之所以引发争议,不仅是算法的准确度的问题,更是因为它让人们感受到一种危险的倾向,即这些算法用于不当的目的时,会对某些人群或个体形成歧视与伤害。
这些极端个案中的歧视或许还容易识别,另外一些偏见却未必是人们自知的,但算法会在不知不觉中将它们继承。有研究者指出:
“数据,在本质上,是人类观察世界的表征形式。不论是过去的小数据,还是现在的大数据,研究数据,在某种程度上,其实在本质上都是在研究人本身……人类文化是存在偏见的,作为与人类社会同构的大数据,也必然包含着根深蒂固的偏见。而大数据算法仅仅是把这种歧视文化归纳出来而已。”
算法不仅在归纳与“同构”现有文化中的偏见、歧视,还可能用某种方式将它们放大,这一点,一些大数据的开发者体会更深,如国内大数据应用领域的代表性学者周涛所言,“让我们不安的是,这种因为系统设计人员带来的初始偏见,有可能随着数据的积累和算法的运转慢慢强化放大。”
除了偏见、歧视外,算法还可能会在一定程度上固化社会原有的结构,限制个体或资源在结构框架之外的流动。
今天算法已经开始被用于一些组织机构、企业和个体的决策,这种决策常常建立在对某些对象的数据分析与评估基础上。当算法可以精准地评估每一个对象,计算出与该对象相关的行动的代价与报偿,一个可能的结果是,有些对象将因为算法评估的不合格,而失去获得新资源的机会,例如获得投资、贷款、工作机会等。对于决策者,这似乎可以让他们减少自身的风险,但对于被评估、被决策的对象来说,这或许是不公平的。
对于个体,这意味着,数据和算法的偏见,有可能会把他们进一步困在原有的社会结构里。以往的年代靠人们的努力还时有奇迹出现,而今天在数据的监测和算法的评估下,人们的身份、地位和行为都被数据与算法打下烙印,这使得他们只能被圈定在与自己条件相吻合的社会位置和职业角色里。底层向上流动的机会愈加减少,而那些具有优良条件的个体,则会不断获得新的机会与资源。因此,算法或许会在某些方面导致社会资源分配的“马太效应”被进一步放大。
当然,就像“信息茧房”方面的讨论一样,未来的算法也应该致力于纠正而不是强化社会偏见。但这必须靠有效的制度而非数据开发者或使用者的自觉。
算法是否会使人们陷入“幸福地被操纵”?
或许,个性化算法还会带来另一个深层风险,那就是在个性化服务的“伺奉”下,个体逐渐失去自己的自主判断与选择能力,越来越多地被算法或机器控制。
从人的本性来说,懒惰是天然的,想以最小的成本或付出获得最大的报偿,也是人之常情,个性化服务在这方面迎合了人性,但是,它也可能正在以方便、幸福的名义,渐渐地使人们对它产生依赖,并在不知不觉中被其麻痹,被其囚禁。
尼尔·波兹曼在《娱乐至死》一书前言中提到了《1984》和《美丽新世界》暗喻的两种警告。
“奥威尔警告人们将会受到外来压迫的奴役,而赫胥尼则认为,人们失去自由、成功和历史并不是老大哥之过,在他看来,人们会渐渐爱上压迫,崇拜那些使他们丧失思考能力的工业技术”。
波兹曼警告的两种方向,正好指向福柯的研究中重点关注的两种技术:权力技术与自我技术。
福柯认为,权力技术决定个体的行为,并使他们屈从于某种特定的目的或支配权,也就是使主体客体化;自我技术则使个体能够通过自己的力量或者他人的帮助,进行一系列对自身身体及灵魂、思想、行为、存在方式的操控,以此达成自我的转变,以求获得某种“幸福、纯洁、智慧、完美或不朽的状态”。
早期的福柯将研究重心放在权力技术及其规训方面,而后期他开始更多地关注古希腊时期自我技术的应用。研究者指出,福柯眼中古希腊的自我技术的应用,是一种自由的践行,人们对自己的欲望的控制是自主的,在这种自我控制中,人们获得了自由:对欲望和快感的自由,自我没有成为欲望和快感的奴隶,相反成为了它们的主人。
但是,在拥有了种类繁多、力量强大的自我技术的今天,自我技术似乎并没有推动人实现对自我的灵魂、思想、行为、存在方式的操控,也未必帮助人们获得了“自我控制的自由”,反而在某种意义上,与权力技术纠结在一起,共同实现了对个体的规训。算法看上去是为个体提供人性化服务的,但是它其实是对个体进行控制的另一种手段,在它背后,“老大哥”那只时时盯着人们的眼睛在忽明忽暗的闪现。波兹曼警告的两种力量正在“合体”,一直看着“你”的“老大哥”,也可能正是将“你”带向“幸福沉迷”的工业技术。
斯拉沃热·齐泽克在Facebook数据门后发文指出,近年一些大数据的研究,是想帮助积极心理学家找到一种方法,把我们向他们所理解的“真正的幸福”方向“轻推”一把,包括快速恢复的能力和乐观情绪。……不仅是我们被控制和操纵,而且是“幸福”的人们隐秘而虚伪地要求以“为他们好”的名义被操纵。真相和幸福不能共存。真相是疼痛的;它带来不稳定;它破坏了我们日常生活的平稳流动。选择在我们自己手里:我们想要被幸福地操纵,还是让自己暴露在真正的创造力的风险中?
或许多数人今天并没有意识到将被幸福地操纵这样一种风险,或许有些人即使意识到这种风险仍然不能自拔。这是否是算法时代一个更大的“圈套”?人类是否有可能从这样一个圈套中逃离?也许答案还需要我们在未来去寻找。
(未完待续)
本文首发于〈西北师大学报(社会科学版)〉2018年第5期,转自公众号全媒派
领取专属 10元无门槛券
私享最新 技术干货