深度 | 美国大选 Facebook 误导公众?智能时代,推荐算法主导群体意识

作者:胡祥杰,刘小芹

Facebook 将一则美国大选的假新闻置顶,引发热议。在批判 Facebook 的喧嚣之中,很少有人看清,问题的本质并非 Facebook 传播了假新闻,而是 Facebook 的算法出了问题。算法设计的本质不是消除错误,而是对错误有耐受力。在信息传播愈发受算法左右的现在,只有不断设计更好的算法,才能获得更好的“媒体”——不过,算法的标准,取决于公司在商业模式和用户体验之间作何选择。

11月9日,美国大选结果出炉: 共和党候选人唐纳德•特朗普(Donald Trump)拿下威斯康星州的10张选举人票(electoral vote),确定比民主党候选人希拉里•克林顿(Hilary Clinton)早一步拿到胜选所需的270张选举人票,赢得2016年美国总统大选。

根据FT中文网的报道, 在实际票数(popular vote)上,本届美国大选却是另一个样貌:截至北京时间11日晚上6点,希拉里实际上比特朗普多拿到63.8万张绝对投票。 这场从一开始就无比喧闹的选举大戏并没有随着特朗普的胜出而宣告结束。错愕的美国人开始追问为什么?其中一个矛头指向令人意外地指向了近年来风光无限的科技公司——Facebook。

媒体、意见领袖和民众纷纷发声,认为 Facebook 提供了假新闻,对人们形成误导,影响了大选。

Business Insider 报道称,Facebook和它的新闻流算法经过训练,会尝试向你展示你爱看的内容。但它不区分事实和虚构。也就是所谓的“过滤泡”(Filter Bubber),这是Eli Pariser在他2011年的畅销书《过滤泡:互联网对你隐藏了什么》中创造的一个短语。

简单说来,过滤泡指的是,信息提供公司会通过算法来为用户推荐相关信息,如果一些人分享了与你的世界观相符的新闻,算法会自动将这些信息推送给你,即使这些新闻完全是错误的或者说是虚假的。

Business Insider 提供的Twitter 截图:人们质疑Facebook带有偏见,盈藏事实。也有人说,Facebook和Twitter对自己的影响甚至已经超过了传统媒体《纽约时报》、《新闻周刊》等等。

皮尤的一项最新调查显示,大多数美国成年人(63%)都会把 Facebook 作为新闻和社会议题的源,而不仅仅是和家人朋友共享生活动态。而2016年11月2日,Facebook发布的财报显示,截至今年9月,Facebook在全网的日均活跃用户已达11.8亿, 移动设备日均活跃用户约11亿。

矛头不应指向 Facebook,而是 Facebook 的算法

记者Jessica Lessin 在 The Information 上的评论是:

从记者到朋友,我听到许多人都在说,Facebook在进行干预,他们应该承担责任,确保大众及时准确地得到信息,并且得到平衡的观点……Facebook 推荐值得信赖的信息,这一点很好。对此,我感到深深的担忧。有谁会不支持让Facebook承担责任并过滤掉错误的信息呢?但是,对于Facebook来说,从“坏”的信息中挑选出“好”的信息将会把公司置于一个本不属于他们的位置——Facebook必须要决定什么才是“事实”,这一过程似乎很客观,但是,对社会来说,却可能是有害的。

Vox 的记者Timothy B. Lee 写道:

这里面有一个很大的问题,那就是Facebook在处理编辑的功能的方法。在传统的新闻机构中,有经验的编辑扮演着重要的角色。恰恰相反,Facebook 把本来为数不多的编辑工作委托给了一些没有经验的员工。截止今年年初,Facebook一共聘请了15至18名独立的合同工(Contractor),由他们负责制作Facebook新闻流上的头条内容。

很快,有人控诉Facebook的这些职工压制带有争议的新闻。Facebook 犹如惊弓之鸟,立马解雇了这些年轻的编辑,采用人工智能算法来自动地生成新闻流。但是这种方法也并没有取得很好的效果,假新闻依然层出不穷。

问题并不出在Facebook 过去曾经聘用人类编辑来评估新闻和写标题。问题是,Facebook的领导层并没有把这一业务看成是Facebook运营体系中的一个重要部分。如果Facebook有一名富有经验的、资深的编辑团队负责,他们就能做很多事,来引导用户走向高质量的、深度的新闻报道,远离肤浅的、哗众取宠的甚至是不准确的新闻。

Jessica 说:

……在它自己创造或者激起的问题上,我们是不该放过Facebook,但是,我们也不能要求Facebook对每件事都负责。我们都亲眼见到,互联网的诞生让人的自由表达成本降到了零,正如Sam经常说的那样。这是一个不可逆转的趋势,没有任何一家公司可以阻止,我们中也没有任何人希望他们这么做。但是,现在显然存在“第二种道路”,也就是Facebook 长久以来一直在努力的,但很难实现的道路。

但是,O‘reilly 创始人Tim O‘reilly 认为,以上的评论中,存在一个根本的错误,那便是:认为Facebook 应该用人类编辑来协助算法,共同对出现在网站上的新闻和信息真实性进行判断。

Tim O‘reilly说,Facebook 很早之前就越线了。在他们开始加入新闻流而不是简单地根据时间线来推送消息的时候就已经是这样。 他们把自己置于一个中间人的位置,可以决定人们可以看到什么。他们变成了一个守门人、一个指导员。这不是一个本不属于他们的位置。而他们把这些事变成了自己的工作。那么,理所当然的,他们的首要任务就是要把自己变得擅长做这份工作。

但是,那些强烈地认为把好的信息从坏的信息中挑选出来是Facebook不可推卸的责任的人,他们也错了。Lee 说得对,编制新闻流不应该成为新人编辑或者独立合同工的工作。但他的错在于,认为这个工作应该交由“一个有经验的、资深的编辑团队”来完成。

这应该是 Facebook 最强的算法才能完成工作。

Lee 的评论中还有一点也说错了,他认为问题在于Facebook没有聘请了人类编辑来评估新闻写标题。但是问题恰恰出在这个地方。

正如GPS把司机导向了一座已经不存在的桥,Jessica Lessin 和 Timothy Lee 的所沿用的思路都是旧式的地图。在那幅旧地图上,算法由人类来监督,在具体的例子中,人类会对算法进行干预,为算法的错误作出补救。

算法不可能完美,但谷歌一直在努力

谷歌一直以来都用行动证明了你可以在不阻碍言论自由的前提下,引导人们找到更好的搜索结果。和Facebook 一样,谷歌每天也必须在成千上万条信息中做选择,决定哪一些可以出现在网站顶部。最初,谷歌的法则是,每次的点击都是一次投票,那些来自声誉良好的源头、存在较长时间的链接,要比其他的权重高。这就是最开始谷歌对网站进行区分的工具。但是,经过多年的发展,谷歌如果没有开发出上千个,至少也有几百个衡量标准,用于决定哪一个网站的价值最大。

20年来,谷歌一直坚持不懈地开发一个算法串,建立起内容的消防带,这些内容任何人都能创造,并且,交由算法来决定哪些网站胜出哪些失败。

有一点很关键:他们并不会对网页的内容进行评价。真正的标准是来自元数据,而不是数据。

谷歌教给我们的是,提升算法,以获得更好的搜索结果,这是一场持久战,因为一直会有人会尝试挑战系统。同时,谷歌还教会我们,正确的做法是不要制造人为的干预,删除具体的结果。

谷歌和Facebook都在不断地开发和测试新的算法。是的,他们会加入人的判断。但是,人为判断只能附加在系统的设计上,而不是具体的结果。设计一个高效的搜索或者新闻流算法与设计飞机很像,其目的是让飞机起飞,或者飞得更快,而不是决定飞机该飞往哪儿。

提高网站上文章的“真实性”并不像这一议题正反两方评论者所认为的那样,取决于人为的干预,删除坏的结果,而是在于发现新的衡量标准,让好的结果自动浮出表面。

2011年, 由于搜索结果充斥着虚假网站,当时也有一些文章唱衰谷歌,其中有一篇写“谷歌在与 spammer 的战争中已经失败”。和今天的Facebook一样,当时谷歌已经在全力平复这些担忧,但是公众的反馈促使谷歌在处理这一问题上下大力气,全然不考虑这么做对公司的财政的影响。

谷歌反网页垃圾技术团队的前主管 Matt Cutts在给O‘reilly的回信中说:对于谷歌来说,“内容工厂” 和低质量的网站不断增多,对于用户是否信任谷歌搜索的结果是一个很大的威胁。当外部的评论者开始反映我们内部的讨论和担忧,我们确实应该警惕了。Panda 算法就是谷歌的回应,它寻求回馈高质量的网址,鼓励健康的网站和生态系统。我个人的观点是, Panda 算法和 Facebook 正在经历的事情具有极大的相似性。看起来Facebook的标准是希望连接更多的人,提高参与度。但是,这一标准带来了一些无法避免的东西,参与的黑暗面就是会产生阴暗的故事、恶作剧和错误的信息,或是分级化。

有了 Panda 算法之后,谷歌损失了一些合作伙伴,在收入上受到了打击,在财报上,谷歌确实需要考虑 Panda 的实际影响。

但我相信,发布 Panda 算法对谷歌来说是一个正确的决定,不管是对于用户的长期信任还是内容发布者的良好生态都是如此。Facebook 的公司性质与谷歌虽然不一样,但是我也很希望看到他们如何处理这些最新的问题。

更好的算法才能带来更好的媒体

问题是,如何决定什么才是“好”的结果。

在造飞机的例子中,其目标非常简单——保持脱离地面,飞得更快、使用更少的燃料,可以根据预期结果,不断地进行测试,改变设计。这与搜索的问题有很多类似地方,找到最好的价格、或者最有权威的信息源,或者是某个文件。当用户能正确地找到自己想要的东西,他们的满意度会提升,一般来说,广告商也会很满意。在搜索中,用户寻找答案进而用于指导生活的愿望与“给他们最好的结果”这一目标是一致的,不巧的是,Facebook的首要目的是增加用户的粘性,这可能正是引导他们走上错误的道路的东西。对Facebbook财政收入最好的东西,可能对用户来说并不是最好的。

即使是在实体的系统当中,比如空气动力学和飞航工程,也存在一些潜在的假设,需要被测试和并修正。在航空行业中,有一个著名的例子,决定了整个行业的未来——对如何处理金属疲劳。这一难题的理解曾经经历了颠覆性的变革,这正是行业所需的。正如德克萨斯大学的教授Michael Marder所说的那样:

历史上,英国本来会统治喷气机时代。1952年,哈维兰彗星型客机(de Havillands Comet)开始商业化服务,将伦敦与英国最边远的地方连接起来。当时英国的喷气式飞机比任何竞争对手都要领先好几年,样式华丽,并且为飞行的舒适度和安静度制定了新的标准。然后,灾难发生了。1953年,一架彗星型客机坠毁,原因是天气恶劣以及飞行员操作失误...1954年,又一架彗星型客机在罗马附近坠毁,这次天气晴朗。

机队停运了两个月来检修飞机。然后公司在发表一份声明后继续运作,声明称:“虽然尚未发现事故的确切原因,但我们已经把所有可能导致事故的因素都考虑过,都作了改进。这些改进完成后,我们也进行了令人满意的飞行测试。委员会认为没有理由继续停运乘客服务。”这份声明过后仅仅四天,第三架哈维兰彗星型客机在那不勒斯附近的晴空下坠入海中,机队再次陷入无限期停飞。

彗星型客机的空难报告于1955年发布,当时在美国西北部,一个鲜为人知的军事承包商的民用喷气飞机的原型已经接近完成,它就是美国波音公司。波音过去在民用飞机方面没有什么成功的经验,该公司知道金属疲劳导致的机身破裂是彗星型客机坠毁的主要原因,并且在他们的波音707发生首次坠毁前更全面地理解了这个问题。波音来了一位暑期机械工程研究员 Paul Paris,当时他刚硕士毕业在申请 Lehigh 大学的研究生。Paris 发现波音707机身破裂的视图与彗星型客机的非常不一样。这些裂缝是调查的核心,它们无处不在,遍布机身结构的所有角落,小得几乎看不见,但无法消除。客机设计的结构无法完美,它本身必然存在缺陷,而工程设计的目标不是证明机身完全不会出现裂缝,而是去容忍裂缝的存在。

算法设计的本质不是消除所有错误,而是即使在面对错误时也要保持结果的鲁棒性。哈维兰试图设计一架其材料之强韧能够抵抗所有裂缝和金属疲劳的飞机,结果只是徒劳;波音公司意识到正确的方法是在工程设计中允许有裂缝,但要保证裂缝的增殖不会导致灾难性的事故。这也是 Facebook 面临的挑战。

Facebook 对 Timothy Lee 的回应显示他们已经理解他们面临的挑战:

我们重视真实的交流,并始终倾听 Facebook 用户的意见,他们不喜欢看到错误的信息。在新闻流中我们使用基于社区反馈的多种信号来确定哪些帖子可能包含不准确的信息,并减少其分布。在热门话题中,我们同样考虑各种不同的信号,确保热门话题显示的主题反映着真实世界里的重大事件,并采取额外的措施防止出现虚假新闻或误导性内容。尽管已经做了种种努力,我们明白需要做的事情还有很多,这也是为什么我们把不断提高检测错误信息的能力放在很重要的位置。我们将继续致力于解决这个问题,改善我们平台的体验。

关键的问题不是 Facebook 是不是应该策划新闻流,而是应该怎样策划。显然他们要做的事情很多。我相信他们是认真对待这个问题的。我希望他们能够取得突破,不需要被迫在商业模式和用户体验之间选择。如果他们无法突破,恐怕尽管他们的意图是好的,也将是商业模式为先。他们的目标是找到一种让飞机飞得更快,而且飞得安全的方式。

好的方面是:真实性和用户参与度之间的矛盾和平衡,能让 Facebook 获得一些非凡的发现。克服一些真正的难题会让它变得更好。

但对 Facebook 来说,答案不是让记者从坏新闻中剔除好的。而是要理解,正如他们已经成功地开发出了提高参与度的功能一样,他们需要开发一些算法,在考虑热度的同时,把“真实”考虑进来。

他们需要弄清楚,自己是哈维兰还是波音。

参考资料来源:https://medium.com/the-wtf-economy/media-in-the-age-of-algorithms-63e80b9b0a73#.5we87sc0i

声明:本文系网络转载,版权归原作者所有。如涉及版权,请联系删除!

原文发布于微信公众号 - 智能算法(AI_Algorithm)

原文发表时间:2016-11-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

【每天一个数据分析师】几乎任何一种分析,都可以用矩阵式分析来引出思路

论坛君 “每天一个数据分析师”在第五期采访到的是一位萌妹子Yuki,她毕业于复旦大学,目前在上海从事互联网金融行业的数据分析,主要从事业务和用户方向的数据分析和...

5657
来自专栏跨界架构师

论理想中的技术团队——领导力

  友情提示:本文非干货,仅是笔者作为管理者,同时也作为被管理者的真实感触,从2个角度综合的思想总结,仅供参考。如觉有用,烦请点赞支持,谢谢~

1424
来自专栏何俊林

天天工作拧螺丝,怎么突破瓶颈?

1474
来自专栏华章科技

数据科学家的15项原则

1、不要用数据说谎或吹牛: 对经验性证据要诚实坦率。最重要的是不要用数据自欺欺人。

932
来自专栏互联网技术栈

软件架构师的12项修炼[2]——关系技能修炼(2)——领导力、政治

领导力是为了建立一种认知, 即每个人都觉得这种认知是对的。 你必须知道项目中每个人如何工作, 了解他们对项目的看法和关心的地方。

952
来自专栏非著名程序员

万恶的产品经理是推动程序员技术进步的不竭动力

万恶的 PM 是推动程序员技术不断进步的不竭动力。产品汪,你不仅仅是一只可爱的狗,你更是一只藏獒,因为我们程序员都是一群饥饿到边缘的草原狼。—题记 PM 与...

1937
来自专栏老九学堂

为什么人人都要学小程序编程?

在以前,如果你不是普通成年人(互联网人),在考虑学习编程编程的,那么可以学习的编程语言很多,我会推荐C语言。但从今天起,如果你对C语言不感兴趣,那还有个选择,就...

4178
来自专栏华章科技

美国大选进入“白热化”,为何政治选举能与大数据分析联系在一起?

两大政治党派如何利用大数据分析来帮助他们做出决定并且尝试领先竞争对手,是今年的总统大选的主要情节之一。但你们可能没有意识到的是,大数据在决定选票变化上已经变得多...

982
来自专栏大数据文摘

艺术和科学的奇妙结合:虚拟现实技术能拯救大数据吗?

1823
来自专栏程序员互动联盟

同样是程序员为啥差距那么大?

号称10x的程序员根本不存在。反对观点一般分为以下三种: 最初10x这个数字来自一个研究(Sackman,Erikson, and Grant (1968))...

3777

扫码关注云+社区

领取腾讯云代金券