摘要:现代社会日益受到算法的控制,也许算法的所有者对此也无法做出解释。算法不仅影响消费者的选择,也影响企业的决定。在不知道算法所遵循的确切规则的情况下,我们该如何衡量算法是否值得信任呢?O'Reilly Media 的创始人 Tim O'Reilly 给出了4条原则,并且用几个实际案例分析了这4条原则是如何应用的。
先放出这四条评估算法是否值得信任的规则:
7年前,大型综合医疗保健供应商凯萨医疗机构的 CIO John Mattison对我说:“21世纪的一大问题将会是‘你信任哪家的黑箱?’”他指的是算法在医学上的重要性与日俱增,但是他的观点展开来讲,就是我们越来越信任的那些系统其实我们并不理解它们用于决策的方法。(从定义来说,黑箱是指输入输出均已知,但是输入如何被转换成输出却未知的系统)
算法在塑造消费者体验当中扮演的角色引起了关注。但算法在塑造商业决策的诱因中扮演的角色大家却不怎么注意。
比方说,大家对Google或者Facebook的算法如何确定我们看到的新闻的困惑感已经持续了多年。Eli Pariser警告我们必须小心“过滤器泡沫”,也就是算法包办了我们的喜好,不断地喂给我们自己希望听到的东西,而不是展示其他的观点给我们看。这是个真正的风险——尽管搜索引擎和社交媒体公司也在努力克服这一点。
但有一个风险更加深层次也更加普遍,这个风险是我最近跟VentureBeat的Chris O'Brien讨论时冒出来的。也就是说,算法也在影响作者、发行商的选择。你写东西和发表东西是选择最优报道价值的呢,还是选择最容易受到社交媒体关注的?你采用的格式对于主题是最公道的(深度、权威性的研究,所谓的“长文”),还是你认为短的有力度的文章更有利可图,因为后者能产生更高的浏览量,收获更多的广告收入?你是不是更倾向于视频而不是文字,即便后者能让你做得更好?
为什么新闻媒体会降低难度,导致甚至连伟大的发行商也追求炒作文化、虚假争议的报道风格以及其他一些理论驱动技巧?需要引起搜索引擎和社交媒体注意无疑是因素之一。美国总统选举无底线的报道风格,其实是新闻业收入从订阅转向广告、从稳妥的本地读者转向迎合社交媒体读者这一重大转变的意外事故。你如果你希望自己的业务繁荣,就必须取悦算法。
O'Brien还谈到了媒体记者在驾驭算法需求时遇到的困难。在确定自己的故事能否被看到的事情上,算法的需求往往是相互抵触的。你是要针对Google搜索结果做优化还是优先照顾Facebook的新闻流?当两种不同的算法需求发生冲突或者突然改变时会发生什么呢?
当Google还是唯一的主导力量时,搜索引擎优化(SEO)的手段相当直截了当。Google提供了丰富的工具帮助web发行商理解自己的算法看重什么类型的东西,什么样的东西会发出危险信号。有整整一个行业(“白帽SEO”)的人来帮助web发行商来做好这件事情,还有一个行当(“黑帽SEO”)的人则在帮助厚颜无耻的绕开规则。黑帽SEO的形式之一是炮制“内容农场”,把大量带有交叉链接的劣质内容(往往是从别的网站搜刮过来的)集中在一起,愚弄算法让后者以为这些劣质内容应该被赋予很高的权重。2011年,当Google重新调整算法让内容农场降级之后,许多采用这种做法的公司受到了重创。许多因此而歇菜(本来也应该),另外一些则不得不改进自己的业务做法以求生存。
面向Facebook的发行商最近也有类似的经历,上个月,Facebook宣布对新闻流算法进行了更新,不再重视带有“点击欺骗”(标题吸引眼球但内容质量不高的文章)性质的头条新闻。就像Google一样,Facebook的目标值得鼓励:营造更好的用户体验。就像Facebook研究人员Alex Peysakhovitch和Kristin Hendrix在声明中写道一样,“我们新闻流的价值之一,是平台要有可靠的信息……这正是为什么我们要努力理解大家认为什么类型的故事和文章才是真实的,好让我们能在新闻流中展示更多。我们还致力于理解什么类型的故事文章有误导性和垃圾内容,从而确保大家少看到一些这样的内容。”
巴菲特说过一句著名的话,“要赢得好的声誉需要20年的时间,而要毁掉它,5分钟足矣。如果你能这样思考的话,你的做事方式就会不同。”Google和Facebook都理解自己的名声是建立在大家能找到自己想找的东西上,这两家都采用了“长点击(long click)”和“短点击(short click)”的概念来衡量这个。(如果有人点击链接后就回退的话,说明对内容不感兴趣。如果点进后驻留了一段时间才返回的话,说明很有可能他们花了一些时间来考察结果。这就是他们发现东西有价值的相当好的信号。)
这就引出了黑箱问题。据Facebook负责新闻流产品管理的副总裁Adam Mosseri说,“Facebook不会公开发布有关点击欺骗定义的多页指南文档,因为这很大一部分跟垃圾内容有关,如果我们把自己在做什么以及怎么做披露出来的话,对方就会采取逆向工程,想出绕开我们的手段。”
因为塑造我们这个社会的许多算法都是黑箱——无论是出于Facebook提到的理由,或者是因为在深度学习的世界里,它们本身甚至对于创造者来说也高深莫测——因此信任的问题成为了关键。
在不知道算法所遵循的确切规则的情况下,理解如何去评估算法已经成为今天这个世界的关键学科。其可能性是存在的。
以下就是我对算法是否值得信任的4条评估规则:
下面我们用几个例子来论证这四条原则的应用。
Google搜索和Facebook新闻流
继续前面的讨论,你可以看到我这4条原则在Google搜索和Facebook新闻流的应用:
自动驾驶汽车
在现在这股自动驾驶汽车和卡车的狂热下,很容易就让人淡忘了其实我们的飞机很大程度上已经是无人驾驶的,而且有一段时间了。任何坐飞机的人都得把自己的生命托付给一个机器人。是,驾驶舱是有飞行员,但他们掌控飞机的频度并不如你想象那么高。他们充当的角色是“机器人管理员以及备份机制。”飞行员不是被取代,而是晋升为经理了。他们做出类似“改变航线高度,因为控制交通管制报告说前方有恶劣天气”,或者“机上发生医疗紧急事故,所以我们需要到可容纳我们飞机的最近机场着陆。”之类的管理决策。哪怕是军事无人机,也仍然有这样的监管员就位。只是他们是在地面上,也许有几千公里之遥。
如果你和几个月前的我一样的话,可能也一直以为自动驾驶仪就跟定速巡航控制类似——乏味的长途飞行由它来驾驶,而飞行员则处理起飞着陆这些困难之事。不是这样的。在我飞赴蒙特利尔出席StartupFest途中,我跟一位飞行员进行了广泛交谈(甚至还坐到了副驾驶的位置,得以感受一下自动驾驶仪为了保持航线做出的精密调整)。
那位飞行员告诉我的东西令人大开眼界,情况正好跟我想象相反。“在像旧金山这样繁忙的机场由人来控制起飞着陆是不行的。如果时间和高度控制不精确的话,你会搞砸所有人的事情。”“那你们什么时候才手动控制?”“周围没有别人的时候。”
我们再拿飞机自动驾驶仪来验证了以下这四条原则:
同样的分析也可以运用到无人汽车和无人卡车上。目标明清晰:避免一切事故,驾驶比任何人类司机更安全。这个目标是可衡量的,而且学习的机会越多,实现这一目标的系统就会变得更好。无人车之父之一的Sebastian Thrun说过,无人车学得比人快,因为只要其中一辆无人车犯了错误,这个错误以及避免它的办法都会转交给所有其他无人车。
至于无人汽车和无人卡车,我们可以看到最终有异议的地方还是会出在原则3、4。我怀疑无人车技术采用的拖延主要并不在于安全问题或者算法成功的可证性上,而是由于拥有量庞大的现有汽车、卡车的替换成本过大,以及那些靠开车为生的人会继续呼吁“有人参与”的必要性。
大家对确定无人车是否安全都有着共同的兴趣,我们越早接受这一点,就能越早开始讨论哪些数据需要共享,从而得出对这个问题的客观回答。然后我们就能开始讨论还有其他的哪些目标需要考虑。而一旦我们理解了支持者的目标和对算法的质疑在什么地方不一致,我们就能对哪个目标最有意义展开真正的辩论。在许多领域上,这种争论都发生市场方面,实际上是亚当斯密所谓的“看不见的手”在发挥作用。不过这往往是以政府监管的形式出现。
新技术管制
仔细想想,其实政府管制也是一种算法,一套规则和过程,为的是实现确定的结果。不幸的是,在是否可以信任这个“算法”的问题上,政府管制往往都通不过我的4项测试。
我们可以从一个很好的例子开始。消费者金融保护局(CFPB)有一项提案跟发薪日、车主以及特定高成本分期贷款有关。我们看到,这项监管政策有着明显的理性思维:
本局考虑到了贷款人已经有成形的商业模式,这些模式实际上已经背离了其他一些信贷市场的做法,没有办法对消费者偿还贷款的能力进行评估,并且在寻求从消费者账户转移款项时形成了一些有害的做法。本局认为,上述贷款很有可能对消费者造成伤害,因为许多消费者都在努力偿还贷款。特别是许多申请上述贷款的消费者似乎缺乏偿还能力,在难以承受的还款到期时往往面临着3个选项之一:取出额外贷款,拖欠贷款,或者进行还款但无法偿还其他主要债务或无力承担基本生活开支。许多贷款方可能寻求直接从消费者账户取走还款。本局认为,当贷款人从消费者账号重复多次不成功的取款尝试时,消费者可能会受到多重收费等损害。
提案继续规定了处置这种情况的规则。CFPB还把衡量和执行的机制也落实到位了。
作为对比,我们再看看纽约给的士和豪车司机制定的规则。其目的陈述模糊,适用范围令人困惑。你们可以试试,看看有谁能想出一套方法论来评估一下那些规则究竟能不能实现预期结果。
我是最近从纽瓦克机场打Lyft到曼哈顿时想到这个的。就像以往一样,我向司机问起了他的工作。其中一个问题是他会不会在把握送到之后再拉别的客,还是要返回新泽西。他告诉我说:“我没有在曼哈顿拉客的执照。”
好好想想这个。给Uber、Lyft以的士司机发执照的可能目标是什么?乘客安全。保护乘客受到价格欺诈。减少拥堵。(后面2个目标是1637年King Charles在伦敦制定第一部的士监管政策的理由。)禁止Lyft司机同时在新泽西和纽约接客并不能服务于上述任何一个目标。考虑到按需打车服务等新技术所带来的重塑交通选项、令城市向好发展的机会,监管目标很容易就会滞后于社会的优先考虑。我们有机会利用这些技术来提出改进交通工具使用,降低消费者成本,减少拥堵以及停车需求,改善环境等许多目标,然后据此制定衡量手段并实施。
以往导致对的士做出地理限制的目标之一,是通过限制现有司机数来支持西安欧的运输公司。明确这一目标至少可以成为讨论的起点。除非你已经知道他们想要实现什么,否则就没有办法衡量管制政策的影响。
政府无法解释或衡量或证明黑箱操作的正当性,这正是公众对政府信任达到历史新低的主要原因。当前这场选举中政治谎言的常态化并不是未来这种信任的好兆头。
长期信任与主算法
而这有把握带回到开始本文的主题:算法在确定该发表什么新闻中担任的角色。当大家带着困惑在观察媒体在当前选举中的行为,在发现他们未能深入挖掘实质问题,以及聚焦于保持这场赛马的刺激性时,你就可以利用我的黑箱信任规则来帮助理解。
有一个主算法在统治着我们的社会,在此我要向Pedro Domingos道个歉,这并不是什么机器学习的新方法,也不是政府的管制措施,而是一条几十年前已经植入现代商业,并且至今基本未受挑战的规则。也就是企业的唯一义务是对股东负责。
这是这个算法让CBS主席Leslie Moonves今年3月时就川普的竞选活动说出了这样的话:“也许对美国没有好处,但对CBS来说却好极了。”这场选举是一场真正的测试,不仅对媒体发行商如此,对Google和Facebook等平台亦然。当奖赏发行商的算法与令用户受益的算法不一致时,Google和Facebook会站在哪一边呢?谁家的黑箱值得我们信任?
本文作者|BOXI
转载来源|http://36kr.com/p/5053726.htm