首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

什么是机器学习?我为什么要关心?

当下机器学习已成为热点,也已应用于一些新闻报道中。机器学习对于新闻业的价值到底是什么?在实际应用中需要注意什么?本期RUC新闻坊编译了哥伦比亚新闻评论(Columbia Journalism Review)4月25日发表的What is machine learning and why should I care?(什么是机器学习,为何我要关注)一文,希望能够为此提供一些思考。

作者简介

Nicholas Diakopoulos 是西北大学传播学院的助理教授,他在即将出版的《新闻自动化:算法如何重写媒体》一书中撰写了有关新闻媒体自动化和算法的文章,并定期向CJR提供有关这些主题的文章。

没准你还没意识到,但你可能早已在你的新闻报道中用过机器学习技术了。你可能使用过Trint (擅长英文自动语音转录的公司名——译者注)服务来转录你的采访,借助谷歌完成一些文本翻译,亦或是将穆勒报告(指美国特别检察官穆勒调查有关俄罗斯干涉2016年美国大选的报告,该报告以PDF格式发布,选择了更适合照片的有损压缩方式,因而读者无法对页面文字进行搜索——译者注)转换成易读的文本格式。

即便你自己没亲手用过,机器学习也可能在新闻机构内部发挥作用,譬如给文本照片等加上标签以便寻找,在公司网站或者社交媒体上推荐文章以提升它们的影响力或用户粘性,或者尝试预测谁可成为订阅折扣的目标。

机器学习已经渗透到新闻业的一些最普通的任务中,提升了效率,并使得那些原本会因太繁重而无法报道的故事拥有了被讲述的可能。 我们已经生活在机器学习的趋势中。但是,我们事实上才刚开始摸到一点皮毛,尤其是在新闻编辑方面。

需要明确的是: 我倒并不是为了大肆宣传一个神话般的新技术。抱歉,机器学习可能救不了新闻行业的财务困境。尽管如此,记者们还是可以从中发现很多有用的东西。机器学习还能为新闻编辑室做些什么?新闻工作者如何用它来改进他们的编辑工作?在使用这些强大的新工具时,新闻工作者应该警惕些什么?

"机器学习"这个短语描述了一种精心制作和工程化的工具。例如,Trint之所以能够转录音频,是因为它的算法学会了如何将音频模式同字母和单词的规则相对应。这是在许多小时的人工转录音频的训练基础上实现的。它的算法学习将音频中的模式转换为文本模式的方法,然后就可以对新的音频样本进行转录。

更正式地说,机器学习指的是使用从数据中学习操作模式的算法,这些算法能够执行任务(比如转录),但不需要编写明确的程序。机器学习方法和特定的技术算法有多种不同的风格,每一种都有其适合的用途 这些方法通常根据所提供的人员反馈的数量和类型加以区分:

1.在监督学习(Supervised Learning,指对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测。——译者注)中,为算法研究提供了一组仔细注释的示例。对于记者的调查,文档可能被标记为“有趣”或“无趣”,并且一旦经过训练,算法就可以根据这些类别对新文档进行分类。事实证明,这对于那些希望根据已知的兴趣模式过滤大量文件或数据的调查记者来说很有价值。

2.另一个变种弱监督学习(weakly supervised learning),也为算法提供了示例,但并没有单独注释每个项目,而是指定了过滤规则来定义大而“嘈杂(noisy)”的数据集(在有用的数据集旁边包含大量无用的信息)。国际调查记者联盟(International Consortium of Investigative Journalists)正与斯坦福大学(Stanford)的一个机器学习小组(Machine Learning Group)合作,以了解这在新闻场景中的具体应用。

3.另一方面,无监督学习(Unsupervised Learning,对没有概念标记(分类)的训练样本进行学习,以发现训练样本集中的结构性知识。——译者注)方法不需要注释。相反,它们允许算法在数据中查找模式,例如共享特征的条目组,通常用于对相似的记录进行集群或链接。

美联社在分析无意中发生的儿童枪击案时使用了这样一种技术,以发现有噪声数据的案件,这些数据与来自更清晰、噪声更小的案件的数据一起聚集在一起。在《纽约时报》,这些技术有助于报道竞选财经话题的记者将多个捐赠记录与同一个捐赠者联系起来。

4.强化学习(Reinforcement learning)是另一种机器学习,它也不需要标记数据。然而,它确实利用了对算法的反馈。标题测试使用这种方法,通过单击标题提供积极的强化和反馈,算法从中了解下一个用户应该尝试哪个版本的标题。

在考虑如何使用这些技术时,仍然存在着一些问题需要从业者去认识。

首先是偏见。杜克大学(Duke University)的技术与核查合作中心(Tech&Check Collaborative)使用ClaimBuster系统来监控文本,使用机器学习模型来识别所谓的有检查价值的事实句子中的“事实声明”,然后将其发送给事实检查员。它使用的模型是根据过去的美国总统辩论中的20,000个手工标记的句子训练出来的。

学术研究人员评估了ClaimBuster对2016年美国总统辩论中21份文本的分析。研究人员将ClaimBuster算法确定的事实声明的主题与CNN和Politifact中人类事实检查员选择的声明主题进行了比较。与人类事实检查员相比,ClaimBuster算法获得了更多关于经济的主张,而更少涉及社会问题。如果人类事实检查员仅仅依赖于ClaimBuster算法,那么它的偏见会使他们远离社会问题主张,从公共利益的角度来看,这一结果可能是不可取的。

评估的另一个方面表明,特朗普在该系统中被标记为“值得检查”的声明比希拉里的要少。特朗普的修辞风格可能使他的陈述不太容易被算法识别。由于ClaimBuster系统在选择事实声明时会更关注包含数字的内容,而特朗普的表达往往不注重具体细节,这可能与出现上述结果相关。

这种机器学习系统可能以特有的方式引导(或转移)注意力。使用这些工具的记者应该意识到这种可能性,并准备根据需要填补空白。编辑尤其应该对这些系统如何塑造新闻报道进行监督,监控和设定界限。

此外还存在不确定性的问题。预测分数或对文档分类的机器学习模型很少100%确定其输出。它们具有统计性质。这意味着记者需要对他们持怀疑态度,并严格核实他们的输出。

可以使用各种验证方法来评估模型的整体质量,但单个输出仍然可能是异常。如果模型有效地指责个人或特定组织的不当行为,并可能对他们造成严重的负面影响,那么在发布模型的输出时需要谨慎。

意识到不确定性是关键。但是,如果机器学习系统的输出仅在内部用于新闻编辑室,并且总是有记者在任何内容发布之前对其进行检查,那么就没有太大的问题了。记者需要问的是,一个模型的预测或分类错误的可能性有多大?如果是这样的话会有什么危害?

曾在工作中使用过机器学习系统的记者们承认这些算法并不完美。算法可能会忽略具有潜在新闻价值的文档。因此,相较于人工审核,根据算法处理结果展开的后续调查可能并不那么全面。不过,有时新闻报道并不需要对事件进行详细的记录。一篇可靠的新闻稿件所需要的是,在一堆文档中寻找出最有新闻价值的一条线索,或者是具有新闻价值的一些线索。

如果机器学习模型输出的结果可以通过其他来源被证实且仍具有新闻价值,那么它就是理想的。《洛杉矶时报》曾在一次新闻调查中使用机器学习工具来评估警方数据的质量。模型得出的主要结论是,洛杉矶警察局在其犯罪统计数据中漏报了严重袭击案件的数量。根据《洛杉矶时报》的后续报道,洛杉矶警察局在内部审计完成后证实了这一结论。这种对证据进行的三角验证有助于提高记者对机器学习处理结果的信心。

最后,由于可用的机器学习种类繁多,新闻业还面临着这样的挑战:哪一种才是与特定报道任务相匹配且有用的机器学习技术。解决这一挑战的一种方法是,邀请机器学习领域的专家入驻新闻编辑室,让他们在编辑室里确定哪些机器学习技术对记者们来说是最有用的。

另一种可能则是让编辑们在计算机环境中研究机器学习。随着时间的推移,我们可以通过更多的合作来充实机器学习在新闻业领域的实际应用,进而让编辑室能够在浩瀚的数据中寻找到隐藏的秘密。

总之,我对机器学习对编辑工作的影响持乐观态度,但也需要提醒读者们,机器学习并不适合所有的新闻报道。目前,新闻编辑室在引进机器学习时所遭遇的巨大挑战是,通过实验确定哪些报道可以使用哪种类型的机器学习系统进行辅助,哪些报道却只能依靠人类学习的积累。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190505A0IBYR00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券