🧣🧣周三了,一周又过了一半了🧣🧣
引言
自然语言处理 (NLP) 是计算机科学的一个领域——更具体地说,它是人工智能 (AI) 的一个分支——它主要是让计算机模型人类进行文本理解和口语表达。但即是人类有时也很难破译社交媒体和新闻项目的深层含义和背景。
自然语言处理经常使用统计方法分析语言,而没有考虑理解人类社会变迁和潮流所处的真实语境。 为了完成上述任务,它必须将在线交流及其上下文语境转换为计算机可以理解的格式。针对这个问题:普渡大学的研究人员正在研究模拟人类语言的新方法,以便计算机能更好地理解人类。
正文开始
1解决问题
普渡大学的研究人员认为问题在于,很多在线交流都依赖于读者已经了解了上下文——例如:美国的简写可以是US,现在流行的“永远的神”可以表达成YYDS。在分析消息时,上下文信息是消息的一个基本方面。
例如,如果发生学校枪击事件,请考虑以下推文:“我们必须更加尊重我们的老师!我们必须保护他们”。假设这条推文的作者是A,他是支持枪支管制的。在这种情况下,这条推文很可能会被解释为“禁止枪支以防止学校发生大规模枪击事件”。如果相同的推文来自B,他认为“遵守法律的公民手中拥有枪支会使我们感到更安全”,那么该帖子可能意味着“武装学校保安来阻止活跃的射手。” 这个例子表明了,在不同的背景知识情况下,即使是相同的语言表达的意思也是不同的。
因此,模型需要更广泛的上下文才能理解文本其真正含义。这种结合文本和上下文分析的方法需要具备以下两个属性:
1、这种输入表示,可以有效的合并所有不同的信息源。
2、能够生成有意义的统一表示,一次性捕获多个输入的互补优势
2模型方法
本文通过将第一人称非正式(推文)和正式话语(新闻稿和观点)、第三人称当前(新闻)和综合(维基百科)话语联系在一起的图结构来解决上述第一个挑战。 这些文件通过它们的作者、它们讨论的问题/事件以及它们中提到的实体联系起来。举个例子,前总统特朗普的推文“The NRA is under siege by Cuomo”。这条推文在图表示是通过将文本节点连接到作者节点 (Trump) 和引用的实体节点 (NY Gov. Cuomo) 。如下图所示:
针对第二项挑战,本文提出了一种新颖的神经架构,可以一次性统一图中的所有信息。该神经架构可以为图中的每一项生成分布表示,并且该表示与其上下文表示结合。它可以动态响应请求,并将该表示集中在特定上下文上。本文的架构包括一个Encoder,它结合给定节点的所有相关文档,以生成初始节点表示;还有一个Composer,即一个图注意网络(GAT),它组合了图结构,以生成上下文的节点嵌入。其模型结构如下所示:
本文还设计了两个自监督学习任务来训练模型并在丰富话述表示中捕获结构依赖性,来预测作者身份和引用实体链接。直观地说,模型需要理解语言的微妙用法,作者身份预测需要通过模型区分:(i)一个作者的语言与另一个作者的语言,(ii)作者在一个问题与另一个问题的上下文中的表述。参考实体预测需要理解特定作者在讨论特定实体时使用的语言,并考虑到作者过去的话语。
总而言之,本文的研究贡献包括:
3实验快照
1、将模型的结果与BERT-base、BERT适应和编码器嵌入进行了比较。
2、预测美国政客在点名投票时的投票行为
3、对政客的意见描述标签。展示了政治家们在每个问题的背景下使用的最具代表性的形容词。