2 PLL问题的难点 PLL的效果目前和有监督学习还有一定差距。PLL问题的难点在于标签消歧,也就是从候选label集合中预测出样本的真实label。...利用对比学习提升表示学习的效果,再利用良好的表示对label进行消歧,消歧后的label又有助于进一步生成良好的样本表征,形成良性循环,提升整体效果。...,以及基于聚类的label消歧两个核心模块。...在有监督学习中,每个样本都有其对应的确定性label,天然可以构造出正样本。而PLL问题中,每个样本的label是不确定的,无法直接获取正样本对。...对MoCo等对比学习框架不了解的同学,可以参考我之前的文章:对比学习中的4种经典训练模式。利用对比学习,可以让样本在特征空间形成类簇,这也为后续的标签消歧奠定了基础。
然而,现存的 PLL 算法与完全监督下的方法依然存在较大差距。 为此,本文提出一个协同的框架解决 PLL 中的两个关键研究挑战 —— 表征学习和标签消歧。...在 PLL 问题中,最重要的问题为标签消歧(Disambiguation),即从候选标签集合中识别得到真实的标签。...可以发现,对比学习模块中,最重要的问题即为正样本集合的构建。然而,在 PLL 问题中,真实标签是未知的,因此无法直接选择同类样本。...消融实验 最后,研究者展示不同的模块对实验结果的影响,可以看到,标签消歧模块和对比学习模块都会带来非常明显的性能提升,消融其中一个会带来 的性能下降。更多的实验结果请详见原论文。...理论分析 终于到了最激动人心的部分!相信大家都有一个疑问:为什么 PiCO 能够获得如此优异的结果?本文中,研究者从理论上分析对比学习得到的原型有助于标签消歧。
词义消歧,句子、篇章语义理解基础,必须解决。语言都有大量多种含义词汇。词义消歧,可通过机器学习方法解决。词义消歧有监督机器学习分类算法,判断词义所属分类。...词义消歧无监督机器学习聚类算法,把词义聚成多类,每一类一种含义。 有监督词义消歧方法。基于互信息词义消歧方法,两种语言对照,基于大量中英文对照语料库训练模型可词义消歧。...来源信息论,一个随机变量中包含另一个随机变量信息量(英文信息中包含中文信息信息量),假设两个随机变量X、Y的概率分别是p(x), p(y),联合分布概率是p(x,y),互信息计算公式,I(X; Y) =...基于互信息词义消歧方法对机器翻译系统效果最好。缺点,双语语料有限,多种语言能识别出歧义情况也有限的(如中英文同一个词都有歧义)。 基于贝叶斯分类器消歧方法。...训练出p(s)和p(v|s),一个多义词w消歧计算(p(c|s)p(s))最大概率。 无监督词义消歧方法。完全无监督词义消歧不可能,没有标注无法定义词义,可通过无监督方法做词义辨识。
,最后用DeepCosine来结合知识库实体向量的预测及其他数值特征,比如流行度等弱消歧模型进行融合进而可以产生一个非常强的实体消歧预测结果。...在整个实体识别与链指消歧的过程中,常见的是把这个任务分成两部分,即先进行实体的识别,然后再进行实体的消歧[1-3]。最近也有部分工作强调要用端到端的方式统一两个任务[4]。...因此基于预训练模型的实体识别结果也提高了很多。得益于预训练模型强大的实体识别能力,本文因此采用两步走的方式来进行实体识别和链指消歧。...因为实体识别的准确率足够高,因此对后面的消歧结果产生的False Positve样本影响会小很多,同时可以降低联合模型的计算空间。 命名实体识别任务多在识别文本中的事物的名称,例如人名、地名和机构名。...动力] 4.2 实体链指消歧 在实体链指消歧任务中,本文令每个候选实体和输入语句中的实体一一配对,形成一个二分类问题。
接下里,第一种方法可以通过无监督的最近邻方法获得测试数据中每个单词的sense;第二种方法使用了较为复杂的标签传播模型(Label propagation)。...本文另一个贡献是开源了一个较大的带标注的语义消歧数据集。 模型 如上,本文的模型结构非常简单--LSTM。...首先,作者提出使用大规模的无标签语料训练一个语言模型,本文使用的语料包涵100B个词(未开放此语料)。在经过预训练后,使用LSTM来获得待消歧词的上下文信息。...具体做法是使用特殊字符 $ 取代待消歧词,然后用LSTM对整个句子进行编码,LSTM的最后一个输出即为当前待消歧词的上下文信息。接下来,作者提出了两种方法来进行消歧。 方法一 最近邻(NN)方法。...同时,作者还在Google自己标注的大型数据集上进行了实验,也取得了很好的实验结果。
训练数据中包含mention共26万个,也就是每条训练样本中,待消歧的mention约3个左右。...验证数据中包含mention共3万个,每条样本待消歧的mention也是约3个左右。...因此,要在该比赛中取得更好的成绩,除了做好KB中实体消歧的任务,针对NIL实体的判断及其类型的预测的任务也至关重要。...特征因子融合的方法是使用多折的方法训练一个 MLP 的模型。具体的特征如图8: ? 图8 实体消歧的特征因子列表 实验结果 中文短文本的实体链指比赛,限定在给定的标注数据和知识库中。...图10 验证数据的实体链指结果 对验证集的数据简单进行分析,模型消歧的错误主要有四类: fp_nil_ni:标注数据为NIL_TYPE,预测也为NIL_TYPE,但是类别预测错误。
百度 2019中文短文本的实体链指 第一名解决方案 摘要 传统的实体链接任务主要是针对长文档。长文档拥有充分的上下文 信息,能够辅助实体的识别与消歧。...相比之下,中文短文本的实体链接存 在很大的挑战。实体链接整个过程包括实体识别和实体消歧两个子任务。...针对实体消歧子任务,将其 视为二分类问题,通过基于 BERT 的二分类模型对候选实体进行预测,然 后对预测的概率进行排序,进而完成消歧任务。...对于错误3,我们实体识别的模型能够解决这一问题 针对错误2与错误3,统计知识库中实体E无法匹配总次数E_num,训练集中实体E 无法匹配的所有字符串M_1,M_2,M_3...M_i以及该字符串对应的出现次数...3实体消歧 实体消歧是基于二分类的思想实现,训练时选取连接到的实体作为正例,在候选实体里选取两个负例。
Pipeline式实体链指步骤一般有:命名实体识别、候选实体选取、实体消歧,其中最关键的一步是实体消歧。Ganea[1]将文本和候选实体encode为两个向量,使用语义匹配来进行实体消歧。...Shuang Chen[2]则将消歧问题转化为实体类型分类,得到实体类别后,通过Link Count确定最终链接到的实体。...在排序学习中,有三种常见模式pointwise,pairwise和listwise,对于实体消歧这种只需要TOP1的排序任务,并不需要考虑候选实体之间的顺关系,只考虑全局相关性,因此我们选取了pointwise...NIL实体排序方式实验 实体消歧过程中NIL实体如何和其他实体一起排序,是单独作为一个分类任务,还是将NIL转换为特定类型的实体参与排序,针对这个问题,我们设计了三种方案: 方案1:只对知识库中存在的实体进行排序...为了更好地理解用户的问题,小布不仅借助OGraph在实体消歧方向进行探索,还在命名实体识别和候选实体挖掘上做了很多工作。
二、问题分析 实体链接,指将文本中的表述链接到知识库中相应实体来进行实体消歧、帮助计算机理解文本具体含义的任务,一般包含实体提及识别、候选实体生成和候选实体消歧三个步骤。...2)候选实体生成为文本中给定的实体名称生成可能链接的候选实体集合,即根据前一步识别到实体提及片段从知识库中召回所有用户可能感兴趣的实体,该步骤生成的候选项集确定了实体消歧的范畴。...3)实体消歧是确定一个实体指称项所指向的真实世界中实体的过程,通过候选实体的静态特征、或与query交互计算的动态特征输出一个用于排序的分值。...三、旅游知识图谱 GIS本身是一种知识库,POI则是知识库中的实体,但仅有POI的集合,无法发挥其辅助实体消歧的潜能,为此我们需要构建以POI为基础,同时深度结合目的地、产品、标签、别名等其它数据的旅游行业知识图谱...调用实体链接服务后,返回结果中广州市的白云山(id:7xxx4)被排在top1位置,说明实体消歧阶段系统捕获到了“广州白云山”与定位站“东莞市”之间的关联。
本文在主谓一致任务和词义消歧任务上评估了当前 NMT 领域中最流行的三种模型:基于 CNN、RNN 和自注意力机制的模型,发现实验结果与上述论断并不一致。该论文已被 EMNLP 2018 接收。...受到上述关于路径长度和语义特征提取关系的理论陈述的启发,研究者在主谓一致任务(需要建模长距离依赖)和词义消歧(WSD)任务(需要提取语义特征)上对三种模型的性能进行了评估。...我们假设 CNN 和自注意力网络的强大性能也可能来自于其从源文本提取语义特征的能力。我们在两个任务(主谓一致任务和词义消歧任务)上评估了 RNN、CNN 和自注意力网络的性能。...实验结果证明:1)自注意力网络和 CNN 在建模长距离主谓一致时性能并不优于 RNN;2)自注意力网络在词义消歧方面显著优于 RNN 和 CNN。 ? 图 1:NMT 中不同神经网络的架构。...WSD 主谓一致任务上的实验结果展示了 CNN 和 Transformer 在捕捉长距离依赖方面并没有优于 RNN,即使 CNN 和 Transformer 中的路径更短。
注意:读取到静态属性中 springboot无法通过给静态变量赋值,在对应字段的set方法去掉static即可。
,保证其连续性 如何实现一个循环的系统 没有任何人为交互的消歧系统不够充实,利用人的反馈实现高的消歧准确性 2....6个潜在特征,将其结合到框架的不同组件中以改善消歧准确性 3....则两篇文章属于同一个人 姓名消歧问题 任务:寻早一个函数将一组文档 D 分到不同的集合 ?...( 同一个集合仅包含同一人的文章 ) Ca 为 Da 名字a 的消歧结果 要解决消歧问题,需要更多的约束,此处主要考虑两种: 本身约束 Si 和成对约束 Sp ? (y 表示是否数据集合 Ck) ?...,可能结果与上次不一致 获取新的聚类后,搜索其与先前版本的最佳匹配 ?
最近接手一个小项目,要求使用谷歌的aapt.exe获取apk软件包中的信息。依稀记得去年年中时,有个同事也问过我如何获取被调用进程的输出结果,当时还研究了一番,只是没有做整理。...但是,实际情况并不是我们想的那么简单。比如我文前提到的问题:别人提供了一个Console控制台程序,我们将如何获取其执行的输出结果呢?...这个API的参数非常多,我想我们工程中对CreateProcess的调用可能就关注于程序路径(lpApplicationName),或者命令行(lpCommandLine)。...我想应该有人借用过网上相似的代码,但是却发现一个问题,就是读取出来的信息是不全的。这个问题的关键就在读取的方法上,其实没什么玄妙,只要控制好读取起始位置就行了。...,所以我段代码动态申请了一段内存,并根据实际读取出来的结果动态调整这块内存的大小。
首先声明下,今天发的这些Project都是类似论文实现那样的demo级的,也不是传统的工程实现,用的方法一般比工业界的高端,非常适合练手用。...句子边界消歧 Sentence Boundary Disambiguation https://github.com/Orekhov/SentenceBreaking,很有意思。...词义消歧 Word Sense Disambiguation alvations/pywsd,代码不多,方法简单,适合练手。 21....命名实体消歧 Named Entity Disambiguation dice-group/AGDISTIS,实体消歧是很重要的,尤其对于实体融合(比如知识图谱中多源数据融合)、实体链接。 22....指代消歧 Coreference Resolution huggingface/neuralcoref,基于神经网络的指代消歧。 26.
句子翻译两大难题:消歧和调序 机器翻译尚处于“句子翻译“的初级阶段,即准确地理解每一个句子的基本意思。...据百度NLP(自然语言处理技术)技术人员介绍,尽管机器翻译在句法理解上有所突破,但最大的难点还在于消歧和调序。 一个是顺序问题。...一个词有多个语义,比如“看”这个词,看病、看书、看球,是不一样的;打球、打赏、打牌、打脸中“打”的意思也非常不同。如果直接将句子中的“看”简单翻译为Look自然不行,而这样的情况又无法穷举。...消歧和调序是机器翻译要解决的最重要的两个问题。如果能够突破,机器翻译未来就可以帮助人们做更多事情。 机器翻译突破的杀手锏——NLP技术 业界如何解决机器翻译所面临的问题呢?...,进而迅速呈现最优翻译结果。
但是同样在牛津字典中,stock 这个词还有超过 10 个不同的含义,比如「(商店里的)库存」或是「(鞭子、钓竿等的) 柄」。对于计算机算法而言,如何从博大精深的含义中找寻某个句子中对应的词义?...这的确是一个词义消歧难题,也就是 AI-Complete 问题。 AI科技评论消息,今天谷歌研究院又发出了重磅新闻,他们发布了基于 MASC&SemCor 数据集的大规模有监督词义消歧语料。...这些语料会与牛津字典上的例句做映照,广泛适用于各个社区。与此同时,本次发布也是最大的全句释义语料库之一。 有监督词义消歧 人们通过对句子中词语的内容进行理解,因为我们能通过常识判断上下文的含义。...我们希望为机器提供足够的背景信息,并应用于理解文本中词语的含义。 有监督词义消歧(WSD)尝试解决这一问题,也就是让机器学习使用人工标记的数据,并与字典中的词语所代表的典型含义匹配。...这些人工的词义标注采用了 Krippendorff's alpha (α >= 0.67 则具有一定可信度,α >= 0.80 则表示具有很高的可信度) 进行判断,结果显示得分为 0.869。
using a graph model with node splitting and merging based on bibliographic information 基于文献信息进行节点拆分和合并的图模型消歧方法...(GFAD) 论文: https://link.springer.com/article/10.1007/s11192-014-1289-4 这是一篇比较早的文章,将人名消歧过程作为一个系统,主要想学习它对消歧过程中的各个阶段的划分...同名问题:分割多个不重叠的环中的共同顶点 异名问题:合并具有不同名的顶点 同时:能够处理异常问题 1. 概述 1. 基于图的作者姓名消歧方法 2. 使用合作关系构建图模型 3....以图表为导向的人名消歧方法,从文献信息分析作者间的关系构建图模型 2. 通过链接合作者推断作者的社交环(过去和现在的学术关系) 3. 利用顶点分割或顶点合并 与以往研究相比: 1....Outlier Remover 孤立点: 缺少消歧所需要的元信息 如:在使用合著关系的系统中,只有一个作者的文章就是孤立点 对于使用作者所属组织的系统中,缺少作者所属信息的文章就是孤立点 GFAD 将异常值根据代表性的关键字的相似性度量
联合消歧步骤(右侧黄框),主要包括本文提出的两个核心方法: 1) 基于广义旅行商问题(GTSP)的消歧方法。如下图所示,该方法将每个关键词的候选 URI 放入同一个簇。...边的权重被设置为两个 URI 在知识库上的距离(hop 数),而联合消歧过程被建模为在该图上寻找一条遍历每个簇的边权总和最小的路(头尾结点可以不同)。...2) 基于连接密度相关特征进行机器学习的消歧方法。...下表总结了上述两个消歧方法的差异: ? 3) 额外的,本文提出了一种自适应实体/属性预测方法。...如果消歧后某个实体/关系和它最终链接到的 URI 的置信度低于阈值,则可能预处理步骤的第二个子过程(实体/关系预测)有错误。
(点击上方公众号,可快速关注) 来源:伯乐在线 - 刘立华 LingPipe是运用计算机语言学处理文本信息的工具包,可用于如下任务: 在新闻中查找人名、组织或位置。 自动分类Twitter搜索结果。...提供查询的正确拼写建议。 架构 LingPipe的架构是有效的、可扩展的、可重用的、健壮的。...//alias-i.com/lingpipe/demos/tutorial/cluster/read-me.html 词性标注 介绍如何从语料库用标签解析器和处理器训练词性标注器,如何编译模型到磁盘并读取...http://alias-i.com/lingpipe/demos/tutorial/chineseTokens/read-me.html 连接符和音节 展示了如何从训练数据字典中训练连字符和音节。...http://alias-i.com/lingpipe/demos/tutorial/em/read-me.html 词义消歧 词义消歧是根据一个词的上下文确定一个词的含义的过程,用于分类、搜索、聚类等
领取专属 10元无门槛券
手把手带您无忧上云