解析两个相似的维基百科信息箱的不同行为 - 腾讯云开发者社区

“中立屏蔽” 依托一系列的文本生成技术，系统得以识别句子的矛盾信息，并将两个独立的句子融合在一起。将维基百科文章中“过时”句子和“声明”句子作为输入，声明句子包含了更新和冲突信息。...每个句子对会被标记为三种状态：同意、不同意、中立。 “同意”代表句子之间包含的事实信息一致。“不同意”代表两个句子之间存在矛盾的信息。“中立”代表没有足够的信息来判别是否同意。...系统依据声明改写过时句子之后，所有标记为不同意的句子将变为同意状态。这需要两个独立的模型来得到期望的结果。...判断虚假信息的模型通常需要很多“同意-不同意”的句子对作为数据集。在这些句子对里，声明要么包含与维基百科给定的“证据”句子相匹配（同意）的信息，要么包含由人工修订后与证据句子相矛盾的信息（不同意）。...研究者在维基百科项目中使用了同样的删除和融合技术来平衡数据集中的“不同意-同意”对，以缓解偏差。对一些“不同意”句子对，他们使用修正语句中的错误信息来为句子重新生成一个假的“证据”。

4281 0

大规模异常滥用检测：基于局部敏感哈希算法——来自Uber Engineering的实践

LSH 在 Uber 的应用 LSH 在 Uber 主要用于对有欺诈行为的司机的判断，基于空间特性检测相似的行程。...图1显示了我们上方代码的结果，按标题和内容显示文章。我们将使用该内容作为我们的哈希键，并在后面的实验中大致找到类似的维基百科文章。...[uber-lsh-fig-5-similarity-join-lists.png] 图5：近似相似连接列出了类似的维基百科文章，并设置哈希表的数量。图5演示了如何设置哈希表的数量。...这种速度与精度的折中算法，证明了LSH能从每天TB级数据中检测欺诈行为的强大能力。下一步尽管我们的LSH模型能够帮助Uber识别司机的欺诈行为，但我们的工作还远远没有完成。...这两个更新的实现将能对两个数据点之间的汉明距离(Hamming distance)进行位采样，并提供机器学习任务中常用的余弦距离随机投影符号。

4.1K11 0

您找到你想要的搜索结果了吗？

是的

没有找到

大规模异常滥用检测：基于局部敏感哈希算法——来自Uber Engineering的实践

因此, LSH 算法能使具有不同程度重叠行程的识别更为容易。...图1显示了我们上方代码的结果，按标题和内容显示文章。我们将使用该内容作为我们的哈希键，并在后面的实验中大致找到类似的维基百科文章。...[uber-lsh-fig-5-similarity-join-lists.png] 图5：近似相似连接列出了类似的维基百科文章，并设置哈希表的数量。图5演示了如何设置哈希表的数量。...这种速度与精度的折中算法，证明了LSH能从每天TB级数据中检测欺诈行为的强大能力。下一步尽管我们的LSH模型能够帮助Uber识别司机的欺诈行为，但我们的工作还远远没有完成。...这两个更新的实现将能对两个数据点之间的汉明距离(Hamming distance)进行位采样，并提供机器学习任务中常用的余弦距离随机投影符号。

3.6K9 0

室温超导被判死刑？北大国科大等力证LK-99半悬浮样品不是超导，竟是铁磁材料

在两种温度下，都观察到了类似的行为。当磁场从0增加到1500 e时，磁化强度随着磁场的增加而增加，然后磁化强度随着磁场的增加几乎线性减小，甚至变成负值。这种现象表明样品S1中存在大量的绝缘成分。...由于这个样品太小无法准确称重，因此团队在图4中直接以「emu」为垂直轴的单位表示。磁化率-温度（M-T）曲线的FC和ZFC测量结果显示出与样品S1类似的正值和类似的分支结构。...与样本S1和S2不同的是，当磁场增加到1500 Oe以上时，磁化率并没有随磁场的增加而降低，而是以较低的斜率增加。为了验证样品是否具有零电阻率，研究人员对颗粒样品进行了电阻测量，如下图。...结果表明，合成的样品有半导体传输行为，其电阻率随着温度的降低而逐渐增大，从增加到300 K到2 K时提高了一个数量级。...世界复现团队一览刚刚，维基百科也更新了北大、以及印度在LK-99最新研究。其中，标红内容框，代表复现失败。如下是在理论研究方面的进展。

1982 0

Graph Embedding：工业界常用的6种图表示学习方法

同质性和结构性的含义可以从下图进行说明，同质性表示两个相连的节点应该具有相似的embedding表示，如图中节点u和节点S₁直接相连，则他们的embedding应该距离较近。...结构性表示两个结构上相似的两个节点应该具有相似的embedding表示，如图中节点u和节点S₆分别处在两个集群的中心位置，则这两个节点的embedding应该比较相似。...这里我是这么理解的，如上图所示，节点u和节点S₆分别处于两个集群的中心位置，如果使用BFS进行游走，则生成的序列一定都会大量出现中心位置的节点，后续的skipGram算法对于这两个中心位置的节点就有可能学习到相似的...相反，如果采用DFS算法，距离较远的两个节点就更有可能出现在生成的同一条序列中，这两个节点会有许多相同的上下文节点，因此后续skipGram算法能够学习到相似的embedding表示。...二阶相似度的优化目标同样是两个分布的距离：文中认为不同节点的重要性不同，因此用λi进行加权，为了方便，文中设置。

2.6K3 1

如何设计领域特定语言，实现终极业务抽象？

大多数情况下，外部 DSL 可以转换为一种与核心应用程序的操作环境相兼容的资源，也可以转换为用于构建核心应用的通用目的编程语言。...更多的信息，建议去阅读《领域特定语言》一书。定义呈现模式 ? 领域特定语言嘛，从需求上就是对于业务呈现的简化。根据不同的呈现模式，去解析源码，得到我们所需要的数据结构。...呈现模式如下是常见的的领域特定语言的使用模式 [wiki_dsl]：独立的工具，如 Makefile 在编译时或实时转换为宿主语言嵌入式领域特定语言 …… 可以参见维基百科，我就不再去翻译了。...在特定的领域里，都会使用特定的词汇来描述相关之间的关系。这个关系，便是我们设计语法的一个关键。如在 Java 语言里，使用： implement、 extends 来表示两个类之间的关系。...解析器生成器经典的 Lex & Yacc 是你可以考虑的范围，在不同的语言里也有一些相似的实现。对于我来说，以下是我常用的一些解析器生成器。 Antlr。支持主流的语言 Peg.js。

1.3K5 2

维基百科背后，有场旷日持久的机器人编辑之战，开发者都不曾料到

王新民 | 编译自Gizmodo 维基百科上的人类编辑，经常由于修改意见的不同而产生冲突。一份英国的新研究表明，维基百科上的软件机器人之间，也有类似的在线冲突。...有趣的是，根据网站机器人所处的不同文化环境，其行为会有所不同。...同一时期内，在英语版维基百科上每个机器人对其他机器人的工作进行了105次修订，这是人类编辑类似行为的三倍。在德语版上，机器人之间是最和谐的，在过去十年里平均只有24次冲突。...研究的作者之一，Taha Yasseri指出：“一辆自动驾驶汽车在德国高速公路和意大利的托斯卡纳山脉上会以不同的模式进行驾驶。同样地，机器人所处的在线基础设施将对他们的行为有一定的影响。”...Yasseri说，维基百科上的机器人是由来自不同国家的人设计的，这可能是致网上冲突的部分原因。由于维基百科语言版本中使用的技术差异，不同维基百科社区文化的不同在机器人之间产生了复杂的互动。

81511 0

斯坦福NLP课程 | 第20讲 - NLP与深度学习的未来

会获得不同的词嵌入，嵌入空间的结构有很多规律性如上图所示，是英语与意大利语的词嵌入，矢量空间看上去彼此十分不同，但是结构是十分相似的可以理解为，在英语词嵌入空间中的 cat 与 feline 的距离与意大利语词典如空间中的...gatto 和 felino 之间的距离是相似的我们在跨语言的词嵌入中想要学习不同种语言的词嵌入之间的对齐方式 [无监督单词翻译] 首先在单语语料库上运行 word2vec 以得到单词嵌入 X 和...但如下图所示趋势并不明朗 3.11 GPT-2相关事件 [GPT-2相关事件] [GPT-2相关事件] [GPT-2相关事件] [GPT-2相关事件] 关于GPT2是否应该开源的一些争端 [GPT-2相关事件...] 对于GPT2是否应该开源的一些说法 [GPT-2相关事件] [GPT-2相关事件] NLP专家应该做这些决定吗？...[QuAC：基于上下文的问答] 学生问问题，老师回答的对话教师看到维基百科文章主题，学生不喜欢 [QuAC：基于上下文的问答] 仍然和人类水平有很大差距 4.5 HotPotQA [HotPotQA

1.1K4 1

1780亿个参数，能识别25万个词条，这个语言模型的诞生只为挑战王者GPT-3？

而Jurassic-1训练数据集就有3000亿个token，全都是从维基百科、新闻出版物、StackExchange等英语网站编译而来的。...平均每字节对数概率表明模型在不同领域的适用性研究人员表示，在几乎所有的语料库中，Jurassic-1模型都领先于GPT-3。在小样本学习的测试上则各有输赢，不过平均得分两个模型持平。...在基准测试中，Jurassic-1回答学术和法律问题的表现已经能与GPT-3相当，甚至表现得更好。 GPT-3需要11个token，但Jurassic-1只需要4个，样本效率大大增加。...当然，对于语言模型来说，最困难的莫过于逻辑和数学问题。而Jurassic-1 Jumbo已经可以解决两个大数相加这种非常简单的算术问题。...有研究人员指出，GPT-3等类似的语言模型生成的文本可能会激化极右翼极端主义意识形态和行为。

4973 0

Flink数据源拆解分析(WikipediaEditsSource)

，这对我们今后做自定义数据源也有很好的参考作用；官方解释以下是官网对消息来源的说明，维基百科提供了一个IRC协议的通道，从这个通道可以获取对维基百科所做的编辑行为的日志： Wikipedia provides...如上图所示，RichFunction接口负责资源开启关闭以及环境上下文，而SourceFunction接口则是和数据生产行为的开始和停止有关，这些接口最终都在WikipediaEditSource实现；...；和维基百科消息服务器建立连接后做的事情为了弄明白Flink是如何与维基百科的数据源建立连接的，先把ircStream.connect()这段代码展开，对应的是IRCConnection类的connect...，prepare方法做了两个重要的事情：启动一个子线程、发送IRC协议的注册信息，接下来看启动的子线程做了什么；打开IRCConnection的run方法： public void run() {...，就是让这个子线程负责读取远端发送的字符串，每读到一行就调用get方法去处理； get方法的内容很多，做的事情是根据IRC协议解析这个字符串再做不同的处理，这里我们只要关注下面这段，就是收到一条业务消息后如何处理

5782 0

【面试必备】Swift 面试题及其答案

使用不当会增加运行时崩溃的可能性。在某些情况下,崩溃可能是有意的行为,但有更好的方法来达到相同的结果,例如,通过使用fatalError( )函数。...最常见的定义来自维基百科：...它是一种编程规范…它把电脑运算当做数学函数计算，避免状态改变和数据改变。很难说Swift是一个成熟的函数式语言，但是它已经具备了函数式语言的基础。...答案：const常量是一个在编译时或者编译解析时被初始化的变量。通过let创建的是一个运行时常量，是不可变得。它可以使用stattic 或者dynamic关键字来初始化。谨记它的的值只能被分配一次。...扩展可以给当前的类型添加新的行为，但是不能改变本身的类型或者本身的接口。如果你添加一个新的可存储的属性，你需要额外的内存来存储新的值。扩展并不能实现这样的任务。...同时注意，这个问题跟Swift1.2相关，所以Xcode的版本必须是6.4以上。

2.7K2 0

对预训练语言模型中跨语言迁移影响因素的分析

在Wikipedia上训练英语，在同样大小的Wiki-CC的一个随机子集上训练其他语言。在XNLI和Parsing上下降了两个点左右，在NER上下降了6个点左右。...一个可能的原因是，NER的标签WikiAnn数据由维基百科文本组成;源语言和目标语言在预训练的域差异更会影响性能。对于英文和中文的NER，都不是来自维基百科，性能只下降了大约2分。...模型对于不同语言的学习是相似的，模型可以通过对学习跨语言具有相似含义的文本表示进行对齐来减少它们的模型容量。...与解析相比，单语言MLM对齐和双语MLM在NER方面的性能差距更高，这表明解析所需的语法信息通过简单的映射对齐较为容易，而实体信息则需要更显式的实体对齐 Sentence-level对齐图6显示了采用最近邻搜索和余弦相似度的句子相似度搜索结果....， 2013)，这表明BERT模型在不同语言之间是相似的。这个结果更直观地说明了为什么仅仅共享参数就足以在多语言掩码语言模型中形成多语言表示。

7422 0

维基百科有6000多机器人编辑，那么问题来了，他们要吵架怎么办？

2014 年，机器人在维基百科的所有语言中完成了 15% 的编辑动作，他们识别、撤销破坏行为，锁定遭到频繁篡改的页面、识别错别字和病句、创建不同语言之间的链接、自动导入站外内容、进行数据挖掘、识别侵权的内容并为新手编辑者提供引导等等...但在德语维基百科上，互相撤销的数量则下降到了 24 次，而葡萄牙语机器人则高达 185 次。这证明在不同的语言（文化）之间机器人的冲突也不同。...这种跨语言的冲突在 2013 年得到了缓解，因为从 2013 年开始，维基百科开始使用 Wikidata 中转不同语言版本之间的词条，这明显阻隔了机器人之间互相“侵犯领土主权”的行为。...但同时，随着机器人数量的增加和机器人活跃度的增加，机器人之间的冲突数字正在变得越来越高。这有点像是网上曾经出现的过的让两个 Siri 进行对话的视频，他们会陷入无限的无厘头对话中一样。...这项研究的目的是为了更好地理解机器人在不同的社会环境中的反应，尤其是一个机器人在融入一个机器人群体时的行为。

9203 0

自然语言处理指南（第四部分）

有一种自然语言应用是识别类似的文件。如果您可以设计一种方法来识别一个文档中最有意义的句子，那么您还可以比较两个文档的含义。这个技术的另一种应用是信息检索。...为了在使用统计或机器学习技术的系统中使用，您可能只需要将很多真实世界的数据划分为适当的组（即维基百科的文章按类别划分）。...在某些方面，它可以被认为是一个先驱者的高级形式。它也可以用于类似的目的; 即它可以确保一个词的所有不同形式正确地连接到相同的概念。例如，它可以将所有猫的实例转变成猫，为了搜索的目的。...想象一下，约翰总是赢得我们的俄罗斯轮盘赌比赛： POS-tagger标识俄语是形容词，轮盘赌是名词 chunker将俄罗斯轮盘赌作为补充或两个相关的部分组合在一起 chunker可能会生成将被解析器使用的单元...解析最终结果与计算机语言相同：分析树。尽管这个过程是完全不同的，它可能从概率语法开始，甚至根本没有语法。通常还会有很多概率和统计方法。

7818 0

框架VS架构

框架是和架构比较相似的概念，而且两者有着较强的关联关系，所以在实际工作中，很多时候这两个概念并不是分得那么清晰，参考维基百科，框架的定义如下：软件框架（Software Framework）通常指的是为了实现某个业界标准或者完成特定基本任务的软件组件规范...，也指为了实现某某个软件组件规范时，提供规范做要求之基础功能的软件产品提炼维基百科定义的关键部分。...框架是组件规范，比如：MVC就是一种常见的开发规范，类似的有MVP、MVVM、J2EE等框架。框架提供基础功能的产品。...参考维基百科，这里简单的翻译为软件架构师指软件系统的“基础结构”，创造这些基础结构的准则，以及对这些结构的描述。...其实以上说法都是对的，造成这种现象的根本原因隐藏于架构的定义中，关键字“基础结构”，这个概念并没有很明确的说清楚从什么角度来讲的，从不同的角度或者维度，可以将系统划分为不同的结构，其实我们再“模块与组件

7145 0

AB实验的踩坑之路

从数学上解释，虽然，那么也有可能是成立的。来看一个经典的例子：一个美国大学里有商学院和法学院两个学院。单独看两个学院的录取数据，人们都怀疑有性别歧视。...假设下图中三种不同颜色的散点代表三个不同的企业的数据。如图所示，无论单独考虑任何一家企业，变量对于变量都有正的作用，即回归斜率为正。...PSM做的事情是帮助在历史数据中找到合适的人去做对比，人为地构建出特征相似的实验组和对照组，然后对两组进行比较。...从treatment=0的样本中挑选和treatment=1相似的样本，没有匹配的样本则丢弃掉。匹配之后实验组和对照组在PSM分值的分布是基本一致的。之后再去进行因果效应推断。...归根结底AB实验只是工具，如何用工具更好地为业务创造新的价值，才是我们的最终目的。参考： 维基百科-辛普森悖论陈强《一石二鸟：从迭代期望定律透视辛普森悖论》

9761 0

使用中文维基百科语料库训练一个word2vec模型并使用说明

我们通过WikiExtractor来提取xml文件中的文章，它是一个意大利人写的一个Python脚本专门用来提取维基百科语料库中的文章，将每个文件分割的大小为500M，它是一个通过cmd命令来设置一些参数提取文章...，提取步骤如下： a、WikiExtractor的安装将整个WikiExtractor项目clone或者下载到本地，打开cmd窗口， b、维基百科语料库文章的提取使用WikiExtractor来提取语料库中的文章...c、中文简体和繁体的转换因为维基百科语料库中的文章内容里面的简体和繁体是混乱的，所以我们需要将所有的繁体字转换成为简体。这里我们利用OpenCC来进行转换。...1、找出与指定词相似的词返回的结果是一个列表，列表中包含了制定个数的元组，每个元组的键是词，值这个词语指定词的相似度。...# 两个词的相似度 # #输入两个词计算相似度 two_corpus = ["腾讯","阿里巴巴"] res = model.similarity(two_corpus[0],two_corpus[1

2K2 0

入门 | 神经网络词嵌入：如何将《战争与和平》表示成一个向量？

one-hot 编码的局限 one-hot 编码的类别变量的操作实际上是一种简单的嵌入，其中每个类别都被映射成了不同的向量。...我使用的网络有两个并行的嵌入层，它们会将书籍和维基链接分别映射成 50 维的向量，另外还有一个点积层将这些嵌入结合成单个数值以供预测。...现在，对于维基百科上的每一本书，我们都有一个 50 数字的表示，其中更相似的书籍也彼此更接近。嵌入可视化嵌入最值得关注的一大优势是它们可被用于概念的可视化，比如小说与非小说之间的相对性。...这些可视化本身并不非常有用，但如果我们根据不同的书籍类型给它加上颜色，就能看出一些见解了。 ? 根据书籍类型上色后的嵌入可以清楚看到，书籍根据各自不同的类型聚集在了一起。...这并不完美，但仍然让人印象深刻，毕竟我们仅用 2 个数字就表示了维基百科上的所有书籍，而且这种表示方法还能展现出不同类型之间的差异。

4722 0

【NLP】ACL2020表格预训练工作速览

描述中每一个单词的表示也采用类似的方式进行计算。 3.2 预训练过程 3.2.1 训练数据 TaBert使用了从英文维基百科和WDC WebTable语料库中收集的表格和与其相邻的文本作为训练数据。...基准数据集：WikiTableQuestions是一个弱监督语义解析数据集，包含来自维基百科的22033条句子和2108个半结构化的网络表格。...3.4.3 预训练目标的影响 TaBert使用了两个预训练目标：遮蔽列预测（MCP）和单元值恢复（CVR）。表4给出了不同的预训练目标下TaBert的性能。...10%的表格过大，超过了512的序列长度限制 13%的数据没有选择任何单元格，需要对这种行为进行惩罚 2%的情况，答案是两个数值之间的差，是模型所处理不了的（“how long did anne churchill...尽管存在这一限制，TaPas仍然在3个数据集上取得了不错的效果，而且并没有遇到类似的错误。这说明语义解析数据集在组合性上还是存在局限性。

5.7K1 0

DNS查询暴露网页访问历史怎么办

某人访问DNS可以轻松查看用户的行为，同时DNS会显示一个IP地址，为用户创建分类器，并在IP地址发生变化时查找匹配分类器的行为。...即用户通过某个IP地址访问谷歌，之后访问喜欢的新闻、购物网站、政府服务或交通，足以在用户使用不同IP时识别用户。这样就不必跟踪Cookie就能了解这种“行为链”。　　...赫尔曼提供了两个观察报告解释为什么该问题令人担忧。　　...许多网站生成独特的DNS检索模式，在这种模式下，请求或多或少会被识别。对5000个维基百科条目、Heise 上6200个新闻帖子和排名前10万的网站分析后，赫尔曼发现大多数页面显示出了独特的需求模式。...执行DNS解析不仅会显示的DNS请求，还会显示该页面的任何请求。　　许多国家的数据保存机制会记录用户访问的IP地址，但会禁止记录浏览器访问历史。

2.3K1 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

每天上千条文本过时，累死志愿者的维基百科被MIT最新AI接手啦！

大规模异常滥用检测：基于局部敏感哈希算法——来自Uber Engineering的实践

大规模异常滥用检测：基于局部敏感哈希算法——来自Uber Engineering的实践

室温超导被判死刑？北大国科大等力证LK-99半悬浮样品不是超导，竟是铁磁材料

Graph Embedding：工业界常用的6种图表示学习方法

如何设计领域特定语言，实现终极业务抽象？

维基百科背后，有场旷日持久的机器人编辑之战，开发者都不曾料到

斯坦福NLP课程 | 第20讲 - NLP与深度学习的未来

1780亿个参数，能识别25万个词条，这个语言模型的诞生只为挑战王者GPT-3？

Flink数据源拆解分析(WikipediaEditsSource)

【面试必备】Swift 面试题及其答案

对预训练语言模型中跨语言迁移影响因素的分析

维基百科有6000多机器人编辑，那么问题来了，他们要吵架怎么办？

自然语言处理指南（第四部分）

框架VS架构

AB实验的踩坑之路

使用中文维基百科语料库训练一个word2vec模型并使用说明

入门 | 神经网络词嵌入：如何将《战争与和平》表示成一个向量？

【NLP】ACL2020表格预训练工作速览

DNS查询暴露网页访问历史怎么办

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐