首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

每天上千条文本过时,累死志愿者维基百科被MIT最新AI接手啦!

“中立屏蔽” 依托一系列文本生成技术,系统得以识别句子矛盾信息,并将两个独立句子融合在一起。将维基百科文章中“过时”句子和“声明”句子作为输入,声明句子包含了更新和冲突信息。...每个句子对会被标记为三种状态:同意、不同意、中立。 “同意”代表句子之间包含事实信息一致。“不同意”代表两个句子之间存在矛盾信息。“中立”代表没有足够信息来判别是否同意。...系统依据声明改写过时句子之后,所有标记为不同句子将变为同意状态。这需要两个独立模型来得到期望结果。...判断虚假信息模型通常需要很多“同意-不同意”句子对作为数据集。 在这些句子对里,声明要么包含与维基百科给定“证据”句子相匹配(同意)信息,要么包含由人工修订后与证据句子矛盾信息(不同意)。...研究者在维基百科项目中使用了同样删除和融合技术来平衡数据集中不同意-同意”对,以缓解偏差。对一些“不同意”句子对,他们使用修正语句中错误信息来为句子重新生成一个假“证据”。

42810

大规模异常滥用检测:基于局部敏感哈希算法——来自Uber Engineering实践

LSH 在 Uber 应用 LSH 在 Uber 主要用于对有欺诈行为司机判断,基于空间特性检测相似的行程。...图1显示了我们上方代码结果,按标题和内容显示文章。我们将使用该内容作为我们哈希键,并在后面的实验中大致找到类似的维基百科文章。...[uber-lsh-fig-5-similarity-join-lists.png] 图5:近似相似连接列出了类似的维基百科文章,并设置哈希表数量。 图5演示了如何设置哈希表数量。...这种速度与精度折中算法,证明了LSH能从每天TB级数据中检测欺诈行为强大能力。 下一步 尽管我们LSH模型能够帮助Uber识别司机欺诈行为,但我们工作还远远没有完成。...这两个更新实现将能对两个数据点之间汉明距离(Hamming distance)进行位采样,并提供机器学习任务中常用余弦距离随机投影符号。

4.1K110
您找到你想要的搜索结果了吗?
是的
没有找到

大规模异常滥用检测:基于局部敏感哈希算法——来自Uber Engineering实践

因此, LSH 算法能使具有不同程度重叠行程识别更为容易。...图1显示了我们上方代码结果,按标题和内容显示文章。我们将使用该内容作为我们哈希键,并在后面的实验中大致找到类似的维基百科文章。...[uber-lsh-fig-5-similarity-join-lists.png] 图5:近似相似连接列出了类似的维基百科文章,并设置哈希表数量。 图5演示了如何设置哈希表数量。...这种速度与精度折中算法,证明了LSH能从每天TB级数据中检测欺诈行为强大能力。 下一步 尽管我们LSH模型能够帮助Uber识别司机欺诈行为,但我们工作还远远没有完成。...这两个更新实现将能对两个数据点之间汉明距离(Hamming distance)进行位采样,并提供机器学习任务中常用余弦距离随机投影符号。

3.6K90

室温超导被判死刑?北大国科大等力证LK-99半悬浮样品不是超导,竟是铁磁材料

在两种温度下,都观察到了类似的行为。 当磁场从0增加到1500 e时,磁化强度随着磁场增加而增加,然后磁化强度随着磁场增加几乎线性减小,甚至变成负值。 这种现象表明样品S1中存在大量绝缘成分。...由于这个样品太小无法准确称重,因此团队在图4中直接以「emu」为垂直轴单位表示。 磁化率-温度(M-T)曲线FC和ZFC测量结果显示出与样品S1类似的正值和类似的分支结构。...与样本S1和S2不同是,当磁场增加到1500 Oe以上时,磁化率并没有随磁场增加而降低,而是以较低斜率增加。 为了验证样品是否具有零电阻率,研究人员对颗粒样品进行了电阻测量,如下图。...结果表明,合成样品有半导体传输行为,其电阻率随着温度降低而逐渐增大,从 增加到300 K到2 K时提高了一个数量级。...世界复现团队一览 刚刚,维基百科也更新了北大、以及印度在LK-99最新研究。 其中,标红内容框,代表复现失败。 如下是在理论研究方面的进展。

19820

Graph Embedding:工业界常用6种图表示学习方法

同质性和结构性含义可以从下图进行说明,同质性表示两个相连节点应该具有相似的embedding表示,如图中节点u和节点S₁直接相连,则他们embedding应该距离较近。...结构性表示两个结构上相似的两个节点应该具有相似的embedding表示,如图中节点u和节点S₆分别处在两个集群中心位置,则这两个节点embedding应该比较相似。...这里我是这么理解,如上图所示,节点u和节点S₆分别处于两个集群中心位置,如果使用BFS进行游走,则生成序列一定都会大量出现中心位置节点,后续skipGram算法对于这两个中心位置节点就有可能学习到相似的...相反,如果采用DFS算法,距离较远两个节点就更有可能出现在生成同一条序列中,这两个节点会有许多相同上下文节点,因此后续skipGram算法能够学习到相似的embedding表示。...二阶似度优化目标同样是两个分布距离: 文中认为不同节点重要性不同,因此用λi进行加权,为了方便,文中设置 。

2.6K31

如何设计领域特定语言,实现终极业务抽象?

大多数情况下,外部 DSL 可以转换为一种与核心应用程序操作环境兼容资源,也可以转换为用于构建核心应用通用目的编程语言。...更多信息,建议去阅读《领域特定语言》一书。 定义呈现模式 ? 领域特定语言嘛,从需求上就是对于业务呈现简化。根据不同呈现模式,去解析源码,得到我们所需要数据结构。...呈现模式 如下是常见领域特定语言使用模式 [wiki_dsl]: 独立工具,如 Makefile 在编译时或实时转换为宿主语言 嵌入式领域特定语言 …… 可以参见维基百科,我就不再去翻译了。...在特定领域里,都会使用特定词汇来描述相关之间关系。这个关系,便是我们设计语法一个关键。 如在 Java 语言里,使用: implement、 extends 来表示两个类之间关系。...解析器生成器 经典 Lex & Yacc 是你可以考虑范围,在不同语言里也有一些相似的实现。 对于我来说,以下是我常用一些解析器生成器。 Antlr。支持主流语言 Peg.js。

1.3K52

维基百科背后,有场旷日持久机器人编辑之战,开发者都不曾料到

王新民 | 编译自Gizmodo 维基百科上的人类编辑,经常由于修改意见不同而产生冲突。一份英国新研究表明,维基百科软件机器人之间,也有类似的在线冲突。...有趣是,根据网站机器人所处不同文化环境,其行为会有所不同。...同一时期内,在英语版维基百科上每个机器人对其他机器人工作进行了105次修订,这是人类编辑类似行为三倍。在德语版上,机器人之间是最和谐,在过去十年里平均只有24次冲突。...研究作者之一,Taha Yasseri指出:“一辆自动驾驶汽车在德国高速公路和意大利托斯卡纳山脉上会以不同模式进行驾驶。同样地,机器人所处在线基础设施将对他们行为有一定影响。”...Yasseri说,维基百科机器人是由来自不同国家的人设计,这可能是致网上冲突部分原因。由于维基百科语言版本中使用技术差异,不同维基百科社区文化不同在机器人之间产生了复杂互动。

815110

斯坦福NLP课程 | 第20讲 - NLP与深度学习未来

会获得不同词嵌入,嵌入空间结构有很多规律性 如上图所示,是英语与意大利语词嵌入,矢量空间看上去彼此十分不同,但是结构是十分似的 可以理解为,在英语词嵌入空间中 cat 与 feline 距离与意大利语词典如空间中...gatto 和 felino 之间距离是相似的 我们在跨语言词嵌入中想要学习不同种语言词嵌入之间对齐方式 [无监督单词翻译] 首先在单语语料库上运行 word2vec 以得到单词嵌入 X 和...但如下图所示趋势并不明朗 3.11 GPT-2关事件 [GPT-2关事件] [GPT-2关事件] [GPT-2关事件] [GPT-2关事件] 关于GPT2是否应该开源一些争端 [GPT-2关事件...] 对于GPT2是否应该开源一些说法 [GPT-2关事件] [GPT-2关事件] NLP专家应该做这些决定吗?...[QuAC:基于上下文问答] 学生问问题,老师回答对话 教师看到维基百科文章主题,学生不喜欢 [QuAC:基于上下文问答] 仍然和人类水平有很大差距 4.5 HotPotQA [HotPotQA

1.1K41

1780亿个参数,能识别25万个词条,这个语言模型诞生只为挑战王者GPT-3?

而Jurassic-1训练数据集就有3000亿个token,全都是从维基百科、新闻出版物、StackExchange等英语网站编译而来。...平均每字节对数概率表明模型在不同领域适用性 研究人员表示,在几乎所有的语料库中,Jurassic-1模型都领先于GPT-3。 在小样本学习测试上则各有输赢,不过平均得分两个模型持平。...在基准测试中,Jurassic-1回答学术和法律问题表现已经能与GPT-3当,甚至表现得更好。 GPT-3需要11个token,但Jurassic-1只需要4个,样本效率大大增加。...当然,对于语言模型来说,最困难莫过于逻辑和数学问题。 而Jurassic-1 Jumbo已经可以解决两个大数相加这种非常简单算术问题。...有研究人员指出,GPT-3等类似的语言模型生成文本可能会激化极右翼极端主义意识形态和行为

49730

Flink数据源拆解分析(WikipediaEditsSource)

,这对我们今后做自定义数据源也有很好参考作用; 官方解释 以下是官网对消息来源说明,维基百科提供了一个IRC协议通道,从这个通道可以获取对维基百科所做编辑行为日志: Wikipedia provides...如上图所示,RichFunction接口负责资源开启关闭以及环境上下文,而SourceFunction接口则是和数据生产行为开始和停止有关,这些接口最终都在WikipediaEditSource实现;...; 和维基百科消息服务器建立连接后做事情 为了弄明白Flink是如何与维基百科数据源建立连接,先把ircStream.connect()这段代码展开,对应是IRCConnection类connect...,prepare方法做了两个重要事情:启动一个子线程、发送IRC协议注册信息,接下来看启动子线程做了什么; 打开IRCConnectionrun方法: public void run() {...,就是让这个子线程负责读取远端发送字符串,每读到一行就调用get方法去处理; get方法内容很多,做事情是根据IRC协议解析这个字符串再做不同处理,这里我们只要关注下面这段,就是收到一条业务消息后如何处理

57820

【面试必备】Swift 面试题及其答案

使用不当会增加运行时崩溃可能性。在某些情况下,崩溃可能是有意行为,但有更好方法来达到相同结果,例如,通过使用fatalError( )函数。...最常见定义来自维基百科:...它是一种编程规范…它把电脑运算当做数学函数计算,避免状态改变和数据改变。 很难说Swift是一个成熟函数式语言,但是它已经具备了函数式语言基础。...答案:const常量是一个在编译时或者编译解析时被初始化变量。通过let创建是一个运行时常量,是不可变得。它可以使用stattic 或者dynamic关键字来初始化。谨记它值只能被分配一次。...扩展可以给当前类型添加新行为,但是不能改变本身类型或者本身接口。如果你添加一个新可存储属性,你需要额外内存来存储新值。扩展并不能实现这样任务。...同时注意,这个问题跟Swift1.2关,所以Xcode版本必须是6.4以上。

2.7K20

对预训练语言模型中跨语言迁移影响因素分析

在Wikipedia上训练英语,在同样大小Wiki-CC一个随机子集上训练其他语言。在XNLI和Parsing上下降了两个点左右,在NER上下降了6个点左右。...一个可能原因是,NER标签WikiAnn数据由维基百科文本组成;源语言和目标语言在预训练域差异更会影响性能。对于英文和中文NER,都不是来自维基百科,性能只下降了大约2分。...模型对于不同语言学习是相似的,模型可以通过对学习跨语言具有相似含义文本表示进行对齐来减少它们模型容量。...与解析相比,单语言MLM对齐和双语MLM在NER方面的性能差距更高,这表明解析所需语法信息通过简单映射对齐较为容易,而实体信息则需要更显式实体对齐 Sentence-level对齐 图6显示了采用最近邻搜索和余弦相似度句子相似度搜索结果...., 2013),这表明BERT模型在不同语言之间是相似的。这个结果更直观地说明了为什么仅仅共享参数就足以在多语言掩码语言模型中形成多语言表示。

74220

维基百科有6000多机器人编辑,那么问题来了,他们要吵架怎么办?

2014 年,机器人在维基百科所有语言中完成了 15% 编辑动作,他们识别、撤销破坏行为,锁定遭到频繁篡改页面、识别错别字和病句、创建不同语言之间链接、自动导入站外内容、进行数据挖掘、识别侵权内容并为新手编辑者提供引导等等...但在德语维基百科上,互相撤销数量则下降到了 24 次,而葡萄牙语机器人则高达 185 次。 这证明在不同语言(文化)之间机器人冲突也不同。...这种跨语言冲突在 2013 年得到了缓解,因为从 2013 年开始,维基百科开始使用 Wikidata 中转不同语言版本之间词条,这明显阻隔了机器人之间互相“侵犯领土主权”行为。...但同时,随着机器人数量增加和机器人活跃度增加,机器人之间冲突数字正在变得越来越高。这有点像是网上曾经出现两个 Siri 进行对话视频,他们会陷入无限无厘头对话中一样。...这项研究目的是为了更好地理解机器人在不同社会环境中反应,尤其是一个机器人在融入一个机器人群体时行为

92030

自然语言处理指南(第四部分)

有一种自然语言应用是识别类似的文件。如果您可以设计一种方法来识别一个文档中最有意义句子,那么您还可以比较两个文档含义。 这个技术另一种应用是信息检索。...为了在使用统计或机器学习技术系统中使用,您可能只需要将很多真实世界数据划分为适当组(即维基百科文章按类别划分)。...在某些方面,它可以被认为是一个先驱者高级形式。它也可以用于类似的目的; 即它可以确保一个词所有不同形式正确地连接到相同概念。 例如,它可以将所有猫实例转变成猫,为了搜索目的。...想象一下,约翰总是赢得我们俄罗斯轮盘赌比赛: POS-tagger标识俄语是形容词,轮盘赌是名词 chunker将俄罗斯轮盘赌作为补充或两个相关部分组合在一起 chunker可能会生成将被解析器使用单元...解析 最终结果与计算机语言相同:分析树。尽管这个过程是完全不同,它可能从概率语法开始,甚至根本没有语法。通常还会有很多概率和统计方法。

78180

框架VS架构

框架是和架构比较相似的概念,而且两者有着较强关联关系,所以在实际工作中,很多时候这两个概念并不是分得那么清晰,参考维基百科,框架定义如下: 软件框架(Software Framework)通常指的是为了实现某个业界标准或者完成特定基本任务软件组件规范...,也指为了实现某某个软件组件规范时,提供规范做要求之基础功能软件产品 提炼维基百科定义关键部分。...框架是组件规范,比如:MVC就是一种常见开发规范,类似的有MVP、MVVM、J2EE等框架。 框架提供基础功能产品。...参考维基百科,这里简单翻译为软件架构师指软件系统“基础结构”,创造这些基础结构准则,以及对这些结构描述。...其实以上说法都是对,造成这种现象根本原因隐藏于架构定义中,关键字“基础结构”,这个概念并没有很明确说清楚从什么角度来讲,从不同角度或者维度,可以将系统划分为不同结构,其实我们再“模块与组件

71450

AB实验踩坑之路

从数学上解释,虽然 ,那么 也有可能是成立。 来看一个经典例子: 一个美国大学里有商学院和法学院两个学院。单独看两个学院录取数据,人们都怀疑有性别歧视。...假设下图中三种不同颜色散点代表三个不同企业数据。如图所示,无论单独考虑任何一家企业,变量 对于变量 都有正作用,即回归斜率为正。...PSM做事情是帮助在历史数据中找到合适的人去做对比,人为地构建出特征相似的实验组和对照组,然后对两组进行比较。...从treatment=0样本中挑选和treatment=1似的样本,没有匹配样本则丢弃掉。匹配之后实验组和对照组在PSM分值分布是基本一致。之后再去进行因果效应推断。...归根结底AB实验只是工具,如何用工具更好地为业务创造新价值,才是我们最终目的。 参考: 维基百科-辛普森悖论 陈强《一石二鸟:从迭代期望定律透视辛普森悖论》

97610

使用中文维基百科语料库训练一个word2vec模型并使用说明

我们通过WikiExtractor来提取xml文件中文章,它是一个意大利人写一个Python脚本专门用来提取维基百科语料库中文章,将每个文件分割大小为500M,它是一个通过cmd命令来设置一些参数提取文章...,提取步骤如下: a、WikiExtractor安装 将整个WikiExtractor项目clone或者下载到本地,打开cmd窗口, b、维基百科语料库文章提取 使用WikiExtractor来提取语料库中文章...c、中文简体和繁体转换 因为维基百科语料库中文章内容里面的简体和繁体是混乱,所以我们需要将所有的繁体字转换成为简体。这里我们利用OpenCC来进行转换。...1、找出与指定词相似的词 返回结果是一个列表,列表中包含了制定个数元组,每个元组键是词,值这个词语指定词相似度。...# 两个相似度 # #输入两个词计算相似度 two_corpus = ["腾讯","阿里巴巴"] res = model.similarity(two_corpus[0],two_corpus[1

2K20

入门 | 神经网络词嵌入:如何将《战争与和平》表示成一个向量?

one-hot 编码局限 one-hot 编码类别变量操作实际上是一种简单嵌入,其中每个类别都被映射成了不同向量。...我使用网络有两个并行嵌入层,它们会将书籍和维基链接分别映射成 50 维向量,另外还有一个点积层将这些嵌入结合成单个数值以供预测。...现在,对于维基百科每一本书,我们都有一个 50 数字表示,其中更相似的书籍也彼此更接近。 嵌入可视化 嵌入最值得关注一大优势是它们可被用于概念可视化,比如小说与非小说之间相对性。...这些可视化本身并不非常有用,但如果我们根据不同书籍类型给它加上颜色,就能看出一些见解了。 ? 根据书籍类型上色后嵌入 可以清楚看到,书籍根据各自不同类型聚集在了一起。...这并不完美,但仍然让人印象深刻,毕竟我们仅用 2 个数字就表示了维基百科所有书籍,而且这种表示方法还能展现出不同类型之间差异。

47220

【NLP】ACL2020表格预训练工作速览

描述中每一个单词表示也采用类似的方式进行计算。 3.2 预训练过程 3.2.1 训练数据 TaBert使用了从英文维基百科和WDC WebTable语料库中收集表格和与其相邻文本作为训练数据。...基准数据集:WikiTableQuestions是一个弱监督语义解析数据集,包含来自维基百科22033条句子和2108个半结构化网络表格。...3.4.3 预训练目标的影响 TaBert使用了两个预训练目标:遮蔽列预测(MCP)和单元值恢复(CVR)。表4给出了不同预训练目标下TaBert性能。...10%表格过大,超过了512序列长度限制 13%数据没有选择任何单元格,需要对这种行为进行惩罚 2%情况,答案是两个数值之间差,是模型所处理不了(“how long did anne churchill...尽管存在这一限制,TaPas仍然在3个数据集上取得了不错效果,而且并没有遇到类似的错误。这说明语义解析数据集在组合性上还是存在局限性。

5.7K10

DNS查询暴露网页访问历史 怎么办

某人访问DNS可以轻松查看用户行为,同时DNS会显示一个IP地址,为用户创建分类器,并在IP地址发生变化时查找匹配分类器行为。...即用户通过某个IP地址访问谷歌,之后访问喜欢新闻、购物网站、政府服务或交通,足以在用户使用不同IP时识别用户。这样就不必跟踪Cookie就能了解这种“行为链”。   ...赫尔曼提供了两个观察报告解释为什么该问题令人担忧。   ...许多网站生成独特DNS检索模式,在这种模式下,请求或多或少会被识别。对5000个维基百科条目、Heise 上6200个新闻帖子和排名前10万网站分析后,赫尔曼发现大多数页面显示出了独特需求模式。...执行DNS解析不仅会显示DNS请求,还会显示该页面的任何请求。   许多国家数据保存机制会记录用户访问IP地址,但会禁止记录浏览器访问历史。

2.3K10
领券