首页
学习
活动
专区
圈层
工具
发布

吐血整理!12种通用知识图谱项目简介

DBpedia采用了RDF语义框架描述,DBpedia与Freebase、OpenCyc、BioRDF等其他数据集也建立了实体映射关系,目前拥有127种语言的超过2800万个实体与30亿个RDF三元组。...另外YAGO也融合了语言知识,比如将维基百科标签与WordNet中的概念(Synset)进行映射,以WordNet概念体系完成百科知识本体构建。很多知识条目也增加了时空属性维度描述。...Wikidata Wikidata顾名思义,与维基百科有着千丝万缕的联系。它由维基媒体基金会发起和维持,目前是一个可以众包协作编辑的多语言百科知识库。...Wikidata中的每个实体存在多个不同语言的标签、别名、描述,通过三元组声明表示每一个条目,比如实体“London-中文标签-伦敦”。...ConceptNet中拥有如“IsA、UsedFor、CapableOf”等多种固定关系,允许节点是自然语言片段或句子,但关系类型确定有利于降低知识获取的难度。

3.4K10
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    wikidata研究和应用

    这类信息最直接的方式就是维基百科,里面基本可以搜索到我们能获取的数据,因此我们就考虑怎么从维基百科拉取标准化数据。...wikidata实践以及优化策略 所有的语言或者db都应该从最简单的方式入手学习,所以从最简单的“hello world”入手,当然这里不是真实的hello world,这里只是一个最简单的实践例子。...第二步从item中获取P150属性,P150也可以通过该链接查看https://www.wikidata.org/wiki/Property:P150,它具体的意思就是行政区域实体。...脱离页面测试工具 如果需要服务端爬取,那么最基本的就是你需要用代码的方式来运行,wikidata的好处在于可以将查询结果灵活获取后分析结果数据,通过代码的方式落入我们自己需要的数据存储中。...如果没有,就尝试使用wikidata来获取你自己想要的数据吧。 本次研究人分析人员:corbinli、danhuang。

    2.5K40

    (含源码)「自然语言处理(QA)」基于常识的对话生成&&多任务学习(MTL)&&多实例学习&&结构化语义表示

    ,本文提出了一种新的基于知识的对话生成模型,该模型将问题表示和知识匹配从知识库问答任务中转移出来,以促进对话生成过程中的话语理解和事实知识的选择。...高质量的数据集包括1,500个复杂程度不同的俄语问题,英语机器翻译,对Wikidata的SPARQL查询,参考答案以及包含带有俄语标签的实体Wikidata样本(三元组)。...这类任务将一个自然语言问题映射到一个可执行的表单,例如SPARQL,这样就可以从给定的知识库中提取答案。...本文提出了第一个多语言QALD管道,它从训练数据中归纳出一个模型,用于将自然语言问题映射为概率逻辑形式。...本文方法学会了将通用语法依赖表示映射到基于DUDES的语言无关逻辑形式,然后将DUDES映射到SPARQL查询。我们的模型建立在因子图上,依赖于从关系图中提取的特征和相应的语义表示。

    1.8K20

    9款超赞的AI开源项目!| 本周Github精选

    从右至左:测试图-Ground Truth-预测结果 测试结果 项目链接 https://github.com/CSAILVision/semantic-segmentation-pytorch #支持快速成型的深度学习...本项目旨在帮助开发者加速自然语言处理研究进程。...代码里面提供的模型可以作为许多其他任务的底层 representation,作者希望通过这个代码能把大规模视频相关的研究带进寻常百姓家。...中实体在 wikidata 中对应的三元组关系 attributes.csv: 部分实体的属性(互动百科页面中直接得到) Demo链接 http://p2052x6533.iok.la:44910...项目链接 https://github.com/YuliangXiu/MobilePose-pytorch Meka #多标签分类器和评价器 MEKA 是一个基于 Weka 机器学习框架的多标签分类器和评价器

    1.6K40

    多语言互通:谷歌发布实体检索模型,涵盖超过100种语言和2000万个实体

    谷歌AI研究人员近期提出了一种新的技术,在这种技术中,可以将特定语言解析为与语言无关的知识库。 如果一段文本中提到一个实体 ,算法将识别出该实体在知识库中的相应条目(例如一篇维基百科文章)。...谷歌最近提出了一个单一实体检索模型,该模型涵盖了100多种语言和2000万个实体,表面上表现优于有限的跨语言任务。 多语言实体链接涉及将某些上下文中的文本片段链接到与语言无关的知识库中的对应实体。...但是他们并没有对这些知识库语言和其他语言之间的关系做出预先的假设。...WikiData 包含名称和简短的描述,通过与所有维基百科版本的紧密联系,它还将实体连接到从相应语言的维基百科页面提取出来的描述和其他特性当中。...研究人员从104种语言的与 WikiData 实体相关的大规模数据集中提取了6.84亿个 mention ,他们说这个数据集至少是以前只用英语进行实体链接工作时使用的数据集的六倍。

    89820

    【Wikidata】维基数据详解

    Wikidata也是维基媒体基金会的一个项目。 尤其是: “Wikidata作为其维基媒体姊妹项目结构化数据的中央存储,包括维基百科(...)。”...SPARQL的理念和概念 ---- ---- SPARQL是RDF数据库的查询语言。与SQL等关系数据库相比不同的是,项目不是任何表的一部分,而是像图表或网络一样相互链接的: ?...---- ---- 要从维基数据中获取数据,只需使用三元组(如上所述)来编写SPARQL查询。 请注意,我们使用特定的标识符来定义正确的关系和项目: SELECT ?...要查看国家/地区名称,我们只需使用标签服务并将其添加到我们的查询中: SELECT ?country ?countryLabel WHERE { ?...了解法国是欧盟的成员之一,我会检查其维基数据项目: 1. 在Wikipedia中打开法国以查看其Wikidata项目: ? 2. 检查WikiData项: ?

    4.4K20

    学界 | 史上最大的实体关系抽取数据集!清华大学自然语言处理团队发布 FewRel

    :http://aclweb.org/anthology/D18-1514 关系抽取(relation extraction)是自然语言处理中的一项重要任务,其通过从纯文本中抽取关系事实,来构建和扩充知识图谱...关系抽取是知识获取的重要途径,对于理解自然语言和理解世界知识意义重大。 目前的关系抽取模型面临着一个极大的问题:训练数据不足。...相比计算机视觉中的相关任务,语言相关的标注更加困难,需要标注者掌握相应的知识。就如下表 1 中所示,已有精标注关系抽取数据集在关系数量和实例数量上都较少,这极大限制了关系抽取的发展。 ?...与其相对应的知识图谱 Wikidata,则是 Wikipedia 中知识的结构化。目前 Wikidata 中已有超过 5000 万个实体,千余种关系。...人可以接触很少的例子而学会认知一种新的事物,从这一点出发,深度学习模型能否具备从少量样本中快速学习的能力呢?

    1.9K41

    Github 项目推荐 | 农业知识图谱(KG):农业领域的信息检索,命名实体识别

    ├── dfs_tree_crawler // 爬取互动百科农业实体树形结构的爬虫 └── wikidataSpider // 爬取wiki中的关系 可复用资源 hudong_pedia.csv...---facebook开源的词向量计算框架 pinyin ---获取中文首字母小工具 预训练好的词向量模型wiki.zh.bin(仅部署网站的话不需要下载) ---下载链接:http://s3-us-west.../neo4j.conf中的dbms.memory.heap.initial_size 和dbms.memory.heap.max_size调大点。...导入完成后再把值改回去) 进入/wikidataSpider/wikidataProcessing中,将new_node.csv,wikidata_relation.csv,wikidata_relation2....csv三个文件放入neo4j的import文件夹中(运行relationDataProcessing.py可以得到这3个文件),然后分别运行 // 导入新的节点 LOAD CSV WITH HEADERS

    3.3K10

    自然语言处理学术速递

    我们还表明,经过训练的模型可以从其训练分布中推广出来,并且通过使用更多样化的数据集(特别是通过使用具有非独立和相同分布系数的矩阵进行训练),可以大大提高域外精度。...这两个过程都会在文本中引入错误,因此很难将数据用于除阅读之外的其他目的,即通过其他应用程序(如电子学习、语言学习、电子教程、数据挖掘、信息检索以及更专业的系统,如TIFLOGIC软件)处理这些文本,特别是面向人的盲应用程序...这项调查显示,当前Wikidata特定实体链接数据集的注释方案与其他知识图(如DBpedia)的注释方案没有区别。因此,自然适合Wikidata的多语言和时间相关数据集的潜力并没有被释放。...此外,我们还表明,大多数实体链接方法使用Wikidata的方式与任何其他知识图使用Wikidata的方式相同,没有机会利用Wikidata特定的特性来提高质量。...由于礼貌可能成为冲突和误解的主要原因之一,因此从跨文化角度研究和理解礼貌是一个非常重要的现象,特别是在机器翻译等目的中。

    64120

    BERT的新草料!Google从知识图谱自动生成文本,预训练史诗级增强!

    Google最近在NAACL 2021上发了一篇文章,可以从知识图谱中自动生成文本数据,再也不怕语料不够用了!...除了非结构化的文本之外,获取信息的另一种来源是知识图谱 ,它是一种结构化数据。...但现实的矛盾是,知识图谱和文本之间存在不同的结构形式,导致它们很难与现有的语言模型中的语料库整合。...文中使用的数据集主要是公开的英文知识图谱Wikidata KG,模型能够将其转换为自然语言文本,以创建一个合成语料库。...虽然在诸如 WebNLG 等基准数据集的数据到文本生成方面取得了重大进展,但将整个 KG 转换为自然文本还有其他挑战。大型的实体和关系比小型基准数据集更加庞大和多样化。

    51130

    NIPS22 | 重新审视区域视觉特征在基于知识的视觉问答中的作用

    作者观察到,在目前最先进的 knowledge-based VQA 方法中: 从整个图像或利用滑动窗口的方式提取视觉特征来检索知识,而忽略了对象区域 内部/之间 的重要关系; 最终的预测模型没有很好地利用视觉特征...Explicit Knowledge External Knowledge Base 从Wikidata构造一个子集来构建外部知识库。...中的每一项都由一个实体(即上一步GLIP模型提取的Region标签)和相应的描述组成,例如,实体“pegboard”和描述“board wall covering with regularly-spaced...Implicit Knowledge 大型语言模型,如GPT-3,从它的训练语料库中天然的记忆了大量的常识知识。因此,利用GPT-3作为隐性知识库,将任务重新定义为开放领域的文本问题回答。...直到最近,PICa首次将预训练的语言模型GPT-3作为知识库用于基于知识的VQA任务,KAT进一步引入Wikidata作为外部知识资源,这两个方法获得了显著的性能提升。

    1.2K10

    伯克利&清华从GPT等预训练语言模型中无监督构建出知识图谱!

    因此,我们考虑通过最简单的方式——搜索,来尝试获取注意力权重矩阵中的知识。...如图2(a)所示,在第1步生成中(即图中的橙色箭头),“is”被加入到当前生成的候选三元组中得到“(Dylan, is”:因为如图2(b)中所示,在从Dylan出发的注意力权重中(矩阵第一列),is具有最大的注意力分数...值得注意的是,Wikidata中知识的构建,很多并非从Wikipedia的文本得来,所以实验的F1表现要比小规模、完全从目标文本中构建的TAC KBP要低一些。...2、AI科技评论:从预训练语言模型中构建知识图谱,这项工作的idea怎么来的? 作者:源自一次偶然的实验,发现BERT和GPT-2中的注意力权重可以连接句子中可能的知识成分。...Figure 14-16代表了部分不存在于Wikidata中的知识。论文中从第13页开始的附录中提供了方法的更多细节和结果。 具体例子如:我们在图3中展示了基于文章中方法生成的知识图谱的一小部分。

    2K20

    RDF 和 SPARQL 初探:以维基数据为例

    维基百科有一个姐妹项目,叫做"维基数据"(Wikidata)。你可以从维基百科左侧边栏点进去。 ? "维基数据"将维基百科的所有数据,整理成一个可以机器处理的数据库,方便查询。...一、RDF 的含义 大家都知道,关系型数据库是目前使用最广泛的数据库,将数据抽象成行和列的表格关系。 ? 但是,现实世界不像表格,更像网络。各种事物通过错综复杂的关系,连接在一起,组成一张网。 ?...上面这段话,是自然语言的文本。我们先画出网络关系图。 ? 然后,转成 RDF 三元组。首先,给出谓语的 URL,及其对应的前缀。...三、SPARQL 查询语言 SPARQL 是 RDF 数据库的查询语言,跟 SQL 的语法很像。它的核心思想是,根据给定的谓语动词,从三元组提取符合条件的主语或宾语。 SPARQL 查询的语法如下。...area的文字标签(满足谓语rdfs:label),同时增加了一个过滤语句FILTER,要求只返回中文标签。 运行这段查询,就可以看到每个地区的中文名字了。 ? 接着,再增加一个人口变量?

    2.1K10

    人工智能学术速递

    这项调查显示,当前Wikidata特定实体链接数据集的注释方案与其他知识图(如DBpedia)的注释方案没有区别。因此,自然适合Wikidata的多语言和时间相关数据集的潜力并没有被释放。...此外,我们还表明,大多数实体链接方法使用Wikidata的方式与任何其他知识图使用Wikidata的方式相同,没有机会利用Wikidata特定的特性来提高质量。...这两个过程都会在文本中引入错误,因此很难将数据用于除阅读之外的其他目的,即通过其他应用程序(如电子学习、语言学习、电子教程、数据挖掘、信息检索以及更专业的系统,如TIFLOGIC软件)处理这些文本,特别是面向人的盲应用程序...,Jacob Montiel 摘要:多标签学习在考虑标签相关性的同时,从给定标签集中预测未知实例的标签子集。...我们还提供了从证券交易市场获得的数据的实验结果,证实了理论分析,并解释了我们的技术如何适用于其他学习增强应用程序。

    1.1K10

    2020年,知识图谱都有哪些研究风向?

    为了编码数据库模式,他们定义了列和表之间显式的边。作者还定义了初始的数据库模式和值的连接,从而获得候选的列和表。此外,列、表,以及问题词例将被一同送入改良后的自注意力层。...我建议大家重新思考一下现在的知识图谱嵌入流程(尤其是在生产场景下)。例如,通过 PyTorch-BigGraph获取的 78M Wikidata 实体的 200 维嵌入需要 1100GB 的存储空间。...3 从数据到文本的自然语言生成:准备 Transformer 随着知识图谱(更广义地说是结构化数据)在 2020 年被广泛应用于 NLP 领域,我们可以看到大量利用一系列 RDF 三元组/AMR 图/一系列表单元的自然语言生成...该方法关键的部分在于向标准的语言模型损失中添加了两种自编码损失,它们是专门为了捕获与语言化图的结构而设计的。第一个损失重建了三元关系,另一个损失则重建了线性化输入图的节点和连边的标签。...这是一个新的数据集,由从《老友记》中的两千段对话中提取出的 36 中关系组成。

    1.7K30

    Wikipedia pageview数据获取(bigquery)

    该数据集自2015年五月启用,其具体的pageview定义为对某个网页内容的请求,会对爬虫和人类的访问量进行区分,粒度为小时级别,如下图: bigquery介绍 维基百科数据可以通过其API获取。...但是API只能拿到每个页面天级别的数据或者全部页面小时级的数据,如果需要获取每个页面小时级的数据,则需要通过其原始数据文件进行分析。...` WHERE datehour BETWEEN "2015-01-01" AND "2016-01-01" GROUP BY datehour,wiki; 获取各个语言版本维基的首页数据。...该csv文件至少有两列,一列为日期,一列为小时级别的访问量。 数据使用top100en数据为基础,放在E盘的wikidata中。...此时记录下来,循环结束后将其从baseData中删除 errorList.append(key) print("error_list of year {} is

    3K10

    scalajava等其他语言从CSV文件中读取数据,使用逗号,分割可能会出现的问题

    众所周知,csv文件默认以逗号“,”分割数据,那么在scala命令行里查询的数据: ?...可以看见,字段里就包含了逗号“,”,那接下来切割的时候,这本应该作为一个整体的字段会以逗号“,”为界限进行切割为多个字段。 现在来看看这里的_c0字段一共有多少行记录。 ?...接着还是查询这个字段的有多少行 ? 很显然,60364>60351 这就是把一个字段里本来就有的逗号当成了分隔符,导致一个字段切割为两个甚至多个字段,增加了行数。...所以如果csv文件的第一行本来有n个字段,但某个字段里自带有逗号,那就会切割为n+1个字段。...自然就会报数组下标越界的异常了 那就把切割规则改一下,只对引号外面的逗号进行分割,对引号内的不分割 就是修改split()方法里的参数为: split(",(?

    7.2K30
    领券