从句子中提取名称实体及其对应的数值 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

【Ai生态开发】Spring AI上架，打造专属业务大模型，AI开发再也不是难事！

Spring AI 是 AI 工程师的一个应用框架，它提供了一个友好的 API 和开发 AI 应用的抽象，旨在简化 AI 应用的开发工序。

01

探索关系抽取技术：常用算法与应用

关系抽取（Relation Extraction, RE）是自然语言处理（NLP）领域的一个重要任务，其主要目的是从文本中识别实体（entities）之间的预定义语义关系。这一任务对于构建知识图谱、信息检索、问答系统等应用至关重要，因为它能够帮助机器理解和利用文本中的结构化知识。

01

您找到你想要的搜索结果了吗？

是的

没有找到

入门 | 自然语言处理是如何工作的？一步步教你构建 NLP 流水线

计算机非常擅长使用结构化数据，例如电子表格和数据库表。但是我们人类通常用文字交流，而不是使用电子表格来交流。这对计算机来说不是一件好事。

03

知识图谱:一种从文本中挖掘信息的强大数据科学技术

梅西(Lionel Messi)无需介绍,甚至不喜欢足球的人都听说过，最伟大的球员之一为这项运动增光添彩。这是他的维基百科页面：

01

「X」Embedding in NLP｜初识自然语言处理（NLP）

为了方便大家能够深入了解向量数据库与 NLP 的关系及应用，我们上线了「X」Embedding in NLP 系列专题，分为初阶和进阶两部分。本文为初阶第一篇，将详细介绍 NLP 以及以 Zilliz Cloud、Milvus 为代表的向量数据库是如何为 NLP 赋能的。

01

利用维基百科促进自然语言处理

作者 | Nicola Melluso 编译 | VK 来源 | Towards Data Science

03

从“London”出发，8步搞定自然语言处理（Python代码）

【新智元导读】自然语言处理是AI的一个子领域，从人们日常沟通所用的非结构化文本信息中提取结构化数据，以便计算机理解。本文用通俗易懂的语言深入浅出的介绍了自然语言处理，并用Python实现了几个非常有趣的实例。

02

用深度学习做命名实体识别(七)-CRF介绍

CRF，全称 Conditional Random Fields，中文名：条件随机场。是给定一组输入序列的条件下，另一组输出序列的条件概率分布模型。

02

【他山之石】python从零开始构建知识图谱

“他山之石，可以攻玉”，站在巨人的肩膀才能看得更高，走得更远。在科研的道路上，更需借助东风才能更快前行。为此，我们特别搜集整理了一些实用的代码链接，数据集，软件，编程技巧等，开辟“他山之石”专栏，助你乘风破浪，一路奋勇向前，敬请关注。

02

BERT之后，GLUE基准升级为SuperGLUE：难度更大

过去一年来，机器学习模型在 NLP 领域很多语言理解任务上的表现都获得了极大提升。Elmo、BERT、ALICE、之前被称为 BigBird 的模型（现在叫做 MT-DNN）都取得了显著进展，OpenAI GPT 也有一种非常有效的方案，即将用简单的多任务在大量文本数据集上预训练的语言建模方法与将所得模型适应到下游应用的迁移学习技术结合起来。

02

用维基百科的数据改进自然语言处理任务

自然语言处理(NLP)正在兴起。计算语言学和人工智能正在加入它们的力量，促进突破性发现。虽然研究集中在显著提高NLP技术上，但企业正在把这项技术视为一项战略资产。这种由NLP引导的突破性创新的主要作用是大量可用的文本数据。谈到数字化时，尤其是对于企业来说，重要的是要记住文档是知识的主要来源。

01

NLP 教程：词性标注、依存分析和命名实体识别解析与应用

当我们提到数据科学时，我们经常想到的是针对数字的统计分析。但实际上，更为常见的是由机构所产生的大量非结构化文本数据，它们需要被量化和分析。其中的一些例子有社交网络评论，产品评价，电邮，采访稿。

03

用深度学习从非结构化文本中提取特定信息

这是与我们工作有关的一系列技术职务中的第一个。在iki项目中，涵盖了一些机器学习的应用案例和用于解决各种自然问题的深度学习技术的语言处理和理解问题。

03

文档级关系抽取方法，EMNLP 2020 paper

目前大多数关系抽取方法抽取单个实体对在某个句子内反映的关系，在实践中受到不可避免的限制：在真实场景中，大量的关系事实是以多个句子表达的。文档中的多个实体之间，往往存在复杂的相互关系。

03

NLP系统体系结构及主要流程

词性，也称为词类，是词汇的语法属性，是连接词汇到句法的桥梁。词性标注（Part-of-Speech Tagging或POS Tagging)，又称为词类标注，是指判断出在一个句子中每个词所扮演的语法角色。

01

python代码实战 | 用 TensorFlow 实现序列标注：基于bi-LSTM+CRF和字符嵌入实现NER和POS

我记得我第一次听说深度学习在自然语言处理（NLP）领域的魔力。我刚刚与一家年轻的法国创业公司Riminder开始了一个项目，这是我第一次听说字嵌入。生活中有一些时刻，与新理论的接触似乎使其他一切无关紧要。听到单词向量编码了单词之间相似性和意义就是这些时刻之一。当我开始使用这些新概念时，我对模型的简单性感到困惑，构建了我的第一个用于情感分析的递归神经网络。几个月后，作为法国大学高等理工学院硕士论文的一部分，我正在 Proxem 研究更高级的序列标签模型。

03

深度 | 你知道《圣经》中的主要角色有哪些吗？三种NLP工具将告诉你答案！

在思考数据科学的时候，我们常常想起数字的统计分析。但是，各种组织机构越来越频繁地生成大量可以被量化分析的非结构文本。一些例子如社交网络评论、产品评价、电子邮件以及面试记录。

01

自然语言处理之分词、命名主体识别、词性、语法分析-stanfordcorenlp-NER(二)

在前面我们介绍了Stanford CoreNLP，自然语言处理之命名实体识别-tanfordcorenlp-NER(一)

07

NLP项目：使用NLTK和SpaCy进行命名实体识别

命名实体识别（NER）是信息提取的第一步，旨在在文本中查找和分类命名实体转换为预定义的分类，例如人员名称，组织，地点，时间，数量，货币价值，百分比等。NER用于自然语言处理（NLP）的许多领域，它可以帮助回答许多现实问题，例如：

04

【NLP】一文介绍条件随机场

一个简单明了的对条件随机场的说明，给大家一个非常直观的印象，CRF到底是个什么东西，能干什么用。

02

ChatIE：通过多轮问答问题实现实命名实体识别和关系事件的零样本信息抽取，并在NYT11-HRL等数据集上超过了全监督模型

零样本信息抽取（Information Extraction，IE）旨在从无标注文本中建立IE系统，因为很少涉及人为干预，该问题非常具有挑战性。但零样本IE不再需要标注数据时耗费的时间和人力，因此十分重要。近来的大规模语言模型（例如GPT-3，Chat GPT）在零样本设置下取得了很好的表现，这启发我们探索基于提示的方法来解决零样本IE任务。我们提出一个问题：不经过训练来实现零样本信息抽取是否可行？我们将零样本IE任务转变为一个两阶段框架的多轮问答问题（Chat IE）,并在三个IE任务中广泛评估了该框架：实体关系三元组抽取、命名实体识别和事件抽取。在两个语言的6个数据集上的实验结果表明，Chat IE取得了非常好的效果，甚至在几个数据集上（例如NYT11-HRL）上超过了全监督模型的表现。我们的工作能够为有限资源下IE系统的建立奠定基础。

01

教程 | 如何使用深度学习执行文本实体提取

选自TowardsDataScience 作者：Dhanoop Karunakaran等机器之心编译参与：Tianci LIU、路本文介绍了如何使用深度学习执行文本实体提取。作者尝试了分别使用深

06

JCIM｜MIT团队：从科学文献中自动提取化学反应

近期，麻省理工学院计算机科学与人工智能实验室的Jiang Guo等人在J Chem Inf Model杂志发表文章，介绍了一种从化学文献中提取反应的自动化方法。该方法将这类任务表述为结构预测问题，并通过一个由产物提取和反应角色标记组成的两个阶段的深度学习架构来解决。

01

用Python构建NLP Pipeline，从思路到具体代码，这篇文章一次性都讲到了

授人以鱼不如授人以渔，今天的文章由作者Adam Geitgey授权在人工智能头条翻译发布。不仅给出了具体代码，还一步步详细解析了实现原理和思路。正所谓有了思路，无论是做英语、汉语的语言处理，才算的上有了指导意义。

03

【干货】最全知识图谱综述#1: 概念以及构建技术

【导读】知识图谱技术是人工智能技术的组成部分，其强大的语义处理和互联组织能力，为智能化信息应用提供了基础。我们专知的技术基石之一正是知识图谱-构建AI知识体系-专知主题知识树简介。下面我们特别整理了关于知识图谱的技术全面综述，涵盖基本定义与架构、代表性知识图谱库、构建技术、开源库和典型应用。主要基于的参考文献来自[22]和[40], 本人(Quan)做了部分修整。引言随着互联网的发展，网络数据内容呈现爆炸式增长的态势。由于互联网内容的大规模、异质多元、组织结构松散的特点，给人们有效获取信息和知识提出了

08

用Python构建NLP Pipeline，从思路到具体代码，这篇文章一次性都讲到了

授人以鱼不如授人以渔，今天的文章由作者Adam Geitgey授权在人工智能头条翻译发布。不仅给出了具体代码，还一步步详细解析了实现原理和思路。正所谓有了思路，无论是做英语、汉语的语言处理，才算的上有了指导意义。

01

自然语言处理在智能客服和聊天机器人中的应用

自然语言处理（Natural Language Processing，NLP）是人工智能领域中一个重要的研究方向，旨在使计算机能够理解、处理和生成自然语言文本。在当今数字化时代，NLP技术正逐渐渗透到各个领域，其中智能客服和聊天机器人领域是应用得非常广泛的领域之一。本文将深入探讨NLP在智能客服和聊天机器人中的应用，从基本概念到技术原理，为读者展示这一领域的发展和前景。

01

自然语言处理在智能客服和聊天机器人中的应用

自然语言处理（Natural Language Processing，NLP）是人工智能领域中一个重要的研究方向，旨在使计算机能够理解、处理和生成自然语言文本。在当今数字化时代，NLP技术正逐渐渗透到各个领域，其中智能客服和聊天机器人领域是应用得非常广泛的领域之一。本文将深入探讨NLP在智能客服和聊天机器人中的应用，从基本概念到技术原理，为读者展示这一领域的发展和前景。

01

大模型时代，图表征学习在NLP领域的应用

句法树（Syntex Tree）是对一个句子中不同组成元素间结构、层次和功能关系的通用描述方式。由于树可以被视为一种特殊的图，因此许多方法基于句法树进行图表征学习以辅助文本分类。

04

独家 | 大语言模型教程

形式上，一个仅有解码器的语言模型只是一个条件分布p（xi|x1···xi−1），在已知上下文为x1····xi−1 的情境下，下一个标记xi的概率。该公式假定这一过程为马尔可夫过程，已在许多用例中进行了研究。这一简单的设置使我们能够以自回归的方式逐个生成标记。

03

python︱六款中文分词模块尝试:jieba、THULAC、SnowNLP、pynlpir、CoreNLP、pyLTP

THULAC 四款python中中文分词的尝试。尝试的有：jieba、SnowNLP（MIT）、pynlpir（大数据搜索挖掘实验室（北京市海量语言信息处理与云计算应用工程技术研究中心））、th

写给设计师的人工智能指南：如何找出相似的文章

聊聊文本挖掘中的 “找出相似的文章”，为“推荐系统”做准备。以下为正文。先了解下文本挖掘的一般过程。如何让计算机读懂一段文字? 本质上要解决的是从文字中提取计算机可以理解的特征，然后把文本特

Science：工具使用和语言句法在基底神经节共享计算机制和神经表征

在语言和其他认知计算研究过程中的一个重要问题是：工具使用是否与语言的句法加工共享计算过程？因为，使用工具的行为可以被认为是给运动计划增加了一个层级结构。而在语言领域，句法加工相互依赖的语言基本元素（即词），它也是一个具有层级结构的认知功能。那么语言的句法层级结构是否具有特异的神经加工机制呢？

01

计算机如何理解我们的语言？NLP is fun！

【导读】我们从日常每天都会用到的推荐系统到现在研究火热的开放性聊天、对话机器人，越来越多的产品与应用的背后都需要自然语言处理（NLP）和知识图谱的技术。也有越来越多的学者与工作人员投身于 NLP 领域的研究。为什么要研究NLP呢？如果计算机想要更好的理解人类的语言，拥有更好的人机交互体验，都离不开 NLP。那么，计算机到底是如何理解人类语言的？接下来让我们跟着作者 Adam Geitgey ，和他一起体会自然语言处理技术里那些有意思的事情。

03

不可不知 | 有关文本挖掘的14个概念

版权声明作者：杜尔森·德伦（Dursun Delen）来源：《大数据掘金挖掘商业世界中的数据价值》，中国人民大学出版社出版本文由数据之王（ID：shujuzhiwang）推荐，转载请注明出处数据之王（ID：shujuzhiwang）由大中华大数据协会运营，如有邀约合作，首页回复合作需求，我们将及时回复我们所处的信息时代以急速增长的数据信息收集、储存和转换成电子格式为特征。大量的商业数据以杂乱无章的文本形式储存。据美林公司（Merrill Lynch）和高德纳公司（Gartner）联合进行的一项

08

文本歧义在隐私政策知识图谱构建中的影响

目前，服务提供商通常会以人工的方式编写隐私政策，告知数据被共享、存储和使用的所有方式。在这种背景下，当一个新的服务推出时，隐私政策也要做相应的调整，同时要确保符合相关法律法规。因此许多服务提供商都试图开发一个自动政策维护的系统，通过NLP的相关技术，从政策文本中提取半结构化数据，在知识图谱中表示出来。然而实际上，隐私政策在大多数用户看来都非常模糊不清、难以阅读。在这篇论文中，作者设计了一个从隐私政策中提取影响其模糊性的特征的系统，对隐私政策模糊性水平进行分类，在OPP-115隐私政策语料库中大多数都是模糊的。并且作者在这篇论文中证明了，当隐私政策文本模糊不清时，基于NLP的提取方法难以得到准确的结果。

03

入门 NLP 前，你必须掌握哪些基础知识？

今年一月开始，我一直在从事一个从非结构化的文本中提取信息的项目。在开始这个项目之前，我对自然语言处理（NLP）领域一无所知。当我刚开始研究这个领域时，我很快就找了一本名为「Python 自然语言处理」的书（图书查阅地址：https://www.nltk.org/book/）。这本书对于我来说过于理论化了，但其中的知识基本是正确的，因此它对我来说仍然是无价的资源。接下来，我发现了 Dipanjan Sarkar 编写的「Python 文本分析」（图书查阅地址：https://www.apress.com/gp/book/9781484243534），并从头到尾通读了此书。这本书真的太棒了，它教会了我入门 NLP 项目所需的所有技术技能。最近，此书的第二版（https://www.apress.com/gp/book/9781484243534）也面世了，对上个版本进行了大量的扩充。

01

入门 NLP 项目前，你必须掌握哪些理论知识？

今年一月开始，我一直在从事一个从非结构化的文本中提取信息的项目。在开始这个项目之前，我对自然语言处理（NLP）领域一无所知。当我刚开始研究这个领域时，我很快就找了一本名为「Python 自然语言处理」的书（图书查阅地址：https://www.nltk.org/book/）。这本书对于我来说过于理论化了，但其中的知识基本是正确的，因此它对我来说仍然是无价的资源。接下来，我发现了 Dipanjan Sarkar 编写的「Python 文本分析」（图书查阅地址：https://www.apress.com/gp/book/9781484243534），并从头到尾通读了此书。这本书真的太棒了，它教会了我入门 NLP 项目所需的所有技术技能。最近，此书的第二版（https://www.apress.com/gp/book/9781484243534）也面世了，对上个版本进行了大量的扩充。

02

ACL 2018 | 利用Lattice LSTM的最优中文命名实体识别方法

作为信息抽取的一项基本任务，命名实体识别（NER）近年来一直受到研究人员的关注。该任务一直被作为序列标注问题来解决，其中实体边界和类别标签被联合预测。英文 NER 目前的最高水准是使用 LSTM-CRF 模型实现的（Lample et al., 2016; Ma and Hovy, 2016; Chiu and Nichols, 2016; Liu et al., 2018），其中字符信息被整合到词表征中。

02

NLP面试宝典：38个最常见NLP问题答案一文get

自然语言处理（Natural Language Processing，NLP）是指帮助机器理解和分析自然语言；它是利用机器学习算法从数据中提取所需信息的一个自动化的过程。

03

EMNLP2021 | 东北大学提出：一种基于全局特征的新型表填充关系三元组抽取模型

论文链接：https://arxiv.org/pdf/2109.06705.pdf

01

文本歧义在隐私政策知识图谱构建中的影响

介绍目前，服务提供商通常会以人工的方式编写隐私政策，告知数据被共享、存储和使用的所有方式。在这种背景下，当一个新的服务推出时，隐私政策也要做相应的调整，同时要确保符合相关法律法规。因此许多服务提供商都试图开发一个自动政策维护的系统，通过NLP的相关技术，从政策文本中提取半结构化数据，在知识图谱中表示出来。然而实际上，隐私政策在大多数用户看来都非常模糊不清、难

02

深度学习知识抽取：属性词、品牌词、物品词

更具体的任务有，在解析一段工作经历长文本的时候，我们希望提取其中的动宾组合来表示该应聘者之于此段工作经历的主要工作内容。以“ 了解市场情况 , 进行一些项目的商务谈判 ”为例，HanLP分词器的结果为“ 了解市场情况 , 进行一些项目的商务谈判 ”，此时可以提取的粗动宾组合有“了解- 情况 ”和“ 进行 - 谈判 ”，而我们更希望得到更加完整且意义更加丰富的宾语，因此需要将“市场情况”合并为“市场情况”，将“商务谈判”合并为“商务谈判”。因此，我们需要一个能够准确提取名词短语（Noun Pharse）的序列标注模型来克服NP字典召回不足的问题。

02

关系抽取调研——工业界

自动识别句子中实体之间具有的某种语义关系。根据参与实体的多少可以分为二元关系抽取（两个实体）和多元关系抽取（三个及以上实体）。

03

资源 | 让你事半功倍的小众Python库

提取数据，特别是从网络中提取数据是数据科学家的重要任务之一。Wget 是一个免费的工具，用于以非交互式方式从 Web 上下载文件。它支持 HTTP、HTTPS 和 FTP 协议，通过 HTTP 代理进行检索。由于它是非交互式的，即使用户没有登录，它也可以在后台工作。所以，如果你想下载一个网站或一个页面上的所有图片，wget 会帮助你。

03

Python数据科学“冷门”库

Python是一门神奇的语言。事实上，它是世界上发展最快的编程语言之一。它已经一次又一次地证明了它在跨行业的开发人员职位和数据科学职位上的实用性。Python的整个生态系统及其库使其成为全世界用户(初学者和高级用户)的最佳选择。它的成功和流行的原因之一是它的健壮库集的存在，这些库使它能够做到非常动态和快速。

02

ACL2021 | 知识对比：基于外部知识的图神经虚假新闻检测

https://github.com/BUPT-GAMMA/CompareNet_FakeNewsDetection

03

科学写作经验总结

本篇文章旨在简单总结关于科学论文写作的一些经验，文中的大部分观点来源于下面两份参考资料：

01

ChemDataExtractor:从PDF、HTM、文本等中提取化学数据

ChemDataExtractor是一种从科学文档中自动提取化学信息的工具。给它一篇期刊文章，它将从文本中提取化学名称、属性和光谱，以便将它们导入数据库或电子表格。

03

「自然语言处理」使用自然语言处理的智能文档分析

智能文档分析(IDA)是指使用自然语言处理(NLP)和机器学习从非结构化数据(文本文档、社交媒体帖子、邮件、图像等)中获得洞察。由于80%的企业数据是非结构化的，因此IDA可以跨行业和业务功能提供切实的好处，例如改善遵从性和风险管理、提高内部运营效率和增强业务流程。

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭