首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >从非结构化文本中提取键值的方法有哪些?

从非结构化文本中提取键值的方法有哪些?
EN

Stack Overflow用户
提问于 2019-05-31 07:55:10
回答 1查看 2K关注 0票数 3

我试图找出在非结构化文本中提取预定义键的值的方法(以及其中哪种是最好的)?

输入:

  1. 医生给我开了一种叫法维吡韦的药。
  2. 他叫尤里。
  3. 伊利亚已经跟我说过了。
  4. 今天天气很冷。
  5. 我在吃一种叫做纳齐文的药。

关键词列表:“毒品”、“名字”、“天气”

输出:

药物=favipiravir,药物=nazivin,'name=Yury','weather=cold‘

因此,正如您所看到的,在3d句子中没有明确的键'name‘,因此也没有提取值(我认为这与NER有区别)。同时,“药”和“药”是同义词,我们应该把“药”作为“药”的关键,并从中提取价值。

下一个问题是,如果键集是可变的呢?是因为预定义的密钥,我应该使用基本regexp方法,还是有一种方法可以用有监督的学习/神经网络来实现?(但在这种情况下,如何处理可变密钥?)

EN

回答 1

Stack Overflow用户

发布于 2019-05-31 15:01:25

您可以使用解析器来标记单词。您的问题类似于命名实体识别(NER)。许多库,如Python中的NLTK,都有POS taggers可用。你可以试试这些。他们通常接受识别名称、位置等的培训。根据你需要的单词类型,你可能需要训练解析器。所以你也需要一些标记的数据。

查看以下链接:https://nlp.stanford.edu/software/CRF-NER.html

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56390971

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档