我的原文是“John Fullerton先生是澳大利亚铁轨有限公司的首席执行官兼总经理,并于2011年2月被任命为该职位”。
我通过使用斯坦福大学( Stanford )很容易地识别出人名(约翰·富勒顿(John)),现在我想提取这些职位(首席执行官)。斯坦福纳( Stanford )将首席执行官视为“O”,那么我在这里应该使用哪种方法?
发布于 2018-10-24 19:48:53
看看这,看看如何构建知识库。我想说的是,如果你有足够的数据,最好的方法就是在你的语料库基础上建立你自己的知识库。
启动的想法(简化)是通过查看一些数据来创建“名称就是位置”之类的模式。通过这个你可以找到很多的名字和位置。然后从它们中提取新的模式,并再次扫描整个数据。直到没有新的模式出现。然后你会得到很多的is --一种关系,这就是你所需要的。
为了提取位置,您可能需要句子分割。请看一看幻灯片56,以获得一个概述。
PS:如果你没有足够的数据,你可以抓取网页,获取文本,并尝试建立你的词汇数据库。目标网站更有可能有这样的背景。
希望能帮上忙。祝好运!
https://datascience.stackexchange.com/questions/40154
复制相似问题