我试图找出在非结构化文本中提取预定义键的值的方法(以及其中哪种是最好的)?
输入:
关键词列表:“毒品”、“名字”、“天气”
输出:
药物=favipiravir,药物=nazivin,'name=Yury','weather=cold‘
因此,正如您所看到的,在3d句子中没有明确的键'name‘,因此也没有提取值(我认为这与NER有区别)。同时,“药”和“药”是同义词,我们应该把“药”作为“药”的关键,并从中提取价值。
下一个问题是,如果键集是可变的呢?是因为预定义的密钥,我应该使用基本regexp方法,还是有一种方法可以用有监督的学习/神经网络来实现?(但在这种情况下,如何处理可变密钥?)
发布于 2019-05-31 15:01:25
您可以使用解析器来标记单词。您的问题类似于命名实体识别(NER)。许多库,如Python中的NLTK
,都有POS taggers可用。你可以试试这些。他们通常接受识别名称、位置等的培训。根据你需要的单词类型,你可能需要训练解析器。所以你也需要一些标记的数据。
https://stackoverflow.com/questions/56390971
复制相似问题