从存储药品说明的表格中,我需要识别每个条目的产品名称、强度、产品数量和制药公司。目标是拥有一个具有预定义结构的表的副本。
当前表:
规范化表:
到目前为止,我已经读过一些关于自然语言处理的文章,但是我想知道另一种方法;我正在考虑使用Regex,但是有很多例子。
任何一种洞察力都会被感激的。
发布于 2017-10-06 04:10:27
根据您的示例,您的数据具有足够的规律性,正则表达式可能是一个很好的方法。您可以尝试的一种更复杂的方法是命名实体识别 (NER)。“纽约时报”使用CRF++从食谱中提取成分信息,并在这里上写了这方面的文章。
https://stackoverflow.com/questions/46596821
相似问题