首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何识别文本中的模式并对其进行分类

如何识别文本中的模式并对其进行分类
EN

Stack Overflow用户
提问于 2017-10-06 00:59:55
回答 1查看 761关注 0票数 3

从存储药品说明的表格中,我需要识别每个条目的产品名称、强度、产品数量和制药公司。目标是拥有一个具有预定义结构的表的副本。

当前表:

规范化表:

到目前为止,我已经读过一些关于自然语言处理的文章,但是我想知道另一种方法;我正在考虑使用Regex,但是有很多例子。

任何一种洞察力都会被感激的。

EN

回答 1

Stack Overflow用户

发布于 2017-10-06 04:10:27

根据您的示例,您的数据具有足够的规律性,正则表达式可能是一个很好的方法。您可以尝试的一种更复杂的方法是命名实体识别 (NER)。“纽约时报”使用CRF++从食谱中提取成分信息,并在这里上写了这方面的文章。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46596821

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档