在当今时代,我们对每件事都有大量的信息。有时,信息是巨大的,而不是数字化的。从一些类似的手册中找出具体的信息,以便实时地给用户提供基本信息,您会开发什么样的逻辑格式?用户无需阅读所有文档。您是否首先将文档转换为类似的结构?有什么建议吗?
编辑:
我知道这是某种文本搜索问题。让我举一个例子,使这个问题变得有点集中:
MANUAL1:(为加利福尼亚)
Table of content
...
Precautions:
1.) The operator must use synthetic gloves to handle chemicals
...MANUAL2:(用于Minesotta)
Table of content
...
Precautions:
1.) Use polymer gloves while being in any contact with hazardous chemicals
...现在,该程序的用户只需对“处理有害化学品”进行查询,该程序应该给他以下两个选项:
非常感谢。
发布于 2012-04-27 14:47:38
含蓄地说,你至少有五个层次的“重组”需要应对。
当你意识到“与任何接触”与“处理”有关时,你的问题就意味着某种句子层次的语义和本体论分析。
您可能会查看IBM的Watson项目,以了解如何从大量数据中提取意义和一些新的本体方法。
对于这些问题,您的方法应该是具体的还是广义的?这在一定程度上取决于语料库的界限。你是在处理谷歌搜索“化学品”时出现的任何文件,还是仅仅是加州环保局公开提供的文件?
https://stackoverflow.com/questions/10351550
复制相似问题