首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >检索文档的逻辑

检索文档的逻辑
EN

Stack Overflow用户
提问于 2012-04-27 13:30:02
回答 1查看 163关注 0票数 0

在当今时代,我们对每件事都有大量的信息。有时,信息是巨大的,而不是数字化的。从一些类似的手册中找出具体的信息,以便实时地给用户提供基本信息,您会开发什么样的逻辑格式?用户无需阅读所有文档。您是否首先将文档转换为类似的结构?有什么建议吗?

编辑:

我知道这是某种文本搜索问题。让我举一个例子,使这个问题变得有点集中:

MANUAL1:(为加利福尼亚)

代码语言:javascript
复制
Table of content 
...

Precautions:
1.) The operator must use synthetic gloves to handle chemicals
...

MANUAL2:(用于Minesotta)

代码语言:javascript
复制
Table of content
...
Precautions:
1.) Use polymer gloves while being in any contact with hazardous chemicals
...

现在,该程序的用户只需对“处理有害化学品”进行查询,该程序应该给他以下两个选项:

  1. 操作人员必须使用合成手套来处理化学品
  2. 在接触危险化学品时使用聚合物手套

非常感谢。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-04-27 14:47:38

含蓄地说,你至少有五个层次的“重组”需要应对。

  1. 我如何整理加州的手册?(文件集)
  2. 如何从纯文本文件中提取文本?HTML?PDF?一份文字文件?(文件物理格式)
  3. 我如何识别章节,章节,标题,副标题,标题,表格?(文档级别的语义)
  4. 如何解析纯文本以提取意义?(句子层面的语义)
  5. 我如何处理同义词和整个部分的关系?(本体论)

当你意识到“与任何接触”与“处理”有关时,你的问题就意味着某种句子层次的语义和本体论分析。

您可能会查看IBM的Watson项目,以了解如何从大量数据中提取意义和一些新的本体方法。

对于这些问题,您的方法应该是具体的还是广义的?这在一定程度上取决于语料库的界限。你是在处理谷歌搜索“化学品”时出现的任何文件,还是仅仅是加州环保局公开提供的文件?

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/10351550

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档