我需要解析和处理大量的半结构化文本(基本上是法律文档--法律文本、附录、条约、法官裁决……)。我要做的最基本的事情就是提取关于子部分结构的信息--章节、文章、副标题……外加一些元数据。我的问题是,是否有人可以为我指出这种类型的文本处理的起点,因为我相信已经有很多关于这方面的研究,但我发现的主要是解析具有严格语法的东西(如代码)或完全自由格式的文本(如谷歌试图在网页上做的那样)。我认为如果我掌握了正确的关键字,我会在谷歌和我的期刊数据库中取得更大的成功。谢谢。
发布于 2009-08-31 17:46:54
natural language toolkit可能是一个有趣的开始,在自然语言处理的所有领域都有大量的资源。它可能比你需要的更专注于语言。
另一种选择是使用一些解析器生成器库(通常用于代码),它不是那么严格(即,如果需要,允许您忽略大块文本)。在python中,我推荐使用pyparsing。在another answer中,我展示了一个简单的示例,展示了当您想要忽略任意文本块时它可以做些什么。
发布于 2009-08-31 16:51:21
以前从来没有这样做过,但如果我要这样做,我肯定会去看看ANTLR。这是一个非常受欢迎的项目,很可能在你选择的语言中有一个移植。
https://stackoverflow.com/questions/1358155
复制相似问题