首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >自然语言处理/文本结构分析的起点

自然语言处理/文本结构分析的起点
EN

Stack Overflow用户
提问于 2009-08-31 16:06:25
回答 2查看 1.1K关注 0票数 1

我需要解析和处理大量的半结构化文本(基本上是法律文档--法律文本、附录、条约、法官裁决……)。我要做的最基本的事情就是提取关于子部分结构的信息--章节、文章、副标题……外加一些元数据。我的问题是,是否有人可以为我指出这种类型的文本处理的起点,因为我相信已经有很多关于这方面的研究,但我发现的主要是解析具有严格语法的东西(如代码)或完全自由格式的文本(如谷歌试图在网页上做的那样)。我认为如果我掌握了正确的关键字,我会在谷歌和我的期刊数据库中取得更大的成功。谢谢。

EN

回答 2

Stack Overflow用户

发布于 2009-08-31 17:46:54

natural language toolkit可能是一个有趣的开始,在自然语言处理的所有领域都有大量的资源。它可能比你需要的更专注于语言。

另一种选择是使用一些解析器生成器库(通常用于代码),它不是那么严格(即,如果需要,允许您忽略大块文本)。在python中,我推荐使用pyparsing。在another answer中,我展示了一个简单的示例,展示了当您想要忽略任意文本块时它可以做些什么。

票数 1
EN

Stack Overflow用户

发布于 2009-08-31 16:51:21

以前从来没有这样做过,但如果我要这样做,我肯定会去看看ANTLR。这是一个非常受欢迎的项目,很可能在你选择的语言中有一个移植。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/1358155

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档