文章/答案/技术大牛

发布

社区首页 >问答首页 >自然语言处理/文本结构分析的起点

问自然语言处理/文本结构分析的起点
EN

Stack Overflow用户

提问于 2009-08-31 16:06:25

回答 2查看 1.1K关注 0票数 1

我需要解析和处理大量的半结构化文本(基本上是法律文档--法律文本、附录、条约、法官裁决……)。我要做的最基本的事情就是提取关于子部分结构的信息--章节、文章、副标题……外加一些元数据。我的问题是，是否有人可以为我指出这种类型的文本处理的起点，因为我相信已经有很多关于这方面的研究，但我发现的主要是解析具有严格语法的东西(如代码)或完全自由格式的文本(如谷歌试图在网页上做的那样)。我认为如果我掌握了正确的关键字，我会在谷歌和我的期刊数据库中取得更大的成功。谢谢。

parsing

nlp

text-processing

回答 2

Stack Overflow用户

发布于 2009-08-31 17:46:54

natural language toolkit可能是一个有趣的开始，在自然语言处理的所有领域都有大量的资源。它可能比你需要的更专注于语言。

另一种选择是使用一些解析器生成器库(通常用于代码)，它不是那么严格(即，如果需要，允许您忽略大块文本)。在python中，我推荐使用pyparsing。在another answer中，我展示了一个简单的示例，展示了当您想要忽略任意文本块时它可以做些什么。

票数 1

Stack Overflow用户

发布于 2009-08-31 16:51:21

以前从来没有这样做过，但如果我要这样做，我肯定会去看看ANTLR。这是一个非常受欢迎的项目，很可能在你选择的语言中有一个移植。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/1358155

复制

相似问题

问自然语言处理/文本结构分析的起点
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问自然语言处理/文本结构分析的起点EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问自然语言处理/文本结构分析的起点
EN