首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何识别PDF分类问题?

如何识别PDF分类问题?
EN

Software Engineering用户
提问于 2012-06-24 17:55:53
回答 1查看 148关注 0票数 1

我们正在爬行和下载很多公司的PDF,并试图挑选那些是年度报告。这样的报告可以从大多数公司的投资者关系页面下载。

扫描PDF并填充数据库,除其他外,包括:

  • 标题
  • 内容(全文)
  • 页计数
  • 字数
  • 方向
  • 第一行

使用这些数据,我们正在检查明显的短语,如:

  • 年度报告
  • 财务报表
  • 季度报告
  • 中期报告

然后记录这些短语和其他短语的频率。到目前为止,我们有大约350,000 PDF扫描和一套培训的4,000份文件,这些文件已经手动归类为报告或不报告。

我们正在试验许多不同的方法,包括贝叶斯分类器和加权不同的因素。我们正在用Ruby构建分类器。我的问题是:如果你在考虑这个问题,你会从哪里开始?

EN

回答 1

Software Engineering用户

回答已采纳

发布于 2012-06-27 08:42:56

我认为你应该匹配前几个词(比如说500个单词),因为通常这些报告包含的信息,无论是季度还是年度,仅在前几页(如2012年第一季度,FY2012等)。同时,你也可以在年度报告中找到一些不应该出现的词汇。

更简单的方法是从您正在下载该报告的站点中找出报告是年度报告还是非年度报表,因此在下载/爬行时,只需查找站点本身的这些信息。

票数 1
EN
页面原文内容由Software Engineering提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://softwareengineering.stackexchange.com/questions/154080

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档