我们正在爬行和下载很多公司的PDF,并试图挑选那些是年度报告。这样的报告可以从大多数公司的投资者关系页面下载。
扫描PDF并填充数据库,除其他外,包括:
使用这些数据,我们正在检查明显的短语,如:
然后记录这些短语和其他短语的频率。到目前为止,我们有大约350,000 PDF扫描和一套培训的4,000份文件,这些文件已经手动归类为报告或不报告。
我们正在试验许多不同的方法,包括贝叶斯分类器和加权不同的因素。我们正在用Ruby构建分类器。我的问题是:如果你在考虑这个问题,你会从哪里开始?
发布于 2012-06-27 08:42:56
我认为你应该匹配前几个词(比如说500个单词),因为通常这些报告包含的信息,无论是季度还是年度,仅在前几页(如2012年第一季度,FY2012等)。同时,你也可以在年度报告中找到一些不应该出现的词汇。
更简单的方法是从您正在下载该报告的站点中找出报告是年度报告还是非年度报表,因此在下载/爬行时,只需查找站点本身的这些信息。
https://softwareengineering.stackexchange.com/questions/154080
复制相似问题