我需要从SEC website刮一个项目的形式10-K报告(即美国公司的年度报告)。
问题是,公司并不使用完全相同的格式来归档这些数据。因此,例如,2个不同公司的房地产数据可以显示如下
1st company
Property name State City Ownership Year Occupancy Total Area
------------- ----- ------ --------- ---- --------- ----------
ABC Mall TX Dallas Fee 2007 97% 1,347,377
XYZ Plaza CA Ontario Fee 2008 85% 2,252,117
2nd company
Property % Ownership %Occupany Rent Square Feet
--------------- ----------- --------- ----- -----------
New York City
ABC Plaza 100.0% 89.0% 38.07 2,249,000
123 Stores 100.0% 50.0% 18.00 1,547,000
Washington DC Office
12th street .......
2001, J Drive .......
etc.同样,其他公司的数据布局也可能完全不同。
我想知道除了编写复杂的正则表达式搜索之外,是否还有更好的方法来抓取这种类型的异构数据。
我可以自由地使用Java、Perl、Python或Groovy来完成这项工作。
发布于 2009-10-28 11:01:09
我倾向于保留一个元文件库,用于描述您想要从其中抓取数据的每个页面的布局,并在尝试获取数据时使用它。
这样你就不需要复杂的reg-ex命令,如果一个站点改变了它的设计,你只需要修改你的一个文件。
如何创建元文件由您决定,但相关的类名或标记可能是一个很好的开始。
然后描述如何从该标记中提取数据。
不确定是否有工具可以完成所有这些工作。
另一种更好的方式可能是联系这些站点的所有者,看看他们是否提供了WebService形式的提要,或者您可以使用它来获取数据。省去了很多心痛,我想。
https://stackoverflow.com/questions/1634969
复制相似问题