首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何抓取不同格式/布局的网页?

如何抓取不同格式/布局的网页?
EN

Stack Overflow用户
提问于 2009-10-28 10:55:11
回答 1查看 757关注 0票数 0

我需要从SEC website刮一个项目的形式10-K报告(即美国公司的年度报告)。

问题是,公司并不使用完全相同的格式来归档这些数据。因此,例如,2个不同公司的房地产数据可以显示如下

代码语言:javascript
复制
1st company

Property name   State  City     Ownership   Year  Occupancy Total Area
-------------   -----  ------   ---------   ----  --------- ----------
ABC Mall         TX    Dallas   Fee         2007    97%       1,347,377
XYZ Plaza        CA    Ontario  Fee         2008    85%       2,252,117



2nd company

Property          % Ownership  %Occupany  Rent   Square Feet
---------------   -----------  ---------  -----  -----------
New York City
  ABC Plaza       100.0%        89.0%     38.07    2,249,000 
  123 Stores      100.0%        50.0%     18.00    1,547,000 
Washington DC Office
  12th street     .......
  2001, J Drive   .......

etc.

同样,其他公司的数据布局也可能完全不同。

我想知道除了编写复杂的正则表达式搜索之外,是否还有更好的方法来抓取这种类型的异构数据。

我可以自由地使用Java、Perl、Python或Groovy来完成这项工作。

EN

Stack Overflow用户

回答已采纳

发布于 2009-10-28 11:01:09

我倾向于保留一个元文件库,用于描述您想要从其中抓取数据的每个页面的布局,并在尝试获取数据时使用它。

这样你就不需要复杂的reg-ex命令,如果一个站点改变了它的设计,你只需要修改你的一个文件。

如何创建元文件由您决定,但相关的类名或标记可能是一个很好的开始。

然后描述如何从该标记中提取数据。

不确定是否有工具可以完成所有这些工作。

另一种更好的方式可能是联系这些站点的所有者,看看他们是否提供了WebService形式的提要,或者您可以使用它来获取数据。省去了很多心痛,我想。

票数 3
EN
查看全部 1 条回答
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/1634969

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档