文章/答案/技术大牛

发布

社区首页 >问答首页 >生成EDGAR文件路径列表

问生成EDGAR文件路径列表
EN

Stack Overflow用户

提问于 2016-05-22 16:39:50

回答 1查看 316关注 0票数 0

我对编程非常陌生(虽然我愿意学习)，所以先为我的基本问题道歉。

证交会通过FTP提供所有文件，最终，我想大量下载这些文件的一个子集。但是，在创建这样一个脚本之前，我需要为这些文件的位置生成一个列表，这些文件遵循以下格式：

/edgar/data/51143/000005114313000007/0000051143-13-000007-index.htm

51143 =公司ID，我已经通过FTP访问了我需要的公司ID列表
000005114313000007/0000051143-13-000007 =报告ID，又名“登录号”

我很难理解如何解决这个问题，因为文档相当简单。如果我已经拥有了000005114313000007/0000051143-13-000007 (证交会称之为“登录号”)，那么它就相当简单了。但是我正在寻找~45k条目，显然需要为给定的CIK ID自动生成这些条目(我已经有了)。

是否有一种自动化的方法来实现这一点？

ftp

edgar

回答 1

Stack Overflow用户

发布于 2016-05-30 16:34:07

欢迎来到这里。

我目前正在刮同一个网站，所以我会解释我到目前为止做了些什么。我所假设的是，你会得到你想要的公司的CIK号码。如果您搜索公司的CIK，您将得到一个列表，所有的文件是可以为该公司的问题。让我们以Apple为例(因为它们有大量的文件)：

链接到苹果的文件

从这里你可以设置一个搜索过滤器。你所链接的文档是10-Q，所以让我们使用它。如果你过滤10-Q，你就会得到所有10-Q文档的列表.您将注意到URL略有变化，以适应过滤器。

您可以使用Python及其web抓取库来获取该URL，并在该页面上的表中刮除所有文档的URL。对于这些链接中的每一个，您可以从页面中抓取任何您想要的链接或信息。我个人使用BeautifulSoup4，但是lxml是web抓取的另一个选择，如果您选择Python作为编程语言的话。我建议使用Python，因为学习基本知识和一些中间编程结构相当容易。

过去，这个项目是你的。祝你好运，我在下面发布了一些链接让你开始。我只允许发布两个链接，因为我是新来的网站，所以我会给你一个漂亮的汤链接：

美汤首页

如果您选择使用Python，并且对该语言还不熟悉，请查看codecademy课程，并且不要忘记签出lxml，因为有些人更喜欢使用lxml而不是BeautifulSoup (有些人也使用这两种语言，所以这都是个人偏好的问题)。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/37376905

复制

相似问题

问生成EDGAR文件路径列表
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问生成EDGAR文件路径列表EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问生成EDGAR文件路径列表
EN