我对编程非常陌生(虽然我愿意学习),所以先为我的基本问题道歉。
证交会通过FTP提供所有文件,最终,我想大量下载这些文件的一个子集。但是,在创建这样一个脚本之前,我需要为这些文件的位置生成一个列表,这些文件遵循以下格式:
/edgar/data/51143/000005114313000007/0000051143-13-000007-index.htm
我很难理解如何解决这个问题,因为文档相当简单。如果我已经拥有了000005114313000007/0000051143-13-000007 (证交会称之为“登录号”),那么它就相当简单了。但是我正在寻找~45k条目,显然需要为给定的CIK ID自动生成这些条目(我已经有了)。
是否有一种自动化的方法来实现这一点?
发布于 2016-05-30 16:34:07
欢迎来到这里。
我目前正在刮同一个网站,所以我会解释我到目前为止做了些什么。我所假设的是,你会得到你想要的公司的CIK号码。如果您搜索公司的CIK,您将得到一个列表,所有的文件是可以为该公司的问题。让我们以Apple为例(因为它们有大量的文件):
从这里你可以设置一个搜索过滤器。你所链接的文档是10-Q,所以让我们使用它。如果你过滤10-Q,你就会得到所有10-Q文档的列表.您将注意到URL略有变化,以适应过滤器。
您可以使用Python及其web抓取库来获取该URL,并在该页面上的表中刮除所有文档的URL。对于这些链接中的每一个,您可以从页面中抓取任何您想要的链接或信息。我个人使用BeautifulSoup4,但是lxml是web抓取的另一个选择,如果您选择Python作为编程语言的话。我建议使用Python,因为学习基本知识和一些中间编程结构相当容易。
过去,这个项目是你的。祝你好运,我在下面发布了一些链接让你开始。我只允许发布两个链接,因为我是新来的网站,所以我会给你一个漂亮的汤链接:
如果您选择使用Python,并且对该语言还不熟悉,请查看codecademy课程,并且不要忘记签出lxml,因为有些人更喜欢使用lxml而不是BeautifulSoup (有些人也使用这两种语言,所以这都是个人偏好的问题)。
https://stackoverflow.com/questions/37376905
复制相似问题