首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >从EDGAR下载txt文件

从EDGAR下载txt文件
EN

Stack Overflow用户
提问于 2022-01-16 14:22:15
回答 2查看 378关注 0票数 -1

我想下载这个文件到我的本地驱动器:https://www.sec.gov/Archives/edgar/data/1556179/0001104659-20-000861.txt

这是我的密码:

代码语言:javascript
复制
import requests
import urllib
from bs4 import BeautifulSoup
import re
  
path=r"https://www.sec.gov/Archives/edgar/data/1556179/0001104659-20-000861.txt" 
r=requests.get(path, headers={"User-Agent": "b2g"})
content=r.content.decode('utf8')
soup=BeautifulSoup(content, "html5lib")
soup=str(soup)
lines=soup.split("\\n")

dest_url=r"C://Users/YL/Downloads/a.txt"
fx=open(dest_url,'w')
for line in lines:
    fx.write(line + '\n')

以下是错误消息:

那我该怎么下载这个文件呢?非常感谢!

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2022-01-17 12:30:40

下载很好。问题是str(soup)没有很好的定义,并将html5lib抛到一个无休止的循环中。你可能是说

代码语言:javascript
复制
soup = soup.text

它(粗略地)从BeatifulSoup对象中提取实际可读的文本。

票数 1
EN

Stack Overflow用户

发布于 2022-01-16 16:23:18

您的文件下载得很好;似乎BeautifulSoup的解析存在问题。尝试更改解析器并以如下方式进行:

代码语言:javascript
复制
path=r"https://www.sec.gov/Archives/edgar/data/1556179/0001104659-20-000861.txt" 
r=requests.get(path, headers={"User-Agent": "b2g"})
soup=BeautifulSoup(r.text, "html.parser")
soup

你会看到文件在那里。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/70730948

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档