使用BeautifulSoup进行网页抓取时出现429错误

文章/答案/技术大牛

发布

1回答

、、、

首先，我不得不说，我对使用Python进行Web抓取非常陌生。我正在尝试使用这些代码行来收集数据from bs4 import BeautifulSouphtml_page = requests.get(baseurl).text soup = BeautifulSoup(html_page, 'html.parser

浏览 3提问于2018-08-02得票数 1

回答已采纳

2回答

使用BeautifulSoup进行网页抓取时出现“浏览器不受支持”错误

、、

我正在尝试网络抓取一个网站，但我一直得到这个“浏览器不支持”的错误。有人知道怎么解决这个问题吗？谢谢。537.36'} page = bs4.BeautifulSoup

浏览 4提问于2018-08-31得票数 1

2回答

使用BeautifulSoup进行网页抓取

、、、

我想从这个链接中删除国家名称和国家首都：from bs4 import BeautifulSoupsoup = BeautifulSoup我觉得这很简单，但我并不能真正理解所有的教程，因为它们使用<

浏览 1提问于2015-11-20得票数 0

1回答

Python:当使用请求包在HTTPS页面上执行get请求时，如何确保凭据中的标志被封装

、、、、

所以我使用BeautifulSoup和请求从https网站获取数据类似于：中的解决方案如何确保登录和密码受到保护，而不是以纯文本的形式发送

浏览 0提问于2018-07-10得票数 0

回答已采纳

1回答

使用Python、BeautifulSoup进行网页抓取

、、、、

我在使用Python解析链接时遇到了问题。下面是我的代码： def get_content(html): items = soup.find_all('divlink = item.find('a', class_='gl-product-card__details-link') print(link.get('href')) 我得到了这个错误

浏览 7提问于2020-06-15得票数 1

回答已采纳

1回答

这是有效的，但当代码打印时，它会打印DDOS攻击网站，而不是加载之后的网站。我甚至尝试做一个time.sleep(5)来帮助计时。我怎么才能克服这一点。import requestsimport time url = 'https://www.psacard.com/cert/49628062User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:80.0

浏览 26提问于2021-01-15得票数 0

2回答

无法从Quora网页中抓取许多问题

、、

我正在学习BeautifulSoup，并试图抓取this Quora页面上存在的不同问题的链接。当我向下滚动网站时，网页中出现的问题不断出现并显示。当我尝试使用下面的代码抓取这些问题的链接时，在我的例子中，我只能得到5个链接。ie -我只得到5个问题的链接，即使在网站上有很多问题。有没有什么解决办法可以让网页上出现这么多问题的链接？from bs4 import BeautifulSou

浏览 39提问于2018-12-22得票数 1

1回答

BeautifulSoup4返回错误的超文本标记语言？

、、

我正在尝试使用Beautifulsoup在Indeed.com上通过网络抓取招聘信息。但是，当我抓取URL时，返回的HTML与我在Google Chrome中手动转到URL，然后查看HTML时看到的HTML不同。 'Doberman', 'Google',

浏览 0提问于2019-07-10得票数 2

1回答

抓取aspx页面的Python代码是什么？

、、、、

我的要求是将mcode传递给下面的web aspx查询，然后将结果网页打印到pdf。 https://wwww.abcd.com/xyz/subject.aspx?

浏览 2提问于2020-03-18得票数 0

3回答

如何解决以下代码中的NoneType Web抓取属性错误？

、

在对网页进行web抓取时，出现了错误(AttributeError：'NoneType‘对象没有属性'text')。如何消除此错误？我的代码是： pag

浏览 11提问于2022-05-31得票数 0

1回答

如何配置Scrapy以使用BeautifulSoup解析器

、、、

我使用BeautifulSoup的默认html.parser从任何网页中提取数据，没有什么原因让我觉得它比使用XPATH/CSS选择器更灵活、更强大。在抓取之前，我学习了使用BeautifulSoup进行网络抓取。我想不出一种让Scrapy使用bs4作为解析器的方法。有可能吗？

浏览 2提问于2019-08-18得票数 0

回答已采纳

1回答

使用BeautifulSoup进行网页抓取:读取表

、

当我点击第二个页面时，url没有改变。import pandas as pdfrom bs4 import BeautifulSoup source =

浏览 0提问于2019-09-27得票数 1

2回答

使用beautifulSoup和urllib进行网页抓取

、、

我使用的是python 3.6，我可以使用BeautifulSou.来抓取文本。我正在用沃尔玛网站练习。我试图从沃尔玛抓取文本。这是我的代码。from bs4 import BeautifulSoupmain_page=urlopen('http://www.walmart.com/ip/Sceptre-32-Class-HD-720P-LED-TV-X322BV-SR/55

浏览 0提问于2017-08-30得票数 0

1回答

使用BeautifulSoup对LinkedIn进行网络抓取时出现401错误

、、、

我正在尝试使用Python库从我的LinkedIn "Recently Added Connections"页面中提取BeautifulSoup。具体地说，我想要最近连接的名称-它显示在页面顶部。当我检查这个特定部分的HTML时，我看到的包装内容是： <span class="mn-connection-card__name t-16 t-black t-bold"> Bob McBobface</span> 然而，我用BeautifulSoup<

浏览 11提问于2019-08-23得票数 1

2回答

使用GoDaddy管理的Wordpress托管和Cloudflare的Google工具中的许多"429“爬行错误

、、、

以下设置：Cloudflare作为CDN在我添加Cloudflare和SSL之前，它可以正常工作，没有任何缺陷。造成这一问题的更可能的原因是什么？如何进行最佳调试？

浏览 0提问于2014-11-25得票数 5

回答已采纳

1回答

注释在网页上可见，但BeautifulSoup返回的html对象不包含注释部分

、、、

我尝试使用网址链接从网页中提取评论的文本内容，并使用BeautifulSoup进行抓取。当我单击URL链接时，在页面上可以看到注释的内容，但是BeautifulSoup返回的HTML对象不包含这些标记和文本。我使用带有'html.parser‘的BeautifulSoup来做网页抓取。我成功地提取了给定网页中视频的点赞/浏览量/评论

浏览 19提问于2019-03-25得票数 1

回答已采纳

1回答

使用BeautifulSoup进行网页抓取时，无法捕获html元素

、、、

使用BeautifulSoup进行网页抓取时，无法捕获html元素我在pycharm中运行以下代码 from bs4 import BeautifulSouppri

浏览 36提问于2021-01-23得票数 0

1回答

范围循环在not擦除中不起作用

、

我已经用BS4写了一个小的网页抓取器，用这个代码我可以一次刮掉一个页面，下面是相关代码。import csvimport requestssoup = BeautifulSoup(html,'lxml') 这段代码抓取一个页面，但是我想一次抓取<

浏览 1提问于2016-04-02得票数 0

1回答

如何刮出403错误的网站？

、、、

我试图刮下面的网页，但得到一个错误。/jamanetwork.com/journals/jamaneurology/article-abstract/2696970'soup = BeautifulSoup您可以在没有凭据的情况下访问网页，所以不知道为什么我在抓取时会出现“请求被禁止”的错误。

浏览 2提问于2022-01-02得票数 -2

1回答

当有onclick事件按钮时，抓取数据

、、、、

我正在尝试从"“中抓取数据(对不起，该网站没有英文) 当我不喜欢橙色的squre按钮时，这个站点没有"detailTable“ 单击该按钮时，会出现"detailTable“，我实际上想刮一下它用这个虚拟的网页由于它是虚拟网页，请求URL (POST)没有任何规则。在这种情况下，单击onclick按钮("detailTable")时出现的情况是Selenium，这是唯一的方法吗

浏览 6提问于2022-06-07得票数 2

回答已采纳

点击加载更多

使用BeautifulSoup进行网页抓取时出现429错误

使用BeautifulSoup进行网页抓取时出现“浏览器不受支持”错误

使用BeautifulSoup进行网页抓取

Python:当使用请求包在HTTPS页面上执行get请求时，如何确保凭据中的标志被封装

使用Python、BeautifulSoup进行网页抓取

BS4返回到Cloudflare网站，而不是实际的网站

无法从Quora网页中抓取许多问题

BeautifulSoup4返回错误的超文本标记语言？

抓取aspx页面的Python代码是什么？

如何解决以下代码中的NoneType Web抓取属性错误？

如何配置Scrapy以使用BeautifulSoup解析器

使用BeautifulSoup进行网页抓取:读取表

使用beautifulSoup和urllib进行网页抓取

使用BeautifulSoup对LinkedIn进行网络抓取时出现401错误

使用GoDaddy管理的Wordpress托管和Cloudflare的Google工具中的许多"429“爬行错误

注释在网页上可见，但BeautifulSoup返回的html对象不包含注释部分

使用BeautifulSoup进行网页抓取时，无法捕获html元素

范围循环在not擦除中不起作用

如何刮出403错误的网站？

当有onclick事件按钮时，抓取数据

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐