使用Python进行网页抓取: BeautifulSoup的问题

文章/答案/技术大牛

发布

3回答

请帮助我使用BeautifulSoup来使用Python3从investing.com中抓取金融值。无论我做什么，都不会得到任何值，过滤类正在从网页永久更改，它是一个活生生的值。import requests url = "https://es.investing.com/indices/spain-35-futures= float(pr

浏览 36提问于2019-06-08得票数 1

1回答

抓取aspx页面的Python代码是什么？

、、、、

我的要求是将mcode传递给下面的web aspx查询，然后将结果网页打印到pdf。在上面的url中，唯一的变量是99999。因此，我的目标是每次传递mcode，然后将生成的aspx页面打印为pdf。请原谅我的简体语言，因为我对此还不熟悉。

浏览 2提问于2020-03-18得票数 0

1回答

使用Python、BeautifulSoup进行网页抓取

、、、、

我在使用Python解析链接时遇到了问题。下面是我的代码： def get_content(html): items = soup.find_all('divget_contentAttributeError: 'NoneType' object has no attribute 'g

浏览 7提问于2020-06-15得票数 1

回答已采纳

1回答

试图从雅虎财经“世界指数”排行榜中剔除

、、

我正在尝试使用下面的代码将雅虎财经(https://finance.yahoo.com/world-indices/)中的“世界指数”列表整理成一个数据框架。我试着寻找如何进行抓取，但没有任何运气。 pandas datareader是未来的发展方向吗？有没有更强大的网络刮板我应该使用，如硒或美丽的汤？

浏览 18提问于2021-09-22得票数 0

2回答

使用BeautifulSoup进行网页抓取

、、、

我想从这个链接中删除国家名称和国家首都：from bs4 import BeautifulSoupsoup = BeautifulSoup(html, "html.parser") co

浏览 1提问于2015-11-20得票数 0

1回答

使用BeautifulSoup在Python中进行网页抓取

、、

我想刮刮审查加拿大航空公司在旅行顾问网页上使用python BeautifulSoup与100个条目。这是我想要抓取的链接 https://www.tripadvisor.ca/Airline_Review-d8728998-Reviews-Air-Canada.html#REVIEWS 其中包括列用户名

浏览 11提问于2021-08-10得票数 0

1回答

使用BeautifulSoup Python抓取网页

、、、、

我正在尝试使用BeautifulSoup从表中抓取数据。正在发生以下问题:来自一个表的[u'A Southern RV, Inc.1642 E New York AveDeland, FLPhone: (386) 734-5678Website: www.southernrvrentals.comEmailtd> &l

浏览 1提问于2014-06-25得票数 2

回答已采纳

3回答

如何让网络爬虫在后台抓取网页？

、

我目前正在开发一个网络爬虫在PHP中，它仍然是一个简单的，但我想知道的是，我怎样才能使我的爬虫在后台爬行页面，而不使用我的带宽，我必须使用一些cron作业，我想它自动存储在数据库中的数据。下面是我所做的： <?

浏览 2提问于2015-08-06得票数 0

1回答

有没有任何快速的方法来刮一个有无限滚动的网站？

、

我正在尝试使用python来抓取一个用无限滚动实现的网站。实际上，网络就是pinterest。我知道如何使用selenium来抓取具有无限滚动的web。但是，WebDriver基本上模仿了访问web的过程，而且速度慢得多，比使用BeautifulSoup和urllib进行抓取要慢很多。你知道有什么时间有效的方法来刮一个无限滚动的网页</e

浏览 0提问于2014-12-29得票数 0

回答已采纳

1回答

Python:当使用请求包在HTTPS页面上执行get请求时，如何确保凭据中的标志被封装

、、、、

所以我使用BeautifulSoup和请求从https网站获取数据类似于：中的解决方案这里有什么我需要考虑的吗？

浏览 0提问于2018-07-10得票数 0

回答已采纳

3回答

用python刮网站

、、、、

我已经看过多个教程和博客，最常见的库是漂亮汤和scrapy。如果有一种方法可以在不使用任何第三方库(如beautifulsoup和scrapy )的情况下抓取一个网站，那么就可以使用beautifulsoup。

浏览 1提问于2020-06-09得票数 1

回答已采纳

1回答

注释在网页上可见，但BeautifulSoup返回的html对象不包含注释部分

、、、

我尝试使用网址链接从网页中提取评论的文本内容，并使用BeautifulSoup进行抓取。当我单击URL链接时，在页面上可以看到注释的内容，但是BeautifulSoup返回的HTML对象不包含这些标记和文本。我使用带有'html.parser‘的BeautifulSoup来做网页抓取。我成功地提取了给定网页<

浏览 19提问于2019-03-25得票数 1

回答已采纳

1回答

网页抓取BeautifulSoup* (Python)*

、、

我需要获取("div",{"align":"justify"})标记的每一行:第一行是医院名称，第二行是地址，第三行是电话号码，第四行是url。我遍历了<strong>元素，但这并不起作用。使用下面的代码，我只能得到名字加上后面奇怪的空格。from selenium import webdriverimport pandas as pd from urllib.reques

浏览 8提问于2020-06-16得票数 0

1回答

‘'charmap’编解码器在抓取网页时不能编码字符'\xae‘

、、

我正在使用Python使用BeautifulSoap进行网络抓取，我得到了这个错误。'charmap' codec can't encode character '\xae' in position 69: character maps to <undefined>这是我的Python hotel = BeautifulSoup(stat

浏览 0提问于2014-11-07得票数 0

3回答

如何在python中并行抓取多个html页面？

、、、、

我正在用Django web框架用Python制作一个网络抓取应用程序。我需要用漂亮的汤库抓取多个查询。下面是我写的代码的快照： r = requests.get(url) links= soup.find_all("a", {"class":"dev-link"}) 实际上，<em

浏览 0提问于2017-05-29得票数 2

1回答

BS4返回到Cloudflare网站，而不是实际的网站

、、、

这是我的代码。这是有效的，但当代码打印时，它会打印DDOS攻击网站，而不是加载之后的网站。我甚至尝试做一个time.sleep(5)来帮助计时。我怎么才能克服这一点。import requestsimport time url = 'https://www.psacard.com/cert/49628062User-Agent': 'Mozilla/5.0 (X11; Ubun

浏览 26提问于2021-01-15得票数 0

1回答

BeautifulSoup只提取顶层标记。

、、、、

我正在使用Python3.4中的BeautifulSoup进行一些网络抓取。现在，我在学习过程中遇到了一个问题:我试图从网页中获取一个表行，并且我使用find_all()来获取它们，但是在表中--有更多的表中有表行！如何在BeautifulSoup中只获得标签的顶级/一级通用或特定元素？# Retrieves all the row ('tr') ta

浏览 1提问于2016-06-19得票数 17

2回答

当web在Python中搜索表时，返回一个空表。

我需要通过使用Python中的BeautifulSoup库进行web抓取，从网站抓取一个表。interactive/2021/world/covid-vaccinations-tracker.htmlimport requests from bs4 import BeautifulSoup//www.nytimes.com/interactive&#x

浏览 0提问于2021-04-18得票数 3

回答已采纳

1回答

使用BeautifulSoup* Python进行网页抓取将返回None*

、、、

如果有帮助的话，我会试着从网页上获取所有的小标题，以及它们下面的文字。谢谢!import requestsfrom bs4 import BeautifulSoupstart = bs4.BeautifulSoup(web.text, 'lxml') scrape = start.find(".regu

浏览 34提问于2020-01-26得票数 0

1回答

从flashscore.com抓取分数

、、、

我用Python构建了一个机器人来在flashscore.com上抓取分数，但是从站点中抓取的数据加载到它的列表框中非常缓慢。我对selenium的速度很好奇，所以我做了一个按钮来打印所有的文本，结果显示速度很快，所以一定是if elif块减慢了程序的速度。

浏览 0提问于2015-05-09得票数 8

点击加载更多