使用BeautifulSoup进行网页抓取将不起作用

文章/答案/技术大牛

发布

2回答

、、、、

最终，我试图打开一个新闻网站的所有文章，然后将所有文章中使用的词排在前10名。要做到这一点，我首先想看看有多少文章，这样我就可以在某个时候迭代它们，还没有真正弄清楚我想要如何做每件事。为此，我想使用BeautifulSoup4。我想我想要获取的类是Javascript，因为我没有得到任何东西。这是我的代码： url = "http://ad.nl"soup = BeautifulSoup(ad.text.lower(), "x

浏览 17提问于2020-04-19得票数 2

回答已采纳

2回答

使用BeautifulSoup进行网页抓取

、、、

我想从这个链接中删除国家名称和国家首都：from bs4 import BeautifulSoupsoup = BeautifulSoup我觉得这很简单，但我并不能真正理解所有的教程，因为它们使用<

浏览 1提问于2015-11-20得票数 0

1回答

注释在网页上可见，但BeautifulSoup返回的html对象不包含注释部分

、、、

我尝试使用网址链接从网页中提取评论的文本内容，并使用BeautifulSoup进行抓取。当我单击URL链接时，在页面上可以看到注释的内容，但是BeautifulSoup返回的HTML对象不包含这些标记和文本。我使用带有'html.parser‘的BeautifulSoup来做网页抓取。我成功地提取了给定网页中视频的点赞/浏览量/评论数，但评论部分的信

浏览 19提问于2019-03-25得票数 1

回答已采纳

1回答

使用Python、BeautifulSoup进行网页抓取

、、、、

我在使用Python解析链接时遇到了问题。下面是我的代码： def get_content(html): items = soup.find_all('div

浏览 7提问于2020-06-15得票数 1

回答已采纳

1回答

BS4返回到Cloudflare网站，而不是实际的网站

、、、

import requestsimport time soup = BeautifulSoup

浏览 26提问于2021-01-15得票数 0

1回答

抓取aspx页面的Python代码是什么？

、、、、

我的要求是将mcode传递给下面的web aspx查询，然后将结果网页打印到pdf。 https://wwww.abcd.com/xyz/subject.aspx?

浏览 2提问于2020-03-18得票数 0

3回答

如何在python中并行抓取多个html页面？

、、、、

我正在用Django web框架用Python制作一个网络抓取应用程序。我需要用漂亮的汤库抓取多个查询。下面是我写的代码的快照： r = requests.get(url) links= soup.find_all("a", {"class":"dev-link"}) 实际上，网页的抓取是按顺序进行的

浏览 0提问于2017-05-29得票数 2

1回答

如何配置Scrapy以使用BeautifulSoup解析器

、、、

我使用BeautifulSoup的默认html.parser从任何网页中提取数据，没有什么原因让我觉得它比使用XPATH/CSS选择器更灵活、更强大。在抓取之前，我学习了使用BeautifulSoup进行网络抓取。我想不出一种让Scrapy使用bs4作为解析器的方法。有可能吗？

浏览 2提问于2019-08-18得票数 0

回答已采纳

1回答

使用BeautifulSoup进行网页抓取:读取表

、

任何建议都将不胜感激。import numpy as npimport requestssource = r.text soup = BeautifulSoup

浏览 0提问于2019-09-27得票数 1

2回答

使用beautifulSoup和urllib进行网页抓取

、、

我使用的是python 3.6，我可以使用BeautifulSou.来抓取文本。我正在用沃尔玛网站练习。我试图从沃尔玛抓取文本。这是我的代码。from bs4 import BeautifulSoupmain_page=urlopen('http://www.walmart.com/ip/Sceptre-32-Class-HD-720P-LED-TV-X322BV-SR/55

浏览 0提问于2017-08-30得票数 0

1回答

Python数据抓取:使用href和prettify系列来抓取标题不起作用

、

我是Python的新手，我的第一次尝试是从一个随机的网站上抓取一些网页。这是我的代码，我搞不懂到底是怎么回事。from bs4 import BeautifulSoup soup = BeautifulSoup(s

浏览 5提问于2018-09-12得票数 1

1回答

Python:当使用请求包在HTTPS页面上执行get请求时，如何确保凭据中的标志被封装

、、、、

所以我使用BeautifulSoup和请求从https网站获取数据类似于：中的解决方案如何确保登录和密码受到保护，而不是以纯文本的形式发送

浏览 0提问于2018-07-10得票数 0

回答已采纳

1回答

试图从雅虎财经“世界指数”排行榜中剔除

、、

我正在尝试使用下面的代码将雅虎财经(https://finance.yahoo.com/world-indices/)中的“世界指数”列表整理成一个数据框架。我试着寻找如何进行抓取，但没有任何运气。 pandas datareader是未来的发展方向吗？有没有更强大的网络刮板我应该使用，如硒或美丽的汤？

浏览 18提问于2021-09-22得票数 0

1回答

刮过的文件中持久的非utf-8字符

、、

我目前正在学习网页抓取，我试图通过使用漂亮的汤和请求模块来保存网页的html版本："“。每次我在html文件的stat上得到这些字符时from bs4 import BeautifulSouplink = "https://www.wuxiaworld.co/Master-Hunter-K/1061716.html" html = requests.get(link,timeout =

浏览 0提问于2019-12-09得票数 1

回答已采纳

3回答

无法使用BeautifulSoup抓取数据

、、、

我正在使用Selenium登录到网页，并获得网页进行抓取，我能够获得该页面。我已经在html中搜索了我想要抓取的表。table_devicesensortable">rawpage=driver.page_source #storing the webpage in variable souppage=BeautifulSouptbody=souppage.find('table', attrs={'id&

浏览 0提问于2018-02-21得票数 1

3回答

使用Python进行网页抓取: BeautifulSoup的问题

请帮助我使用BeautifulSoup来使用Python3从investing.com中抓取金融值。无论我做什么，都不会得到任何值，过滤类正在从网页永久更改，它是一个活生生的值。import requests pri

浏览 36提问于2019-06-08得票数 1

1回答

使用BeautifulSoup在Python中进行网页抓取

、、

我想刮刮审查加拿大航空公司在旅行顾问网页上使用python BeautifulSoup与100个条目。这是我想要抓取的链接 https://www.tripadvisor.ca/Airline_Review-d8728998-Reviews-Air-Canada.html#REVIEWS 其中包括列用户名

浏览 11提问于2021-08-10得票数 0

2回答

使用IMDb BeautifulSoup对网页进行IMDb抓取

、、、、

我刚开始使用WebScraping/Python和BeautifulSoup，而且我的代码在工作上遇到了困难。这是我的代码：from bs4 import BeautifulSoup readHtml = test_url.read() soup =

浏览 4提问于2015-03-07得票数 4

回答已采纳

1回答

如何通过Python使用urllib和re检索实时价格数据

、

我试图从请求价格数据，但我遇到了与类似的问题，价格数据本身不是html的一部分。因此，当我运行基本的urllib代码来提取数据时：url = 'https://www.dukascopy.com' headers = {'User-Agent':'Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/53

浏览 5提问于2016-12-31得票数 3

1回答

Python从搜索结果中抓取链接

、、、、

我正在尝试使用Python从新闻网站的关键字搜索中生成/检索新闻链接列表。对于谷歌搜索，我知道有些使用，但谷歌搜索页面有自己的链接地址(即)，有些网站不通过网站地址传递关键字。这样，是否仍然可以使用Python库来提取这些链接？第二，在前面的两种情况下(比如)，搜索结果显示在数百个页面中。我应该使用哪些工具和技术来制作一个全面的新闻链接列表？

浏览 2提问于2015-10-28得票数 1

点击加载更多

使用BeautifulSoup进行网页抓取将不起作用

使用BeautifulSoup进行网页抓取

注释在网页上可见，但BeautifulSoup返回的html对象不包含注释部分

使用Python、BeautifulSoup进行网页抓取

BS4返回到Cloudflare网站，而不是实际的网站

抓取aspx页面的Python代码是什么？

如何在python中并行抓取多个html页面？

如何配置Scrapy以使用BeautifulSoup解析器

使用BeautifulSoup进行网页抓取:读取表

使用beautifulSoup和urllib进行网页抓取

Python数据抓取:使用href和prettify系列来抓取标题不起作用

Python:当使用请求包在HTTPS页面上执行get请求时，如何确保凭据中的标志被封装

试图从雅虎财经“世界指数”排行榜中剔除

刮过的文件中持久的非utf-8字符

无法使用BeautifulSoup抓取数据

使用Python进行网页抓取: BeautifulSoup的问题

使用BeautifulSoup在Python中进行网页抓取

使用IMDb BeautifulSoup对网页进行IMDb抓取

如何通过Python使用urllib和re检索实时价格数据

Python从搜索结果中抓取链接

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐