使用BeautifulSoup进行网页爬行

文章/答案/技术大牛

发布

2回答

、、

我从一个类似问题的答案中获得了灵感： Web crawling using python beautifulsoup 并想出了这段代码： import requestssource = requests.get('https://www.bbc.com/news/election-us-2020-54807899').text a

浏览 15提问于2020-11-04得票数 1

回答已采纳

2回答

link = '<a href="https://google.com/{0}">{0}</a>'.format("search") link 我这样做，并以字符串形式获得此结果 '<a href="https://google.com/search">search</a>' 我只想看到单词"search“作为输出。我将把它转换成一个数据帧，只希望看到这个词。到目前为止，我看到了整个字符串，甚至在写回excel之后也是如此。

浏览 22提问于2019-01-18得票数 1

回答已采纳

1回答

BeautifulSoup网页爬行:如何获取文本

、、、、

我要爬行的页面是。具体来说，我现在关注的是这个页面：。import requestsfrom urllib2 import urlopen source_code = requests.get(url) plain_text = source_code.

浏览 2提问于2015-06-24得票数 1

回答已采纳

1回答

如何在Python中爬行，而网站屏蔽的内容不被抓取？

、、、

我是Python的初学者，尝试使用BeautifulSoup爬行。并试图抓取一个收集产品信息的网站。pr_url = soup.findAll("li", {"class", "_3FUicfNemK"})使用BeautifulSoup进行爬行的其他代码都是一样的。所以我想的是，主机阻塞了产品区域，不能被爬行。，因为除了这个区域，每个元素都是可以爬行的。你知

浏览 0提问于2020-03-05得票数 1

回答已采纳

1回答

从html表中获取数据

、、、

我还可以使用wget下载所有需要的站点，并使用Python处理它们，如果Python有必要的库来处理html的话。

浏览 1提问于2013-01-25得票数 0

回答已采纳

2回答

如何在带有python的html页面中找到<h3>和</h3>之间的文本

、、

HTML Syntax</h3>我不知道如何为此编写模式，请帮助获取值"1.创建网页“和">2. HTML语法”

浏览 10提问于2022-09-21得票数 0

回答已采纳

2回答

如何在没有额外信息的情况下有效地从网页簇中提取文本

、、、、

我有大约一百万的网页列表，我想有效地从这些网页上提取文本。目前我正在使用python中的BeautifulSoup库从HTML中获取文本，并使用请求命令来获取网页的html。我看了scrapy，但它看起来像爬行特定的网站。我们可以将特定网页的列表传递给它以从中获取信息吗？提前谢谢你。

浏览 24提问于2019-05-22得票数 0

1回答

为什么nutch总是创建链接it，即使它不需要获取内容？

我理解使用反向链接对页面进行排序的概念。然而，当你只想爬几个网站的时候，我看不出你在扮演什么角色。由于linkdb的创建是一个地图减少作业，它必然会占用大量的计算资源。

浏览 2提问于2015-04-16得票数 0

回答已采纳

2回答

使用BeautifulSoup进行网页抓取

、、、

我想从这个链接中删除国家名称和国家首都：from bs4 import BeautifulSoupsoup = BeautifulSoup我觉得这很简单，但我并不能真正理解所有的教程，因为它们使用<

浏览 1提问于2015-11-20得票数 0

2回答

Web TooManyRedirects:超过30重定向。(python)

、

谢谢from bs4 import BeautifulSoup page = 1 source_code = requests.get(url) soup = BeautifulSoup

浏览 4提问于2015-06-01得票数 3

回答已采纳

4回答

如何用python抓取网站/将数据提取到数据库中？

、

要做到这一点，我需要爬行主日程(一个巨大的html页面)，以及链接到每个课程的详细描述到一个数据库，最好是在python中。另外，我需要登录来访问数据。已经有很好的解决办法了吗？

浏览 5提问于2011-12-01得票数 12

回答已采纳

3回答

Python Crawl --使用BeautifulSoup进行Amazom评论爬行

、、、、

import re, requests, csv from time import sleep url = base_url + str(page_num) soup = BeautifulSoup

浏览 42提问于2021-01-07得票数 0

回答已采纳

1回答

用BeautifulSoup爬行深度

、、、、

在漂亮的汤包中是否有允许用户在站点中设置爬行深度的功能？我对Python还比较陌生，但是我以前在R中使用过MaxDepth，而且爬虫提供了“”，所以爬虫将在一定数量的链接范围内从该领域的主页。4, no_conn = 4, ExtractCSSPat = c("div"), ****MaxDepth=5****)import bs4 as bs import

浏览 7提问于2017-12-20得票数 2

回答已采纳

4回答

涉及具有属性的HTML标记的Python web抓取

、、、

我正在尝试制作一个网络爬行器，它将解析出版物的网页并提取作者。网页的框架结构如下：<body><div id="contents"><tbody><td class="authorwhatever is located here ###</td><&#

浏览 0提问于2009-09-08得票数 8

回答已采纳

2回答

Web Crawler HTTP错误403:禁止

、、

下面是我正在尝试的代码：import urllib2import sysresponse = urllib2.urlopen(request)pool = BeautifulSoup

浏览 1提问于2012-12-21得票数 3

2回答

如何检查网站是否有javascript？

、、、、

我正在使用beautifulsoup.Some构建一个网络爬行器，网站有javascript内容，不使用urllib3加载，因此我使用them.But的selenium，selenium需要太长的时间和太多的响应，我需要构建一个更高效的网络爬行器，因为我需要为多个网站使用相同的通用爬行器。因此，我在想，如果有什么方法可以找出网站是否只有js内容，那么我将使用selenium，否则我将使用更快的urllib from

浏览 2提问于2019-06-24得票数 0

1回答

使用Python、BeautifulSoup进行网页抓取

、、、、

我在使用Python解析链接时遇到了问题。下面是我的代码： def get_content(html): items = soup.find_all('div

浏览 7提问于2020-06-15得票数 1

回答已采纳

2回答

selenium和firefox Why驱动程序为什么不能爬行ajax加载的wesite标记

、、、、

我已经尝试过selenium和geckodriver，但是我再次无法爬行这些标记，而且当机器人firefox (geckodriver)打开时，这些元素不会显示在网页上！我不知道为什么会这样。法典审判：from bs4 import BeautifulSoup driver.get(url_news) h

浏览 5提问于2022-01-15得票数 1

回答已采纳

2回答

不了解网页结构的Web抓取

、、、

基本上，我正在尝试编写一个Python脚本，给定几个关键字，它将爬行网页，直到找到我需要的数据为止。例如，假设我想找到一张生活在美国的蛇类清单。我已经知道如何实现网页蜘蛛部分，我只想学习如何确定网页的相关性，而不知道网页的结构。我已经研究过web抓取技术，但它们似乎都假设了解页面的html标记结构。我将Python与urllib和BeautifulSoup结合使用。

浏览 9提问于2014-05-28得票数 8

1回答

如何使用漂亮汤从js & Reactjs获取数据？

、、、

我正在做网页爬行在使用中美丽，我从不同的网站获得数据，但我没有从一些网站，我发现这些网站显示数据使用js。我为派生数据编写了下面的脚本，它运行得很好，但在某些情况下却不是这样，这是对它们的数据使用的JS。from bs4 import BeautifulSoupimport urllib2 params = {"url":"search-alias=aps","field-keywords":

浏览 2提问于2016-10-11得票数 0

回答已采纳

点击加载更多