在Python标记中使用BeautifulSoup进行网络抓取

文章/答案/技术大牛

发布

1回答

、、

OpenDocument 我想用Python语言中的BeautifulSoup抓取表中的一些信息。到目前为止，我已经使用BeautifulSoup开发了以下代码： from bs4 import BeautifulSoupimport pandas as pd authors = []authors.append(tab

浏览 19提问于2020-04-04得票数 1

回答已采纳

1回答

避免使用优美汤和urllib.request下载图片

、、、

我使用BeautifulSoup ('lxml'解析器)和urllib.request.urlopen()从一个网站获取文本信息。但是，当我在Acitivity中查看网络部分时，我看到python下载了很多数据。这意味着不仅文本被下载，而且图像也被下载。在使用BeautifulSoup进行网络抓取时，有可能避免下载图片吗？

浏览 2提问于2016-04-03得票数 0

回答已采纳

1回答

使用BeautifulSoup找不到深度嵌套标记ID

、

我试图从中抓取NBA数据，但我遇到了BeautifulSoup抛出深度嵌套标记的问题。我试着用soup.find(id='opponent-stats-per_game')来抓取“对手每个游戏统计”表。然而，我得到了None的结果。如果我试图找一个在树上更高的div，那么它会剪辑更深的孩子。有人能给我一些指导吗？我对使用BeautifulSoup进行网络抓取相当陌生。

浏览 1提问于2019-04-03得票数 0

回答已采纳

1回答

在Python上使用BeautifulSoup进行网络抓取

、、

我试图从这个网站中刮出每个API和分类的名称，并以这种格式打印出来。类别:制图from bs4 import BeautifulSoup as bs API名称API URLAPI类别API描述当您在链接<code>H 113</code>刮下页面时，直到没有剩下的页

浏览 2提问于2019-10-07得票数 0

1回答

用BeautifulSoup - HTML不同格式从CSS类链接中提取标题

、

我刚开始使用BeautifulSoup进行网络抓取，并遇到了以下问题:我试图从论坛上抓取帖子，我想提取帖子的标签。下面是标记类的HTML代码：这种格式在整个表单中是一致的。

浏览 5提问于2021-06-08得票数 0

回答已采纳

2回答

使用Python在youtube中搜索打开第一个视频

、、、

此代码在浏览器中打开搜索。

浏览 1提问于2020-04-10得票数 3

1回答

用查克比实现BeautifulSoup到Android

、、、

目前，我正在使用Android和BeautifulSoup开发一个网络抓取应用程序。我如何实现？从bs4导入BeautifulSoup python { pip{

浏览 2提问于2021-12-03得票数 3

回答已采纳

1回答

如何使python代码请求URL并根据需要从网页中刮取信息

、、

我正在使用一个简单的python代码来尝试获取一个URL，并在这个URL的主页/根页面下刮出每个网页中提到的所有其他URL(如果有的话，所有html子页面)。socks.PROXY_TYPE_SOCKS5, "127.0.0.1", 9050) req = urllib2.Request('http://www.python.org我发现我必须在Python/site-packages目

浏览 1提问于2017-12-19得票数 0

回答已采纳

1回答

用BeautifulSoup python进行网络抓取

、、

/')result = soup.find_all('div', class_='c-product-boxfirst_watch.find(class_='c-price__value-wrapper')first_price = first_price.text 当我使用first_watch = result并<

浏览 1提问于2020-05-27得票数 0

回答已采纳

2回答

Web报废:为什么我的代码不输出所需的输出？

、、

我正在使用python语言和BeautifulSoup进行网络抓取项目。我尝试了下面的示例代码并执行所需的输出。from bs4 import BeautifulSoup as soup URL = "https://www.newegg.comcontainers = page_soup.findAll("div", {"

浏览 2提问于2022-07-19得票数 -1

2回答

使用BeautifulSoup进行网络抓取

、、

我试图收集一些数据来进行训练，但我被卡住了。我想刮掉日期，而不仅仅是年份，但我现在还不知道该怎么做。下面是我想要摘录的部分： htmlscrape 到目前为止，我的脚本如下： import requestsfrom bs4 import BeautifulSoupimport re results = requests.ge

浏览 6提问于2020-10-21得票数 1

2回答

Python从多个页面请求.get()？

、、、

我正在学习如何使用python进行网络抓取，我想知道是否可以使用requests.get()抓取两个页面，这样我就不必进行两个单独的调用和变量。例如：r2 = requests.get("page2") pg2 = B

浏览 0提问于2017-06-03得票数 2

1回答

ImportError:没有名为bs4原子的模块

、、、

我使用Atom (1.53.0)用于使用美丽汤进行网络抓取。我在行中得到一条错误消息：内容如下：在终端中执行以下命令时：我得到了结果： Requirement already satisfied: beautifulsoup</

浏览 4提问于2021-01-05得票数 2

9回答

BeautifulSoup和Scrapy crawler有什么区别？

、、、

我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

2回答

我无法使用美汤进行解析

、

><span>Very Good</span></span> </span> My Name is Alis I am a pythonclass="class-3" style="style-2 clear: both;"> </div> <&

浏览 0提问于2010-11-17得票数 0

3回答

Python漂亮的汤，在网站上刮桌子

、

我最近开始对通过python库beautifulsoup4进行网络抓取感兴趣，我的目标是获取有关新冠肺炎案例的数据(在摩洛哥是一个良好的开端)；我的信息所在的网站是："“有一个包含所有信息的大表，我尝试这样做：response = requests.get(U) html_soup = BeautifulSoup

浏览 0提问于2020-10-16得票数 0

回答已采纳

3回答

如何使用BeautifulSoup从特定表中获取所有行？

、

我正在学习Python和BeautifulSoup如何从网络上抓取数据，并读取超文本标记语言表格。我可以将它读入Open Office，它显示的是表#11。似乎BeautifulSoup是首选，但是谁能告诉我如何获取特定的表和所有行？我已经看过模块文档了，但是我不能理解它。我在网上找到的许多例子似乎都超出了我的需要。

浏览 1提问于2010-01-06得票数 24

回答已采纳

2回答

为什么当我按类搜索时，BeautifulSoup的findAll返回一个空列表？

、、

我正在尝试使用h2标记进行网络抓取，但是BeautifulSoup返回一个空列表。urlopen("https://careersus-endologix.icims.com/jobs/2034/associate-supplier-quality-engineer/job") bs0bj=BeautifulSoup

浏览 1提问于2019-04-25得票数 2

1回答

如何在网站上写入文本框并提交

我想了解一下用Python进行网络抓取的方法。我目前正在尝试将字符串输入到网站上的文本框中(我正在使用)。因此，我使用以下代码找到了文本框：from requests import getsoup = BeautifulSoup

浏览 1提问于2017-08-04得票数 1

回答已采纳

3回答

如何在python中并行抓取多个html页面？

、、、、

我正在用Django web框架用Python制作一个网络抓取应用程序。我需要用漂亮的汤库抓取多个查询。下面是我写的代码的快照： r = requests.get(url) links= soup.find_all("a", {"class":"dev-link"}) 实际上，网页的抓取是按顺序<em

浏览 0提问于2017-05-29得票数 2

点击加载更多