使用BeautifulSoup和未找到的内容进行网络抓取

文章/答案/技术大牛

发布

1回答

、、、、

我正在尝试用Python语言中的BeautifulSoup来做一个基本的网络爬行器。然而，我的目标页面正在使它变得困难。from bs4 import BeautifulSoup from ur

浏览 16提问于2020-02-05得票数 0

2回答

使用BeautifulSoup和json进行网络抓取

、、、

我正在尝试构建一个网络爬行器，它将拉出加密货币价格的历史数据，但当我试图打印出这些数据时，输出结果为none。代码如下： #Libraries from bs4 import BeautifulSoupcoins = {} soup =

浏览 31提问于2021-06-28得票数 0

回答已采纳

2回答

使用BeautifulSoup进行网络抓取

、、

我试图收集一些数据来进行训练，但我被卡住了。我想刮掉日期，而不仅仅是年份，但我现在还不知道该怎么做。下面是我想要摘录的部分： htmlscrape 到目前为止，我的脚本如下： import requestsfrom bs4 import BeautifulSoupimport re res

浏览 6提问于2020-10-21得票数 1

2回答

使用Python在youtube中搜索打开第一个视频

、、、

我试了试，但不知道如何打开第一个视频。此代码在浏览器中打开搜索。 words = search.split() link += i + "+" webbrowser.open_new(link[:-1])

浏览 1提问于2020-04-10得票数 3

1回答

避免使用优美汤和urllib.request下载图片

、、、

我使用BeautifulSoup ('lxml'解析器)和urllib.request.urlopen()从一个网站获取文本信息。但是，当我在Acitivity中查看网络部分时，我看到python下载了很多数据。这意味着不仅文本被下载，而且图像也被下载。在使用BeautifulSoup进行网络抓取时，有可能避免下载图片吗？

浏览 2提问于2016-04-03得票数 0

回答已采纳

1回答

使用BeautifulSoup进行网络抓取的问题

、、、

我是使用beautifulSoup的新手，有一个问题；感谢您的帮助：import requests soup1 = soup(page.content, 'html-parser') 同时，我在单独的浏览器中访问我找到了两个独立的模式来满

浏览 3提问于2020-04-20得票数 0

2回答

利用Scrapy和BeautifulSoup进行网络抓取

、、

" data-nid="117" data-localisation="25.88872, -80.12488">大家好，我正在收集'data-nid‘和'我是BeautifulSoup的新手，对此我感到不自在。非常感谢！

浏览 1提问于2018-07-09得票数 0

回答已采纳

1回答

用python和BeautifulSoup进行网络抓取

、、、、

我试图从一个网站中提取数据，这些数据列在一个表格中：soup =BeautifulSoup(url.content) table=soup.find_all

浏览 5提问于2020-04-25得票数 0

回答已采纳

1回答

网络抓取内容:在使用BeautifulSoup之前？

、、、、

我对python非常陌生，并且尝试过抓取一些网站。他们中的一些人工作得很好，但我现在偶然发现了一个让我很难相处的。使用的网址是：。我试图从这个页面获得所有的产品标题和urls。这是我到目前为止掌握的代码： source = requests.get(url) soup = BeautifulSoup

浏览 8提问于2022-07-11得票数 0

回答已采纳

2回答

Python从多个页面请求.get()？

、、、

我正在学习如何使用python进行网络抓取，我想知道是否可以使用requests.get()抓取两个页面，这样我就不必进行两个单独的调用和变量。例如：r2 = requests.get("page2") pg

浏览 0提问于2017-06-03得票数 2

1回答

如何配置Scrapy以使用BeautifulSoup解析器

、、、

我使用BeautifulSoup的默认html.parser从任何网页中提取数据，没有什么原因让我觉得它比使用XPATH/CSS选择器更灵活、更强大。在抓取之前，我学习了使用BeautifulSoup进行网络抓取。我想不出一种让Scrapy使用bs4作为解析器的方法。有可能吗？

浏览 2提问于2019-08-18得票数 0

回答已采纳

2回答

使用BeautifulSoup遍历URLS进行网络抓取

、、、

这是我的代码，用来从www.oddsportal.com中剔除。import pandas as pdfrom selenium import webdriver del threadLocal gc.collect() # a little extra insurance 目前，代码只获取一个urls的数据我想我正在尝试将这一部分集成到我的

浏览 7提问于2021-09-07得票数 0

回答已采纳

2回答

用urllib进行Web抓取

、

我试着做一些简单的web抓取，我不断地得到这个错误，我不确定哪里错了，因为我对python相当陌生。异常:需要一个类似字节的对象，而不是'str‘。

浏览 8提问于2016-12-19得票数 0

回答已采纳

1回答

如何从文本文件selenium中读取内容

、、

driver.get(url = main_url+f'/bot/{bot_id}/users') 我可以在不下载文件的情况下从文件中读取内容吗？

浏览 3提问于2022-08-25得票数 0

1回答

使用BeautifulSoup找不到深度嵌套标记ID

、

我试图从中抓取NBA数据，但我遇到了BeautifulSoup抛出深度嵌套标记的问题。我试着用soup.find(id='opponent-stats-per_game')来抓取“对手每个游戏统计”表。然而，我得到了None的结果。如果我试图找一个在树上更高的div，那么它会剪辑更深的孩子。有人能给我一些指导吗？我对使用BeautifulSoup进行网络抓取相

浏览 1提问于2019-04-03得票数 0

回答已采纳

2回答

我正在从齐洛的website.So收集住房数据--我已经从第一个webpage.For收集了数据--我的下一步，我试图找到到next按钮的链接，它将导航我到第2页，第3页，等等。我使用Chrome的检查功能来定位“next按钮”按钮，该按钮的结构如下 <a href=”/homes/recently_sold/house_type/47164_rid/0_singlestoryonclick=”SearchMain.changePa

浏览 1提问于2018-10-05得票数 1

回答已采纳

1回答

使用BeautifulSoup进行网络抓取返回NoneType

、

我试图用BeautifulSoup刮一个网站，并编写了以下代码：from bs4 import BeautifulSoup soup = BeautifulSoup(page.text, 'html.parser')

浏览 1提问于2019-01-18得票数 3

回答已采纳

9回答

BeautifulSoup和Scrapy crawler有什么区别？

、、、

我想做一个网站，显示亚马逊和易趣产品价格的比较。其中哪一个会工作得更好?为什么？我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

3回答

使用BeautifulSoup进行网络抓取(Jupyter Notebook)

、、、

我正在尝试从一个开源门户网站抓取数据集。只是想弄清楚怎样才能抓取网站。我正在尝试从data.toerismevlaanderen.be获取数据集这就是我想要的数据集：这是我的代码：import time url = 'https://data.toerismevla

浏览 0提问于2019-11-15得票数 1

2回答

Python 3.5.2 web-scraping - list索引超出范围

、、

我是新的网络抓取，并试图抓取所有内容的餐厅的详细信息形式，以便我可以继续我的进一步抓取。import requestsimport urllib r=requests.get(url) soup=Beauti

浏览 5提问于2016-09-21得票数 0

点击加载更多