开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

网络抓取soup.findAll总是返回空列表

问题：网络抓取soup.findAll总是返回空列表

回答：网络抓取中，使用BeautifulSoup库的findAll函数进行元素查找时，出现返回空列表的情况可能是以下原因之一：

网页结构问题：可能是因为提供的网页URL无效或者网页内容不符合预期，导致无法正确解析出目标元素。可以尝试使用其他网页URL进行测试，或者检查目标网页的结构和内容是否发生了变化。
元素选择器问题：findAll函数的第一个参数接受一个元素选择器，用于指定要查找的元素。可能是选择器的问题导致无法找到目标元素。建议检查选择器是否正确，可以尝试使用其他选择器或者调整选择器的参数。
网络请求问题：可能是因为网络请求时出现了错误或者请求过程中发生了异常，导致无法成功获取网页内容。可以尝试检查网络连接是否正常，或者查看网络请求的返回结果，判断是否出现了错误。

为了更好地解决这个问题，以下是一些可能的解决方案：

检查网页内容：确保提供的网页URL是有效的，并且网页内容符合预期。可以手动访问该URL并查看网页内容，确认是否存在目标元素。如果网页内容不符合预期，可能需要更改目标元素的选择器或者尝试其他网页。
调整元素选择器：根据目标元素在网页中的位置和特征，调整元素选择器的参数，确保正确匹配到目标元素。可以参考BeautifulSoup库的文档了解更多关于选择器的用法。
检查网络连接：确保网络连接正常，可以尝试访问其他网页确认网络是否正常工作。如果网络连接存在问题，可以尝试重新连接网络或者联系网络管理员解决。
异常处理：在网络请求过程中，可能会发生各种异常情况，如超时、连接错误等。建议在代码中添加适当的异常处理机制，以便及时捕获并处理这些异常情况。
使用其他网络抓取工具：如果问题仍然无法解决，可以尝试使用其他网络抓取工具或者库，如Scrapy、Requests等。这些工具提供了更多的功能和灵活性，可能能够解决一些特定的问题。

总结：网络抓取中出现soup.findAll返回空列表的问题可能有多种原因，包括网页结构问题、元素选择器问题和网络请求问题。通过检查网页内容、调整选择器、检查网络连接和添加异常处理机制等方式，可以尝试解决这个问题。如果问题仍然存在，可以尝试使用其他网络抓取工具。

相关搜索:BeautifulSoup中的网络抓取返回一个空列表 BeautifulSoup网络抓取.asp仅搜索列表中的最后一个 BS4网络抓取，我的列表理解只返回一个结果 Cheerio，axios，reactjs to web从返回空列表的网页上抓取表格 Python网络抓取。返回空数组的xpath Python网络抓取漂亮的汤列表错误 Scrapy在从雅虎财经抓取时返回空列表为什么accountsservice总是返回空的用户列表？为什么在网络抓取蒸汽游戏列表时div返回为空？亚马逊网络服务放大GraphQL -一对多连接在查询时返回空列表

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

使用Python轻松抓取网页

抓取网页入门其实挺简单的。在之前的文章中我们介绍了怎么用C#和JAVA两种方法来抓取网页，这一期给大家介绍一种更容易，也是使用最广泛的一种抓取方法，那就是Python。

02

干货 | 马蜂窝数据被扒光，用 Python 爬取网页信息 4 分钟就能搞定

图片来自https://www.freestock.com/free-photos/illustration-english-window-blue-sky-clouds-41409346

03

马蜂窝数据被扒光，用 Python 爬取网页信息 4 分钟就能搞定

图片来自https://www.freestock.com/free-photos/illustration-english-window-blue-sky-clouds-41409346

01

Python简易爬虫小实例：爬取NBA球队13-14赛季对阵数据

这部分内容来自参考书《Python网络数据采集》第一章的内容基本流程：通过urlopen()函数获得网页的的全部HTML代码；然后通过BeautifulSoup模块解析HTML代码获得我们想要的内容

02

while循环与for循环到底差在哪里？举几个例子给你看！

在上一期原创文章《for循环太Low？分享几段我工作中经常使用的for代码！》中，我介绍了几段工作中常用的for循环代码，这期再简单介绍一下while循环与for循环的差异。

01

python爬虫进行Web抓取LDA主题语义数据分析报告

从网站提取数据的方法称为网络抓取。也称为网络数据提取或网络收集。这项技术的使用时间不超过3年。

01

爬虫0040：数据筛选爬虫处理之结构化数据操作

爬虫程序，主要是运行在网络中进行数据采集的一种计算机程序，正常的一个爬虫采集数据的过程大致如下：

01

[编程经验] 基于bs4的拉勾网AI相关工作爬虫实现

年初大家可能是各种跳槽吧，看着自己身边的人也是一个个的要走了，其实是有一点伤感的。人各有志吧，不多评论。这篇文章主要是我如何抓取拉勾上面AI相关的职位数据，其实抓其他工作的数据原理也是一样的，只要会了这个，其他的都可以抓下来。一共用了不到100行代码，主要抓取的信息有“职位名称”，“月薪”，“公司名称”，“公司所属行业”，“工作基本要求（经验，学历）”，“岗位描述”等。涉及的工作有“自然语言处理”，“机器学习”，“深度学习”，“人工智能”，“数据挖掘”，“算法工程师”，“机器视觉”，“语音识别”，“图像处理

05

【爬虫实践】获取某城市天气数据

获取山东济南城市每天的天气情况。需要获取四个数据：天气、温度、风向、风级。 url地址：http://www.weather.com.cn/weather/101120101.shtml

01

《权力的游戏》最终季上线！谁是你最喜爱的演员？这里有一份Python教程 | 附源码

《权力的游戏》最终季已于近日开播，对于全世界翘首以待的粉丝们来说，其最大的魅力就在于“无法预知的人物命运”。那些在魔幻时代的洪流中不断沉浮的人们，将会迎来怎样的结局？近日，来自 Medium 上的一位名叫 Rocky Kev 的小哥哥利用 Python 通过《权力的游戏》粉丝网站收集最喜爱演员的照片。结果是怎样的是其次的，关键是过程，用他的话来讲，“非常 enjoy！”

03

如何利用维基百科的数据可视化当代音乐史

翻译校对：丁雪吴怡雯程序验证修改：李小帅 “我相信马塞勒斯·华莱士，我的丈夫，你的老板吩咐你带我出门做我想做的任何事。现在，我想跳舞，我要赢，我想得到那个奖杯，把舞跳好来！” 《黑色追缉令》

07

python爬虫汽车之家全车型及基本参数入数据库（截止50524个数据）（详解）

本人新手小白，看到网上很多类似的文章，本着实践，交流学习目的，如侵，立删。如文章被转载利用，出现一切后果与本人（笔者）无关。

01

爬取娱乐圈排行榜数据

想关注你的爱豆最近在娱乐圈发展的怎么样吗？本文和你一起爬取娱乐圈的排行榜数据，来看看你的爱豆现在排名变化情况，有几次登顶，几次进了前十名呀。

03

GitHub 热门：各大网站的 Python 爬虫登录汇总

项目地址：https://github.com/CriseLYJ/awesome-python-login-model

02

『Python爬虫』极简入门

本文介绍如何使用 Python 写一只简单的爬虫，作为入门篇，这个程序不会很复杂，但至少可以讲明爬虫是个什么东西。

01

新浪微博小爬虫

python的中文编码实在是非常麻烦，不光如此，因为有些用户的简介里有一些特殊符号，®或者笑脸之类的，于是在这里纠结了很久，好歹最后是成功了(其实也就是过滤掉了那些特殊符号) 效率来说呢，开始的时候一个小时能采集大概1.4w条微博的用户信息，但是由于我是从每个人的关注列表里采集的，所以很快就会遇到爬到许多已经爬过的用户，所以总的来说效率不是很高，怪不得那个“中国爬盟”要发动群众的力量去爬而且有些担心爬久了微博账号被封，我也没敢尝试太久，最后爬了5w条用户信息，8w条关系数据，

04

《鲜活的数据-第2章处理数据》有关代码

2.1.3 自动收集数据 import urllib2 page = urllib2.urlopen("https://www.wunderground.com/history/airport/ZHCC/2017/9/8/DailyHistory.html") from BeautifulSoup import BeautifulSoup soup = BeautifulSoup(page) images = soup.findAll('img') first_image = images[0] print

02

用 Python 登录主流网站，我们的数据爬取少不了它

项目地址：https://github.com/CriseLYJ/awesome-python-login-model

03

python爬虫:将本人博客园文章转化为MarkDown格式

本周又和大家见面了，首先说一下两周之后要进行研究生的期末考试，所以这次可能是考试之前的最后一更，我要忙着复习了，还请大家见谅，一般情况下我都是每周更新一篇技术原创。　　好了，废话不多说，咱们进入今天的主题。由于我在简书也有自己的基地，所以每次在博客园文章更新完，还要在简书进行更新。由于简书文章的编辑格式是MarkDown，所以前几次更新修改格式都是非常麻烦，浪费时间，尤其是有了图片之后。于是，为了不让自己的时间浪费在这么无聊的事情上，我就用学到的爬虫知识，对我写的文章进行格式的转化(当然我只是按照

03

web爬虫项目实战-分类广告网站的数据抓取

今天我们使用Web抓取模块（如Selenium，Beautiful Soup和urllib）在Python中编写脚本来抓取一个分类广告网站Craigslist的数据。主要通过浏览器访问网站Craigslist提取出搜索结果中的标题、链接等信息。

03

【python爬虫】知乎互联网话题问答内容可视化分析

摘要：本文主要针对知乎网站互联网话题下的QA问答对内容进行分析，观察当前互联网话题下用户都比较关注什么。文章从数据爬取、问题分析、高赞答案分析、关键词可视化等方面进行QA内容解读，希望本文开源的代码能

05

GitHub 热门：各大网站的 Python 爬虫登录汇总

项目地址：https://github.com/CriseLYJ/awesome-python-login-model

03

python3结合BeautifulSoup和requests爬取双色球开奖结果

查看其框架源码可知，其获取的url为：http://kaijiang.zhcw.com/zhcw/html/ssq/list_1.html

02

【工具】python的爬虫实现（入门版）

Python提供了许多Module，通过这些Module，可以很简单的做一些工作。比如，要获得cloga这个词在百度搜索结果页中的排名结果（排名结果+URL），这就是一个很简单的爬虫需求。首先，要通

03

利用python进行基金数据分析

说明：这里只是利用python做一个简单的数据分析，具体选择基金的时候还需要注意到其他方面的问题。

02

Beautiful Soup与运用（猫眼电影榜单）

Beautiful Soup是Python的一个HTML/XML的解析库，可以用来获取网页信息输入文档为Unicode 编码，输出文档为UTF-8编码，不需考虑编码问题

02

CSDN 已下载资源自动批量评论脚本

用 Python 实现自动批量打分评论指定 CSDN 账号内所有下载过待评论的资源。

01

python爬虫开发之Beautiful Soup模块从安装到详细使用方法与实例

简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。官方解释如下： Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。Beautiful Soup已成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度。

03

python用法总结

import requests form bs4 import BeautifulSoup response = requests.get('http://www.baidu.com') print(response.status_code) # 打印状态码 print(response.url) # 打印请求url print(response.headers) # 打印头信息 print(response.cookies) # 打印cookie信息 print(response.text) #以文本形式打印网页源码 print(response.content) #以字节流形式打印

01

[Python爬虫]新闻网页爬虫+jieba分词+关键词搜索排序

版权声明：本文为博主原创文章，转载请注明原文作者和原文地址链接，谢谢。 https://blog.csdn.net/qqxx6661/article/details/90271893

02

python爬虫的东西

知网 image.png 这目录直接提取 image.png <a class="fz14" href="/kns/detail/detail.aspx?QueryID=30&CurRec=2&db

03

获取网页中所有的文字

* 网站名称：obaby@mars * 网址：https://h4ck.org.cn/ * 本文标题：《获取网页中所有的文字》 * 本文链接：https://h4ck.org.cn/2018/08/%e8%8e%b7%e5%8f%96%e7%bd%91%e9%a1%b5%e4%b8%ad%e6%89%80%e6%9c%89%e7%9a%84%e6%96%87%e5%ad%97/ * 转载文章请标明文章来源，原文标题以及原文链接。请遵从《署名-非商业性使用-相同方式共享 2.5 中国大陆 (CC BY-NC-SA 2.5 CN) 》许可协议。

02

CSDN 已下载资源自动批量评论脚本

用 Python 实现自动批量打分评论指定 CSDN 账号内所有下载过待评论的资源。

01

大数据—爬虫基础

1. 选择所有节点：使用双斜杠//选择文档中的所有节点，如：//node() 2. 按属性选择节点：使用方括号[]和@符号选择具有特定属性值的节点，例如：//book[@category="children"] 3. 使用逻辑运算符选择节点：使用and、or、not等逻辑运算符选择节点，例如：//book[price<10 and @category="children"]

02

学爬虫，吃牢饭，卑微前端小丑复制antd的icon图标真的太难啦，我用python几秒扒完

最近用react+vite+antd写了个后管项目，在菜单管理中，需要用户选择菜单的icon图标。

04

python 爬虫之BeautifulS

import urllib2 url = 'http://www.someserver.com/cgi-bin/register.cgi' values = {} values['name'] = 'Michael Foord' values['location'] = 'Northampton' values['language'] = 'Python'

02

楼盘价格数据采集与可视化分析

本文就从数据采集、数据清洗、数据分析与可视化三部分来看看新的一年里房市的一些问题。数据采集：数据采集即从网页上采集我们需要的指定信息，一般使用爬虫实现。当前开源的爬虫非常多，处于简便及学习的目的，在此使用python的urllib2库模拟http访问网页，并BeautifulSoup解析网页获取指定的字段信息。本人获取的链家网上的新房和二手房数据，先来看看原始网页的结构：首先是URL，不管是新房还是二手房，链家网的房产数据都是以列表的方式存在，比较容易获取，如下图：

python 数据抓取三种方法

*利用之前构建的下载网页函数，获取目标网页的html，我们以https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/为例，获取html。

02

python 匿名代理访问浏览器

import mechanize import cookielib import random

02

SEO利器：使用Python爬虫实现竞争对手关键词分析

在当今的数字时代，搜索引擎优化（SEO）是许多网站主和营销人员追求的目标。为了提高自己网站在搜索结果中的排名，并吸引更多有针对性的流量，我们需要深入了解竞争对手以及他们所使用的关键词策略。

02

PPT无素材？教你批量抓取免费、高清、无版权图片！

相信在你的工作中可能会经常用到PPT吧，你在PPT制作过程中有没有这样的困惑，就是可以到哪里找到既高清又无版权争议的图片素材呢？这里强烈推荐ColorHub，这是一个允许个人和商业用途的免费图片网站，真的很赞！从她的主页界面来看，也许你就会爱上她。

02

PPT无素材？教你批量抓取免费、高清、无版权图片！

相信在你的工作中可能会经常用到PPT吧，你在PPT制作过程中有没有这样的困惑，就是可以到哪里找到既高清又无版权争议的图片素材呢？这里强烈推荐ColorHub，这是一个允许个人和商业用途的免费图片网站，真的很赞！从她的主页界面来看，也许你就会爱上她。

02

Python模拟登陆 —— 征服验证码 1 豆瓣

captcha是Completely Automated Public Turing Test to Tell Computers and Humans Apart ，全自动区分计算机和人类的图灵测试

05

实验八网络信息提取程序设计

获取网络数据的方式很多，常见的是先抓取网页数据（这些数据是html或其它格式的网页源代码），再进行网页数据解析，而有的网站则直接提供了数据文件供下载，还有的网站提供了Web API供用户使用。后两种方式一般能获得直接的数据，不需要再进行解析。

02

Python程序员因为和女朋友斗图斗输了，一怒之下爬取了网站30页表情包

*声明：本文于网络整理，版权归原作者所有，如来源信息有误或侵犯权益，请联系我们删除或授权事宜。

01

[Python从零到壹] 五.网络爬虫之BeautifulSoup基础语法万字详解

BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python扩展库。BeautifulSoup通过合适的转换器实现文档导航、查找、修改文档等。它可以很好的处理不规范标记并生成剖析树（Parse Tree）；它提供的导航功能（Navigating），可以简单又快速地搜索剖析树以及修改剖析树。BeautifulSoup技术通常用来分析网页结构，抓取相应的Web文档，对于不规则的HTML文档，它提供了一定的补全功能，从而节省了开发者的时间和精力。本章将带领您走进BeautifulSoup爬虫的海洋，下面先简单介绍BeautifulSoup技术的安装过程。

00

【python爬虫 2】BeautifulSoup快速抓取网站图片

学习，最重要的是要了解它，并且使用它，正所谓，学以致用、本文，我们将来介绍，BeautifulSoup模块的使用方法，以及注意点，帮助大家快速了解和学习BeautifulSoup模块。有兴趣了解爬虫的小伙伴们，赶快学起来吧。

02

python 下载网站上所有图片

import urllib2 from bs4 import BeautifulSoup as BS from os.path import basename from urlparse import urlsplit

02

Python爬虫抓取指定网页图片代码实例

（1）指定网站链接，抓取该网站的源代码（如果使用google浏览器就是按下鼠标右键 – Inspect- Elements 中的 html 内容）

02

Python 爬虫入门—— IP代理使用

简单的说，代理就是换个身份。网络中的身份之一就是IP。比如，我们身在墙内，想要访问google、u2b、fb等，直接访问是404，所以要换个不会被墙的IP，比如国外的IP等。这个就是简单的代理。

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭