开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

为什么我的代码返回空白？(用Scrapy抓取)

代码返回空白可能有多种原因，以下是一些可能的原因和解决方法：

网络连接问题：首先要确保你的网络连接正常，可以尝试访问其他网站来确认。如果网络连接有问题，可以尝试重新连接网络或者检查网络设置。
网站反爬虫机制：有些网站会设置反爬虫机制，阻止爬虫程序的访问。这可能是导致返回空白的原因之一。你可以尝试使用代理IP或者设置合适的请求头信息来绕过反爬虫机制。
页面结构变化：如果你的代码是基于特定网页结构编写的，当网页结构发生变化时，可能会导致返回空白。你可以检查目标网页的结构是否发生了变化，并相应地修改你的代码。
请求错误：在使用Scrapy抓取网页时，可能会出现请求错误，导致返回空白。你可以检查你的请求是否正确，包括URL是否正确、请求方法是否正确等。
数据提取错误：如果你的代码中有数据提取的部分，可能是数据提取的逻辑有问题导致返回空白。你可以检查你的数据提取逻辑是否正确，包括XPath或CSS选择器是否正确、提取的数据是否存在等。
日志输出问题：Scrapy默认会将日志输出到控制台，你可以检查控制台输出的日志信息，看是否有错误提示或者警告信息。

总结起来，代码返回空白可能是由于网络连接问题、网站反爬虫机制、页面结构变化、请求错误、数据提取错误或者日志输出问题等原因导致的。你可以根据具体情况逐一排查，并进行相应的调整和修复。

相关搜索:Python Scrapy:返回抓取的URL列表 Scrapy:谁能告诉我为什么这段代码不能让我抓取后面的页面？Web抓取空白返回-错误的元素为什么scrapy没有抓取我的链接为什么Scrapy没有返回完整的HTML代码？为什么scrapy返回给我原始的url？为什么我抓取的div返回时是空的为什么我的Laravel刀片视图返回空白页？为什么我的scrapy ItemLoader失败了？为什么我的代码没有返回它应该返回什么？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

为什么我的递归函数返回None

问：我有一个调用自己的函数: def get_input(): my_var = input('Enter "a" or "b": ') if my_var !...: Type "a" or "b": a got input: a 但是，如果我输入别的东西，然后输入 "a" 或 "b"，我会得到这样的结果: Type "a" or "b": purple You...Type "a" or "b": a got input: None 我不明白为什么 get_input() 函数返回的是 None，因为它本应只返回 my_var。这个 None 是从哪里来的？...我该如何修复我的函数呢？答：它返回 None 是因为当你递归调用它时: if my_var != "a" and my_var !...Python3 documentation 因此，除了在 if 语句中调用 get_input() 之外，还需要返回递归调用返回的内容。

971 0

为什么我做分享的时候会感觉大脑空白

本能脑从爬行动物时代衍化而来，情绪脑是从哺乳动物开始出现，理智脑是从最开始的人类才开始出现，所以仅从存在的年代来看，本能脑 > 情绪脑 > 理智脑，如果把它们用年龄来比分别为 100 岁、50岁、0 岁...再从大脑结构来说，你可以理解它们分布在这个位置：从距离上说，本能脑和情绪脑距离心脏更近，一旦出现紧急情况，它们就会优先得到供血，这就是为什么我紧张的时候会感觉大脑空白，因为最上方的理智脑供血不足了。...而且因为它年龄小，在遇到危险的时候，本身也竞争不过其他两重脑，所以就能解释，为什么人在遇到危险的时候都靠本能反应而不是靠理智。 02 那怎么解决这个问题呢？其实很简单，就是打稿子，然后自己多练。...实验结果比较成功，比第一次的分享好太多了，领导都忍不住夸了几句，感觉进步很大，哈哈。 03 这个经验可以借鉴其实这个方法不只是用在会议分享上，现在很火的视频直播、连麦分享，都可以这么用。...昨天我看了阿常和小林的连麦，非常稳，这也是我要继续学习的方向。好了今天的分享就到这里。今日鸡汤：自信人生二百年，会当击水三千里。

5294 0

用BeautifulSoup库抓取信息时去掉字符串首尾空白的几种方法

前言在抓取网页信息时经常遇到很多头尾加了空格的字符串，在此介绍几种处理的小技巧。例子 1. woodenrobot 2....woodenrobot1woodenrobot2 d: [' woodenrobot1', ' woodenrobot2 ', ' '] e: ['woodenrobot1', 'woodenrobot2'] 通过结果我们知道对于复杂一点的特殊结构这个三种方法还是有一些差异存在...，所以我们需要根据不同的需求选择不同的方法。

1.6K6 0

我背着女朋友，用 Python 偷偷抓取了她的行踪

照片的Exif信息中包含了位置信息，即经纬度坐标。...用Python爬取这个数据之后，你就可以套路女朋友了…… 另外也提示大家，有时候位置坐标也算是个人隐私了，如果不想让Exif信息泄露，就一定不要给他人传原图！...作者：星安果来源：AirPython（ID：AirPython） 01 目标场景有时候女朋友一个人在外面玩耍，问她在哪个地方，就是不告诉我。但是，你又很想知道女朋友的「位置」，这该如何是好？...return 如果女友没有撒谎，那么可以进行第 2 步的操作。因为通过 GPS 获取的经度、纬度和高德地图的坐标存在一定的误差，这里需要把坐标转换为「火星坐标系」。...，可以快速帮你判断女朋友是否在撒谎；如果女朋友没有撒谎，就返回女朋友具体的位置。

2K7 1

我用Python抓取了1008328条热评告诉你为什么！

看了那么多的网易云热评，技术思维作祟，我终于也忍不住写个爬虫，用Python通过对1008328条网易云音乐热评的抓取，我们可以得出一个对百万热评的基本风格画像。...id=28875230 抓取热门歌单 01 $ python playlist.py 粤语 1 10 $ # 抓取粤语歌单列表热门前十页 $ python playlist.py 1 10 $ #...抓取热门歌单前十页的歌单名字和链接抓取歌单内歌曲 02 $ python music.py database $ # 抓取存储的热门歌单里面的歌曲，批量抓取 $ python music.py playlist...376259016 $ # 抓取编号为 376259016 的歌单抓取歌曲评论 03 $ python comment.py $ # 自动抓取已存储歌曲，并保持去重复 TODO 04 增加抓取歌单页面个性推荐歌单...增加抓取排行榜严格去重复 ✔️ 优化代码结构，冗余代码过多 BUG 05 若干歌单无法抓取，待重现定位 ...

1.5K3 0

【实战】我背着女朋友，用 Python 偷偷抓取了她的行踪

1 目标场景有时候女朋友一个人在外面玩耍，问她在哪个地方，就是不告诉我。但是，你又很想知道女朋友的「位置」，这该如何是好？ ?...return 如果女友没有撒谎，那么可以进行第 2 步的操作。因为通过 GPS 获取的经度、纬度和高德地图的坐标存在一定的误差，这里需要把坐标转换为「火星坐标系」。...，接口中经度、纬度参数只能识别小数点后 6 位，需要对经纬度中的度、分、秒做一定的数据处理，然后再进行四舍五入。...Key，就能拿到女朋友的详细地址。...，可以快速帮你判断女朋友是否在撒谎；如果女朋友没有撒谎，就返回女朋友具体的位置。

1.1K2 0

浅谈我为什么选择用Retrofit作为我的网络请求框架

比较AsyncTask、Volley、Retrofit三者的请求时间使用单次请求 7个请求 25个请求 AsyncTask 941ms 4539ms 13957ms Volley 560ms 2202ms...Retrofit2.0 完胜使用添加依赖 build.gradle compile ‘com.squareup.retrofit2:retrofit:2.0.0-beta4’ 请求范例以淘宝的ip...，这里表示需要查询的字段为ip //ResponseBody是Retrofit自带的返回类， @GET("http://ip.taobao.com/service/getIpInfo.php...("onFailure", "onFailure=" + t.getMessage()); } }); 进阶使用2: 常用接口范例声明 //这里url为请求地址 //多参数，用map...，注解用@QueryMap @GET("url") Call getInfo(@QueryMap Map params); //post的请求参数是放在请求体中的

1.4K5 0

浅谈我为什么选择用Retrofit作为我的网络请求框架

比较AsyncTask、Volley、Retrofit三者的请求时间使用单次请求 7个请求 25个请求 AsyncTask 941ms 4539ms 13957ms Volley 560ms 2202ms...Retrofit2.0 完胜使用添加依赖 build.gradle compile ‘com.squareup.retrofit2:retrofit:2.0.0-beta4’ 请求范例以淘宝的ip...，这里表示需要查询的字段为ip //ResponseBody是Retrofit自带的返回类， @GET("http://ip.taobao.com/service/getIpInfo.php...("onFailure", "onFailure=" + t.getMessage()); } }); 进阶使用2: 常用接口范例声明 //这里url为请求地址 //多参数，用map...，注解用@QueryMap @GET("url") Call getInfo(@QueryMap Map params); //post的请求参数是放在请求体中的

9992 0

为什么我写不出面向对象的代码

那时书本或者网上是这么解释的 ““面向对象”是专指在程序设计中采用封装、继承、多态和抽象等设计方法。 ” 那么上面的案例代码也有抽象，也有封装，为什么还是算面向过程思维呢。那么什么是面向对象呢？...我认为基于领域驱动的设计更符合面向对象设计的原则，当我们接触到需求的第一步就需要考虑领域模型，而不是将其切割成数据和行为，然后数据用数据库实现，行为使用服务实现，最后造成需求的首肢分离。...关于DDD领域驱动设计，推荐书籍： “《领域驱动设计：软件核心复杂性应对之道》《实现领域驱动设计》 ” 为什么我们在使用贫血模型看了上面的代码，我们可能会疑问：我使用贫血模型开发挺好的啊？...因此我总结为什么人们更愿意使用贫血模型呢： “ 充血模型相对贫血模型存在一定的设计难度，你需要多花时间思考哪些是对象本身的行为面向过程的编程思想根深蒂固，很难改变对代码没有太大负责态度，认为怎么简单怎么来...那么建议你多做一些的思考： 1.我的代码是不是面向对象的代码 2.我的代码设计是否遵循高内聚，低耦合的设计标准 3.我的代码是否遵循设计原则，如单一职责原则，开闭原则等 4. ...

1.2K2 0

专栏：016：功能强大的“图片下载器”

用理工科思维看待这个世界系列爬虫专栏初学者，尽力实现最小化学习系统如何实现项目图片的下载 ---- 0：学习理念推荐阅读简书：学习方法论我觉得对我有帮助，多问自己为什么从来不是什么坏毛病...需要持续不断的精进。学习动机某动漫爱好者知道我会爬虫，想要我给写个程序抓取某网站图片。当然我不可能错过这个装X的机会。所以就使用多线程实现了网页图片链接的下载，总共6万个左右。...Scrapy 爬取的大致步骤是：items.py 设置抓取目标；Spiders/ 实现抓取的代码；pipelines.py 实现对抓取内容的处理爬取一个Item , 将图片的链接放入image_urls...字段从Spider 返回的Item，传递到Item pipeline 当Item传递到ImagePipeline，将调用Scrapy 调度器和下载器完成image_urls中的url的调度和下载。...任何实用性的东西都解决不了你所面临的实际问题，但为什么还要看？

6023 0

我的数据访问函数库的源代码（三）——返回结构数组

/* 2008 4 25 更新 */ 我的数据访问函数库的源码。整个类有1400行，原先就是分开来写的，现在更新后还是分开来发一下吧。第三部分：返回结构数组，这个是专门针对网页来设计的。...比如“yyyy-MM-dd HH:mm:ss dddd” /// 返回BaseTitle结构的数组。...比如“yyyy-MM-dd HH:mm:ss dddd” /// 返回BaseTitle结构的数组。...ID 传入查询语句，返回第一条记录的第一的字段的值 SetCommand(SQL,); //设置command SqlDataReader...ID 传入查询语句，返回第一条记录的第一的字段的值 SetCommand(SQL,); //设置command SqlDataReader

1.4K6 0

Scrapy 对接 Selenium

Scrapy抓取页面的方式和Requests库类似，都是直接模拟HTTP请求，因此如果遇到JavaScript渲染的页面Scrapy同样是无法抓取的，而在前文中我们抓取JavaScript渲染的页面有两种方式...，一种是分析Ajax请求，找到其对应的接口抓取，Scrapy中同样可以用此种方式抓取；另一种是直接用Selenium或Splash模拟浏览器进行抓取，这种方式我们不需要关心页面后台发生了怎样的请求，也不需要分析渲染过程...最后等待页面加载完成之后，我们调用PhantomJS的page_source属性即可获取当前页面的源代码，然后用它来直接构造了一个HtmlResponse对象并返回，构造它的时候需要传入多个参数，如url...这里可能我们有人可能会纳闷了，为什么通过实现这么一个Downloader Middleware就可以了呢？之前的Request对象怎么办？Scrapy不再处理了吗？..._6967_1502093231353.jpg] 这样我们便成功在Scrapy中对接Selenium并实现了淘宝商品的抓取，本节代码：https://github.com/Python3WebSpider

6.4K2 0

6000 多款 App，看我如何搞定她们并将其洗白白~

为什么选择酷安如果说 GitHub 是程序员的天堂，那么酷安则是手机 App 爱好者们（别称「搞机」爱好者）的天堂，相比于那些传统的手机应用下载市场，酷安有三点特别之处：第一、可以搜索下载到各种...作为一名 App 爱好者，我在酷安上发现了很多不错的 App，越用越感觉自己知道的仅仅是冰山一角，便想扒一扒这个网站上到底有多少好东西，手动一个个去找肯定是不现实了，自然想到最好的方法——用爬虫来解决，...这样的学习路径是比较快速而有效的，比一直抠教程不动手要好很多。下面，我们就以酷安网为例，用 Scrapy 来爬取一下。 2.3....爬取主程序创建好 kuan 项目后，Scrapy 框架会自动生成爬取的部分代码，我们接下来就需要在 parse 方法中增加网页抓取的字段解析内容。...完成上述代码以后，输入下面一行命令就可以开始整个爬虫的抓取和存储过程了，单机跑的话，6000 个网页需要不少时间才能完成，保持耐心。

5292 0

Scrapy框架的使用之Scrapy对接Selenium

Scrapy抓取页面的方式和requests库类似，都是直接模拟HTTP请求，而Scrapy也不能抓取JavaScript动态渲染的页面。在前文中抓取JavaScript渲染的页面有两种方式。...一种是分析Ajax请求，找到其对应的接口抓取，Scrapy同样可以用此种方式抓取。...另一种是直接用Selenium或Splash模拟浏览器进行抓取，我们不需要关心页面后台发生的请求，也不需要分析渲染过程，只需要关心页面最终结果即可，可见即可爬。...最后，页面加载完成之后，我们调用PhantomJS的page_source属性即可获取当前页面的源代码，然后用它来直接构造并返回一个HtmlResponse对象。...这样我们就成功利用PhantomJS来代替Scrapy完成了页面的加载，最后将Response返回即可。有人可能会纳闷：为什么实现这么一个Downloader Middleware就可以了？

2.4K5 1

Vue3，用组合编写更好的代码：动态返回(34)

本文 GitHub https://github.com/qq449245884/xiaozhi 已收录，有一线大厂面试完整考点、资料以及我的系列文章。...这是《用组合编写更好的代码》第二篇，之前文章： Vue3，用组合的方式来编写更好的代码(1/4) Vue3，用组合编写更好的代码：灵活的参数(2/4) 如果你的组合可以根据其使用情况更改返回的内容会怎样...动态返回值的模式这种模式延续了上一篇关于灵活参数的文章中 "为什么不两全其美？"的思路。一个可组合既可以返回一个单一的值，也可以返回一个值的对象。...VueUse中所有实现这种模式的组合物都是以这种特殊方式实现的。下面是我能找到的所有在VueUse中实现这种模式的可组合的列表，供你自己进一步探索。...我们看到了VueUse的useInterval和useNow组件是如何实现这一模式的。这种模式非常适合在大多数情况下简化我们的代码，同时在需要的时候仍然允许更大的复杂性。这有点像一张带抽屉的桌子。

5642 0

python3百度指数抓取前言：代码在我的github上面：

百度指数抓取，再用图像识别得到指数前言：土福曾说，百度指数很难抓，在淘宝上面是20块1个关键字： ?...： python图像识别--验证码 selenium用法请参考我的博客： python之selenium 进入百度指数需要登陆，登陆的账号密码写在文本account里面： ?...所以7天两个坐标之间的差为：202.33，其他的天数类似用selenium库来模拟鼠标滑动悬浮： from selenium.webdriver.common.action_chains import...下面的思路就是：将整个屏幕截图下来打开截图用上面得到的这个坐标rangle进行裁剪但是最后裁剪出来的是上面的那个黑框，我想要的效果是： ?...代码在我的github上面： TTyb

1.2K3 0

用AI提高代码质量，同事对我的代码赞不绝口

因此，我们应该抓住机遇，不断提升自己的技能，以适应不断发展的技术环境。在现代软件开发中，重视代码质量至关重要。...1.使用ChatGPT生成代码注释，以提高代码的可读性和可维护性。代码的可读性很重要，因为代码是人编写和维护的。当代码可读性差的时，它将很难理解和修改，这将导致代码的可维护性和可扩展性受到影响。...特别是大家都是团队合作，如果代码的可读性很差，必将影响到团队里的其他人，也非常不利于扩展。...而FuncGPT（慧函数）可以自动生成代码，且注释详细，以下是基于写一个java函数BigDecimal的表达式运算的需求，其所生成的代码，大家可以感受一下。...：11.5// 则输出结果为：11.52、使用FuncGPT（慧函数）生成测试用例，以帮助和修复代码中的错误和缺陷除了改进代码，要提升代码质量，软件测试必不可少，他是用于测试功能和正确性的代码片段，可以帮助开发人员发现和修复代码中的错误和缺陷

2642 0

Python爬虫实战题荟萃

公众号Python爬虫系列文章基础写完了，所以就有了一些实战题目，有兴趣的可以来去围观一下.,为什么要进行Python项目实战项目实战第二季你真的会用Python做一些事情吗？来试试!...利用条件运算符的嵌套来完成此题：学习成绩>=90分的同学用A表示，60-89分之间的用B表示，60分以下的用C表示。对10个数进行排序。...要求拿到下面字段存放到execl中标题：图片: 时长: 作者: 播放量: 作业10 有奖励18.88红包使用scrapy取B站web端数据目标:学会使用scrapy进行大规模抓取数据标题：...图片: 时长: 作者: 播放量: 作业11 有奖励18.88红包使用scrapy取B站web端数据,并下载高清视频目标:学会使用scrapy进行大规模抓取数据标题：图片: 时长: 作者: 播放量...: 然后代码打包压缩提交到星球，并放出效果图, 我会审核，所有题目做完后我都会做一个总结，把相关知识点整理一下，方便大家熟练掌握，然后代码也会给出来，代码不一定是我写的，也可能是你写的，但所有代码我都会进行审阅

1K2 0

爬虫利器初体验——Scrapy

目录前言 scrapy 数据流 scrapy 组件爬取豆瓣电影 Top250 后记前言 为什么要学 scrapy 呢？看下图中的招聘要求，就清楚了。...1、爬虫引擎获得初始请求开始抓取。 2、爬虫引擎开始请求调度程序，并准备对下一次的请求进行抓取。 3、爬虫调度器返回下一个请求给爬虫引擎。...8、引擎发送处理后的 items 到项目管道，然后把处理结果返回给调度器，调度器计划处理下一个请求抓取。 9、重复该过程（继续步骤1），直到爬取完所有的 url 请求。...启动爬虫 scrapy crawl douban（后面会解释，这个 dougban 是从哪里来的，此处先留一个小坑） spider 以下代码为 douban_spider.py ，里面都有相应的注释，...上面代码中： yield item 便是返回的数据。

4101 0

Python网络爬虫04---Scrapy工作原理

Python在网络爬虫中还有个很知名的库，叫做Scrapy.继续学习！本小结，我们先来了解一下Scrapy的工作原理。 为什么要用Scrapy？...其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。...2、爬虫引擎开始请求调度程序，并准备对下一次的请求进行抓取。 3、爬虫调度器返回下一个请求给爬虫引擎。 4、引擎请求发送到下载器，通过下载中间件下载网络数据。...8、引擎发送处理后的items到项目管道，然后把处理结果返回给调度器，调度器计划处理下一个请求抓取。 9、重复该过程（继续步骤1），直到爬取完所有的url请求。...以上是Scrapy的工作原理，下一节我们上代码实战。敬请期待...

6780 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭