为什么我的抓取脚本返回空结果 - 腾讯云开发者社区

文章/答案/技术大牛

发布

#PY小贴士# 我的PyCharm为什么执行结果很诡异？

今天讲的这个小问题，没有用过 PyCharm 的同学会完全不知所云，但用过的人，可能有一半以上概率会遇到这个算不上 bug 但也可能让人迷惑的坑。...情况就是：当你写了一段代码，点击 PyCharm 右上角的绿色小三角运行程序时，发现结果跟你预期的完全不相干。然后，无论你怎么修改代码，结果丝毫不会改变。甚至你一怒之下删光所有代码，竟然仍有输出！...其实原因也很简单：在 PyCharm里面，切换了当前编辑的 py 文件后，默认运行的代码文件是不会跟着变的。这时候用快捷键或者点运行按钮执行的都还是一开始设定的那个代码文件。 ?...或者在设置里重新设定下 run context configuration 的快捷键，用这个快捷键来运行，就会是当前的 py 文件了。...不过这样一来，如果你不是写单个文件的代码，而是开发有固定执行入口的项目，就反倒不方便了。所以具体就看你自己的需要了。 ?

1.6K2 0

为什么我的位反转代码输出了错误的结果？——从问题排查到解决方案

我最初写了这样的代码：for (int i = 0; i > i) & 1) 为什么会出现错误？...位反转的原理位反转是指将一个二进制数的最高位（MSB）和最低位（LSB）互换，次高位和次低位互换，依此类推。...我的代码为什么出错？...叠加后: 0xF50000FF (错误结果)正确做法：必须初始化 dwOutChlCtrl = 0。

2050 0

您找到你想要的搜索结果了吗？

是的

没有找到

从403到空白页：一次航班数据采集踩坑与解法分享

问题是：一旦你想通过爬虫批量采集携程等平台上的机票数据，就会遇到各种“拦路虎”：页面显示“请验证身份”返回空白数据403 拒绝访问二、现场回放举个例子，我想抓取携程上「北京 → 上海」的航班。...刚写了个简单的脚本，第一次运行还能拿到结果，心里还挺美：import requestsurl = "https://flights.ctrip.com/online/list/oneway-bjs-sha"headers...三、常见的补救办法一般人遇到这种情况会想：换UA：伪装成不同浏览器，结果没撑几次就又被封。带Cookie：拷贝浏览器里的Cookie过去，能用一会儿，但很快失效。...五、背后的逻辑为什么航班信息抓取离不开动态IP？网站识别逻辑：航司、OTA平台的系统会根据 IP、访问频率、用户标识等多个维度来识别用户。单一IP高频访问航班数据，很快就被识别。...代理池的作用：分散风险，让请求“装”成来自不同地区、不同用户。就像机票的乘客，不可能都从一个入口一起涌进来。提升并发：有了代理池，就能在不被限制的情况下同时抓取更多航线。

1961 0

半自动化搭建Data Guard的想法和实践（二）(r9笔记第79天）

关于半自动化搭建Data Guard，自己花了一些时间，总算是把这件事情继续推进了一下，还是再啰嗦一句，为什么不自动化，因为安全。...我希望自己的脚本能够只知道主库的IP，不用一次又一次连过去配置和检查，当然要完成自动化还是半自动化，有些网友也提醒的极是，那就是规范和标准。...这些细节之处不检查，后期的工作就无从开展，所以自己在写脚本的过程中越来越意识到这些的重要性，因为在后期的脚本中验证再详细再完整，这些预先条件不满足，最后还是无功而返，所以我们可以考虑一个统一的检查脚本来评估...脚本的运行效果如下，先实现了一部分功能，是中控端的操作，剩下的就是主库端，备库端了。这个过程会从主库抓取配置文件的信息，然后在中控端做变更和补充，拷贝到备库端。 ? ?...脚本的内容比较长，可能涉及若干个文件，我近几天提供一个下载的链接，感兴趣可以下载试用。

7205 0

关于奇怪的并行进程分析(二) (r6笔记第46天)

Elapsed: 00:00:00.01 所以这个时候问题的分析无功而返，看来还需要另辟蹊径。...抓取了ash报告，但是从很精确的时间范围内，也没有得到相关的sql.可以看到一个相同点就是有一个等待事件。...，只有一篇1311281.1描述是个bug.但是我当前的条件还是有一些差距。...没有了思路，决定重头再来，既然有大量的并行，但是又从报告中看不到，邮件报警里提示确实有大量的并行进程，我们可以化被动为主动。既然并行进程持续时间很短，ash中还抓取不到，那么我们可以使用来抓取。...于是我写了下面的脚本。这个脚本会去查询session中含有并行字样的session,然后同时查询v$px_session中的并行session.

7443 0

汉语转拼音工具、新华字典API——两个支持Python的中文资源

/go-pinyin 4.Rust 版作者：mozillazg；来源：GitHub https://github.com/mozillazg/rust-pinyin ▌一些注意事项 1.为什么没有...声母风格（INITIALS）下，“雨”、“我”、“圆”等汉字返回空字符串，因为根据《汉语拼音方案》， y，w，ü (yu) 都不是声母，在某些特定韵母无声母时，才加上 y 或 w，而 ü 也有其特定规则...由于分词和繁体中文的特性，部分情况下的结果也不尽相同。由于这些区别，测试不同运行环境的用例也不尽相同。特性 Web 版 Node 版拼音库常用字库。压缩、合并完整字库。...，苦于没有现成可用的数据库，自己就从各个网站抓取整理了一份。...所有的数据都作者从网上找的。放在 Github 是为了方便自己的使用，同时也能方便有类似需求的人不用去做这些 trival 的工作。所有抓取数据的脚本都在仓库里。中华新华字典数据库和 API 。

3.3K3 0

股票信息快速读取：模拟终端查询与并发优化实战指南

——面向入门开发者的实时查询脚本设计教程一、目标与准备知识项目目标：构建一个轻量级“终端工具”，模拟在金融平台上进行关键词搜索，并在返回结果中提取实时变动数据，采用线程分流方式提升响应速度。...适合读者：对金融信息查询自动化感兴趣的新手想了解多线程控制与模拟终端请求的开发者有意构建轻量后台脚本辅助手动查询场景的学习者基础知识要求：Python 基本语法网络请求基础（如 requests）简单的并发机制...return [] except Exception as e: print(f"关键词搜索失败：{e}") return []Step 3：实时信息抓取逻辑...403/超时更换中转出口或增加重试机制身份信息过期返回空白响应手动更新 cookie 或使用浏览器工具抓取格式解析失败json.loads 报错注意 JSONP 外壳需去除并发压力过高崩溃或卡顿设置线程上限...扩展任务输出结构存储为 CSV 格式构建可定时刷新机制（如 schedule）使用界面组件（如 tkinter）展示实时价格曲线支持多关键词批量查询（结合 Excel/CSV 导入）五、结语：一个轻量脚本的多场景价值这个工具只是起点

981 0

采集像列车：任务如何不脱轨、数据如何不漏采

—— 每天抓取中文新闻站点的一点实战经验在信息变化日新月异的今天，各大中文新闻门户几乎每分钟都在发布内容。...以人民网、新华网、央视网、中国新闻网和环球网为例，它们不仅是政策信号的窗口，也承载着极高的信息密度。很多人会问：能不能每天自动抓取这些网站的首页新闻？...答案是肯定的，但真正实现这件事，并不只是写个 for 循环那么简单。我们从一个典型的失败案例讲起。一个“能跑起来”的爬虫，为什么采不到数据？...很多初学者会写出这样的脚本，试图抓取首页内容：import requestsimport timeimport randomtask_list = [ "https://www.people.com.cn...最终你将获得一套这样的系统：每天 2 次定时启动，按时抓取新闻站首页；使用代理与并发机制，确保采集稳定可靠；自动抽取关键词与摘要，识别跨站热点；主动推送到邮箱 / 企业微信，早上上班前就能看到一手资讯；

1891 0

Python分布式抓取和分析京东商城评价

所以，与此同时，有些商家为了获得好评，还会做一些 "好评优惠" 或者 "返点" 活动来刺激消费者评价商品。...所以，我认为,一种快速、全面、高提炼度和高对比度的信息获取和展示方式将会非常必要。于是，我采用分布式快速抓取京东的评价信息，然后使用 pandas 对抓取到的数据进行分析。...Django 搭建后台，将数据抓取和数据分析连起来前端显示数据抓取和分析结果分布式抓取京东商城的评价信息采用分布式抓取的目的是快速的在短时间内尽量抓取足够多的商品评价,使分析结果更精确以 iPhone7...redis 中，实现分布式爬虫抓取，尽可能在短时间内抓取足够多的该商品评价信息（我现在是 30s 时间大概可以抓取 3000 条评价信息）主服务器等待一定的抓取时间，例如主服务器等待 30s，30s...大功告成以上就是完整的抓取京东商品的评价信息并且使用 pandas 分析评价然后利用 Django 搭建后台前端显示抓取和分析结果的所有步骤。

1.5K6 1

记录file_get_contents返回空字符串的问题

，结果下午群里就有一位朋友遇到了一个诡异的老版本 PHP 问题：当使用 file_get_contents 抓取网页内容的时候，总是返回空字符串，奇怪的是换用 curl 扩展后又一切正常。...然后尝试着用 strace、ltrace 跟踪了一下代码，发现目标服务器已经接收到了请求，并且成功返回了数据，可是 file_get_contents 就是返回空。问题到了这里似乎没招儿了。...试着查看了一下 PHP 的编译参数，发现了一个少见的选项：with-curl-wrappers，相对应的搜索到了 PHP RFC 里一篇介绍文章：Request for Comments: Removal...不过想到刚刚重新编译 PHP 的时间非常短，猜想是不是有什么残留数据干扰了结果，于是在「make」前加了一步「make clean」，终于一切都正常了！...记得小学写作文的时候，老师教我们要首尾呼应，那好吧，请允许我调皮一下：「世界上没有什么故障是重启解决不了的，如果有，再重启一次。」

9113 0

代码写错，差点亏了几万！

大家好，我是小林。这一周都在带大家免费领取一年阿里云服务器的活动，现在已经超 1000+ 人购买了，昨晚我就开始在部分群陆陆续续返现，几万块，刷一秒就没了，场面很壮观。...用户对于同一操作发起的一次请求或者多次请求的结果是一致的，不会因为多次点击而产生了副作用。比如这次返现活动，在收集大家支付宝信息的时候，不管用户提交了几次信息，最终只转账一次。...这样直接用阿里云每天导给我的订单数据做校验，看哪些用户购买了，有资格返现。本来非常简单，所以就让小老弟去帮我写代码，结果怎么着，小老弟的代码一小时就写完了，而且用得很爽！...于是前天晚上我就回去看了下小老弟的代码，结果一看吓一跳，差点让我亏几千上万都有可能！！简单来说支付宝批量转账，需要生成一个 csv，每一行是：支付宝账号，姓名，转账金额，备注这样的信息。...这个返现，不是一次就搞完的，是分批的，订单数据一天导出一次，每天晚上我都会运行这个脚本进行返现。那如果是昨天已经返现的同学，今天又来提交一次，这种又该怎么办呢？这个问题实际上是怎么做幂等、去重。

6992 0

项目实战第二季

实战第二季内容星球上征集题目，做一些项目实战，题目由最好由球友来出,，我主要插入使用的技术点，球友提一下自己需要在那方面需要补强，补一补后面我来筛选，大家一起做项目，方便所有人一起进步....使用xpath,bs4,正则爬虫 ajax抓取数据. selenium使用使用charles抓取App数据使用scrapy 大规模抓取数据然后代码打包压缩提交到星球，并放出效果图, 我会审核，最先完成的我个人发...独家分享:在星球我会独家分享我的一些工作经验与技巧及职场生存之道，打比方公众号运营就是我要分享的！这些内容我只会发布到星球。...星球动态我的星球经常能上官方活跃榜，而且是经常唯一一个上官方活跃榜的技术星球, 作为一个技术星球能上官方活跃榜是非常不容易的. ?...利用星球挣钱我的星球已经设置了分销，并且分销额度比较大，分销一个差不多可以赚40块钱,而你邀请进来的朋友可以返现16块钱，分销给5个人你就可以把你进入星球的费用挣回来! 为什么这里设置5个人呢？

5372 0

一款用GO语言编写的JS爬取工具~

JS与URL的工具通常用于快速查找隐藏在页面或js中的敏感或未授权api接口功能类似于JSFinder，开发由来就是使用它的时候经常返回空或链接不全，作者还不更新修bug，那就自己来咯 URLFinder...更专注于提取页面中的JS与URL链接，提取的数据更完善且可查看状态码、内容大小、标题等基于golang的多线程特性，几千个链接也能几秒内出状态检测结果有什么需求或bug欢迎各位师傅提交lssues...Headers请求头 4.支持提取批量URL 5.支持结果导出到csv文件 6.支持指定抓取域名 7.记录抓取来源，便于手动分析结果会优先显示输入的url顶级域名，其他域名不做区分显示在 other...结果会优先显示200，按从小到大排序（输入的域名最优先，就算是404也会排序在其他子域名的200前面）使用截图单url截图（旧版截图） ‍批量url截图（旧版截图）使用教程单url时使用...） -f 批量url抓取，需指定url文本路径 -o 结果导出到csv文件，需指定导出文件目录（.代表当前目录）现已加入Goby插件市场中，欢迎各位师傅评分~

1.7K2 0

【技术种草】腾讯云-别人薅羊毛我们卸羊腿 !

为啥要买服务器在说之前我先给大家说一下为啥程序员要有一个自己的服务器！...展示个性化个人简历(看看我的吧) 学习linux服务器（个人笔记本全windows吧）搭建自己的博客，网站(去看看我的博客) 跑一些脚本，编写爬虫抓取一些有意义的数据私人网盘搭建自己的图床程序小程序服务器...你想要自己的网站，或者做一些自己的小项目（赚点外快），学习Linux操作系统，那么你就可以买一台服务器。现在双十一了卸羊腿的时候还不赶快入手一个。...找个代理商直接在优惠的基础上在便宜个20%，优惠的基础上在便宜个20%，优惠的基础上在便宜个20%。重要的事情说三遍！老用户优惠老用户也不用担心，至少享受2次续费优惠！...先到先得二重礼：成为CPS推广者（传送门->），拉人头下单，首单返佣35%，复购返佣12%。

11K22 0

DB time抖动的原因分析案例分享（r6笔记第67天)

既然短时间内存在大量的并行，但是通过日志，ash报告，scheculer中的物化视图刷新都没有找到更多的信息，我开始尝试自己定制监控策略。于是我写了上面的脚本。...来定时从数据库中抓取这些并行的信息。写了这个脚本之后，在后台去跑，每5秒钟检查一次，执行10个小时，这样在第二天上班的时候就能够得到详细的报告了。...明白了这点，问题解决就引刃而解了，我们可以限定一个较低的并行度或者设置并行度为默认的1，最后来说一下为什么ash没有抓取到数据，大家可以仔细分析一下这个操作记录，是在服务端同一个窗口中执行的。...最后吐槽一下，这个问题的排查中自己也好几次准备放弃，首先就是想当然认为应该是有什么Job在运行导致的问题想就不查了，然后ash报告因为操作失误没抓取到合适的数据，接着自定义脚本的时候最开始漏了sql_id...，结果格式混乱，结果又多耽误了一天。

1.4K7 0

某管1个月迅速赚钱经验及colly实战爬取美女图片站点源码级细节分享，绝对不容错过golang技能buff加成！

国内的短视频平台，视频平台，我之前已经写过文章分享过，现在在坚持更新的平台只有抖音，为什么呢？...而至于西瓜、b 站之流，我之前文章中就分享过，我 4 天时间就达标中视频计划，结果因为一个改标题的问题，这个傻逼的平台，像其他国内所有平台一个操性，就说不符合价值之类，具有负面引导性，我去了麻辣个逼，因此弃更...同时也请这类人不要联系我，最近通过知乎上还有公众号文章过来的人，有套方案的，有些我自认为有问必答，结果聊到钱的环节时候，说我的报价贵，他自己去闲鱼买那种快速搬运的软件才多少钱，我就用我知乎上的回复来提示下这类人...，但是针对于情感领域，必须封面要足够性感，配上我生成封面文字的脚本，两者相得益彰，这也是我搞流量的手段，现在通过油管后台数据的观察，效果可观，但是我之前的图片都是知乎上随便找的，用的 chrome 的图片下载扩展...第二部分：举一返三，方能融会贯通，先让我们看看scrapy实现代理方式，我们从中可以汲取什么历久弥新的东西而这次抓取这些图片，就是用的 colly，也是基于 golang 很有名的一套爬虫框架。

5411 0

为什么选JMeter做接口测试？

这个问题其实困扰了我很久，不是很理解很多团队选择JMeter进行接口测试。在最近的面试过程中，发现不论是中级岗，还是高级测试，90%的团队用的都是JMeter。它明明是个性能测试工具呀。...协议的JMeter插件等支持多种协议：除了支持常见的HTTP协议之外，还可以直接通过JDBC Sampler连接数据库，把期望的测试结果存入数据库中，直接对测试结果进行验证。...问题定位：在日常JMeter运行中，都会以非UI的方式进行，这种情况下是没有Results Tree给你查看返信息的。如何知道失败的原因是什么？...关于你为什么选JMeter来做接口测试，还有什么其他的理由，欢迎留言讨论，期待你的答案。...如果想阅读更多文章，请关注我的公众号。

6422 1

JavaScript异步编程设计快速响应的网络应用

有些函数既返回有用的值，又要取用回调。这种情况下，切记回调有可能被同步调用（返值之前），也有可能被异步调用（返值之后）。永远不要定义一个潜在同步而返值却有可能用于回调的函数（回调依赖返回值）。...关键是找到一种在激活异步调用之函数的外部存储异步结果的方式，这样回调本身就没有必要再嵌套了。二、分布式事件事件的蝴蝶偶然扇动了下翅膀，整个应用到处都引发了反应。...这里描述的方式为发布/订阅模式，即观察者模式。曾在我的博客中介绍过：JavaScript设计模式–观察者模式 1....,但是其计算结果要发送给主线程,由主线程去更新页面...* 为什么不在worker线程中直接更新页面呢? * 主要是为了保护JavaScript异步抽象概念,使其免受影响.

2.3K3 1

LaZagne — 一键抓取目标机器上的所有明文密码

但是为什么说可以自己py转exe呢？一是我们可以用全新的环境打包（就是只装需要的包，其他的一概不用）这样可以减小一点exe程序的体积，不然生成的exe程序会非常大（9M左右？）。...里面是python脚本。也有直接的exe版本。...抓取所有支持软件的密码： laZagne.exe all 抓取特定一类软件的密码：如，抓取浏览器： laZagne.exe browsers 抓取特定一个软件的密码：如，抓取火狐： laZagne.exe...结果时遇到问题，参考这个 issue。...最终搞清楚了，这个是我3389登陆过的远程Windows vps的账号密码。也不知道为什么前面加了个域的名字的前缀。总结： laZagne 只可能抓到本机上的密码！不可能抓到域管的密码。

4.2K3 0

星球优秀成员作品 | 『VulnHub系列』symfonos: 3-Walkthrough

下图是我在kali里面执行uptime命令的结果，是不是跟上图中的格式一模一样。如果是个老司机，应该可以直接得出靶机可能有shellshock漏洞的结论，可是我不是老司机……哈哈哈 ?...至于为什么可以反弹桑shell，这里借用嘶吼上的一篇文章的解释（就是上面我看的那一篇）：运行CGI脚本时，会将特定信息复制到环境变量中。...为了便于查看收集到的信息，我将结果输出到report.txt文本中 python linuxprivchecker.py > report.txt 靶机做了这些后发现还是手动收集更快……，手动收集不到有效信息的情况下再尝试用脚本...之前在查看linuxprivchecker脚本执行结果的时候发现靶机上已经安装了tcpdump，我们就用这个工具来尝试抓取数据，因为ftp协议是明文传输的，如果我们可以抓取到ftp连接的数据，那么就可以得到用户名密码了...一番搜索之后，得到了如下的结果 ? 网络接口lo是loopback状态的，我们就抓取流过这个网络接口的数据包了。抓包时长7分钟 ?

1.6K2 0

点击加载更多

#PY小贴士# 我的PyCharm为什么执行结果很诡异？

为什么我的位反转代码输出了错误的结果？——从问题排查到解决方案

从403到空白页：一次航班数据采集踩坑与解法分享

半自动化搭建Data Guard的想法和实践（二）(r9笔记第79天）

关于奇怪的并行进程分析(二) (r6笔记第46天)

汉语转拼音工具、新华字典API——两个支持Python的中文资源

股票信息快速读取：模拟终端查询与并发优化实战指南

采集像列车：任务如何不脱轨、数据如何不漏采

Python分布式抓取和分析京东商城评价

记录file_get_contents返回空字符串的问题

代码写错，差点亏了几万！

项目实战第二季

一款用GO语言编写的JS爬取工具~

【技术种草】腾讯云-别人薅羊毛我们卸羊腿 !

DB time抖动的原因分析案例分享（r6笔记第67天)

某管1个月迅速赚钱经验及colly实战爬取美女图片站点源码级细节分享，绝对不容错过golang技能buff加成！

为什么选JMeter做接口测试？

JavaScript异步编程设计快速响应的网络应用

LaZagne — 一键抓取目标机器上的所有明文密码

星球优秀成员作品 | 『VulnHub系列』symfonos: 3-Walkthrough

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐