专栏首页明天依旧可好的专栏爬虫问题二:处理js异步加载问题

爬虫问题二:处理js异步加载问题

前言

在新闻网站中大多采用的是异步加载模式,新闻条目会随滚动条的滚动而逐渐加载。当爬虫访问这类网站时得到的HTML数据仅仅是我们看到的页面数据,只有当我们向下滚动时,网页的源代码才会同步更新。例如:腾讯新闻,处理这类JS异步加载的问题,这里用selenium来解决。

环境

  • Python 3.6.5
  • 需要安装的包:selenium
  • 编译器:sublime text 3

代码思路

导入需要用到的Python包

import selenium,time
from selenium import webdriver

用打开浏览器

driver = webdriver.Chrome(executable_path='chromedriver.exe')

输入我们需要爬取的网站

driver.get("https://new.qq.com/ch/milite/")

如果程序执行错误,浏览器没有打开,那么应该是没有装 Chrome 浏览器或者 Chrome 驱动没有配置在环境变量里。下载驱动,然后将驱动文件路径配置在环境变量即可。

驱动器下载传送门

将网页的滚动条拉到底部,触发JS加载新数据

jsCode = "var q=document.documentElement.scrollTop=100000"
driver.execute_script(jsCode)

休息3秒,从JS异步加载的完成到新闻页面的更新需要一些时间

time.sleep(3)

进行标签定位,定位到class="item-pics"的标签

div = driver.find_elements_by_class_name("item-pics")
for each in div:
	each = each.find_element_by_tag_name("a")

打印爬取到的内容

print(each.text)

原代码

#这是一个军事新闻数据采集脚本
import selenium,time
from selenium import webdriver

if __name__ == '__main__':
	driver = webdriver.Chrome(executable_path='chromedriver.exe')
	driver.get("https://new.qq.com/ch/milite/")	

	for each in range(1,10):
		jsCode = "var q=document.documentElement.scrollTop=100000"
		driver.execute_script(jsCode)
		time.sleep(3)
		print(each)
		
	time.sleep(3)
	div = driver.find_elements_by_class_name("item-pics")

	for each in div:
		each = each.find_element_by_tag_name("a")
		print(each.text)

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 实战项目二: 实现CSDN自动点赞

    环境: Python3.6.5 编译器: Sublime Text 3 代码: GitHub 联系方式: ke.zb@qq.com 第三方库: sele...

    明天依旧可好
  • Python--音频文件分类代码

    明天依旧可好
  • Python--format()学习记录

    填充与对齐 填充常跟对齐一起使用 ^、<、>分别是居中、左对齐、右对齐,后面带宽度 :号后面带填充的字符,只能是一个字符,不指定的话默认是用空格填充 比如

    明天依旧可好
  • Communication error with the external tax system VERTEX

    When you download an equipment from ERP, you meet with this error message: Commu...

    Jerry Wang
  • SAP CRM系统里的附件存储逻辑

    My research about how attachment data is stored in cluster table:

    Jerry Wang
  • 继承和多态

    这里继承和多态的概念与java的概念差不多。概念还是需要多次理解才能透彻。感觉类和实例的概念还是不能深刻理解。再次复习下吧。

    一点儿也不潇洒
  • 为什么刷小视频停不下来?爱奇艺用这篇论文告诉你答案

    作者:Fan Zhu, Min Jiang, Yiming Qiu, Chenglong Sun*, Min Wang

    机器之心
  • 宋宝华:当Linux内核遭遇鲨鱼—kernelshark

    之前小弟一直在宣传推广火焰图,结果是很多童鞋凡事都用火焰图。说实话,火焰图特别适合分析运行时热点(无论是on-cpu、off-cpu、还是内存等,火焰图的想象力...

    Linux阅码场
  • 如何获得可调整的矢量统计图?

    EMF全称“Enhanced MetaFile”,这种格式是微软为了弥补WMF (Windows Metafile Format)格式的不足而开发的一种扩展图元...

    Mark Chen
  • 【iOS 开发】NSError ** 与 throws 的三个问题

    使用的时候我们会传入一个 &error 再获取这个错误值,来看这个过程中有没有什么错误,那么通过 error == nil 不就可以知道是否执行成功吗,为什么需...

    KyXu

扫码关注云+社区

领取腾讯云代金券