前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >爬虫问题二:处理js异步加载问题

爬虫问题二:处理js异步加载问题

作者头像
K同学啊
发布2019-01-22 14:57:57
2.9K0
发布2019-01-22 14:57:57
举报

前言

在新闻网站中大多采用的是异步加载模式,新闻条目会随滚动条的滚动而逐渐加载。当爬虫访问这类网站时得到的HTML数据仅仅是我们看到的页面数据,只有当我们向下滚动时,网页的源代码才会同步更新。例如:腾讯新闻,处理这类JS异步加载的问题,这里用selenium来解决。

环境

  • Python 3.6.5
  • 需要安装的包:selenium
  • 编译器:sublime text 3

代码思路

导入需要用到的Python包

代码语言:javascript
复制
import selenium,time
from selenium import webdriver

用打开浏览器

代码语言:javascript
复制
driver = webdriver.Chrome(executable_path='chromedriver.exe')

输入我们需要爬取的网站

代码语言:javascript
复制
driver.get("https://new.qq.com/ch/milite/")

如果程序执行错误,浏览器没有打开,那么应该是没有装 Chrome 浏览器或者 Chrome 驱动没有配置在环境变量里。下载驱动,然后将驱动文件路径配置在环境变量即可。

驱动器下载传送门

将网页的滚动条拉到底部,触发JS加载新数据

代码语言:javascript
复制
jsCode = "var q=document.documentElement.scrollTop=100000"
driver.execute_script(jsCode)

休息3秒,从JS异步加载的完成到新闻页面的更新需要一些时间

代码语言:javascript
复制
time.sleep(3)

进行标签定位,定位到class="item-pics"的标签

代码语言:javascript
复制
div = driver.find_elements_by_class_name("item-pics")
for each in div:
	each = each.find_element_by_tag_name("a")

打印爬取到的内容

代码语言:javascript
复制
print(each.text)

原代码

代码语言:javascript
复制
#这是一个军事新闻数据采集脚本
import selenium,time
from selenium import webdriver

if __name__ == '__main__':
	driver = webdriver.Chrome(executable_path='chromedriver.exe')
	driver.get("https://new.qq.com/ch/milite/")	

	for each in range(1,10):
		jsCode = "var q=document.documentElement.scrollTop=100000"
		driver.execute_script(jsCode)
		time.sleep(3)
		print(each)
		
	time.sleep(3)
	div = driver.find_elements_by_class_name("item-pics")

	for each in div:
		each = each.find_element_by_tag_name("a")
		print(each.text)
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018年09月17日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前言
  • 环境
  • 代码思路
  • 原代码
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档