前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >爬虫 | 时间日期获取

爬虫 | 时间日期获取

作者头像
用户6825444
发布于 2020-03-04 02:36:58
发布于 2020-03-04 02:36:58
5.3K0
举报
文章被收录于专栏:木下学Python木下学Python
前言

在爬虫中,我们在爬取某些网页时,需要的数据中有时间日期,静态的网页直接就可以爬取,但碰到动态加载的对应的时间可能就是 js 代码生成的,直接爬取得不到。小编给大家带来了两个例子来爬取对应的时间日期。

丁香医生疫情更新时间

https://ncov.dxy.cn/ncovh5/view/pneumonia

我们打开丁香医生疫情实时更新的网页,我们需要它最后更新的时间,也就是最新的时间:

在网页源码里搜索,发现没有这个时间:

然后再来看,这一页的 html 代码,发现是通过加载 js 文件生成的,同时生成的还有各个地区的数据:

由此得出,这个网页的数据是动态生成的,生成后再渲染到 html 页面里,要是爬取其他数据可以用静态网页的逻辑直接爬取就好,但时间经过观察,也有,但不是直接给明了,而给我们的格式是时间戳,所以直接搜索没有结果,我们找到这个时间戳:

找到以后,我们通过写爬虫访问,这个网页会返回一个动态加载渲染后的 html,需要其他数据都可以很方便的提取,我们正则匹配出时间戳后,用 python 转换为对应的时间:

对比一下,和我们的结果一样了:

至此,我们的动态时间久或得了。

土地市场网

https://www.landchina.com/default.aspx?tabid=261&ComName=default

我们打开这个网站后,禁止 JavaScript 加载,发现我们需要的时间没了,说明是动态加载的:

查看源码,发现是 js 代码生成的:

对于这种,我们也可以用 python 生成:

到这里我们就获得了时间,因为返回的是阿拉伯数字,想转换成中文的星期几,可以写个字典转换。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-02-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 木下学Python 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
使用 Node.js 与 Vue.js 建立新型冠状病毒疫情数据邮件与 RSS 订阅平台
正值春节,新冠病毒现状猖狂,每天宅在家里学习(睡了一上午还有一下午)也不忘关注疫情数据,所有人都在担心今天又有多少人成为了生化武器...为了防止这种情况的再次发生,我决定做个邮件推送的小工具...
Tony He
2022/11/17
6660
使用 Node.js 与 Vue.js 建立新型冠状病毒疫情数据邮件与 RSS 订阅平台
[开源]我用Qt做了个疫情数据实时监控平台
最近新冠病毒导致的肺炎疫情,很多人都只能宅在家里。为了不让自己那么无聊,给自己找点事情,做一个“疫情数据信息实时监控项目”,去年开始学习的Qt/C++,拿这个小项目练练手吧,代码开源,下载地址查看文末。当然如果你也和我一样,建议你使用熟悉的编程语言自己实现一下,即学习了知识,又打发了时间。在做之前我先去Github上搜索了一下,看看有没有相关资料,看来已经有很多人在做了:
单片机点灯小能手
2020/07/16
2.2K1
3700字!爬虫数据清洗已经不重要了,我这样的爬虫架构,如履薄冰
在毕业设计中,用Java写下了第一个爬虫。2019年工作之后,从Python的requests原生爬虫库,学到分布式爬虫框架Scrapy,写了60个左右爬虫。然后写了十几篇有关于爬虫的文章。但大多都是围绕着程序设计、功能模块的角度写的,今天就从数据的角度出发,来看看爬虫程序是如何开发的。
叫我阿柒啊
2023/12/19
1K1
3700字!爬虫数据清洗已经不重要了,我这样的爬虫架构,如履薄冰
爬取丁香医生生成疫情热力地图
前言 最近疫情泛滥,大家注意防护,尽量少出门,在家也别忘了学习~ 小编针对疫情实况数据进行了了爬取,并生成了可视化地图。 让我们在防护的同时,也来学习一下吧~ 项目简介 https://ncov.d
用户6825444
2020/02/24
1.7K0
爬取丁香医生生成疫情热力地图
新冠疫情地市级时间序列数据采集_python数据处理
实验室近期需要采集地市级的疫情数据。目前能找到的大部分数据源是省级粒度的时间序列数据或地市级的实时截面数据,起初找到了这个项目
KKCHANNEL
2022/09/16
5820
新冠疫情地市级时间序列数据采集_python数据处理
十分钟生成自己的疫情地图,小白都能立刻上手!
当下,新型冠状病毒感染的肺炎疫情无时无刻不牵动着人们的心。面对来势汹汹的疫情,除了奋战在前线的医护人员以及防疫建设工作者们,小媛们也想尽一份绵薄之力。
用户3946442
2022/04/11
8920
十分钟生成自己的疫情地图,小白都能立刻上手!
Python 制作疫情信息查看工具
在前面的分享中,我们制作了一个天眼查 GUI 程序,一个微博抓取 GUI 程序,今天我们在这个的基础上,继续开发新的功能,疫情信息快速查看工具,先来看下最终的效果
周萝卜
2022/12/27
6220
Python 制作疫情信息查看工具
武汉疫情系列(1)|java爬取丁香园|JAVA爬取丁香医生的全国新型肺炎疫情实时动态
5、其他的信息可以爬取也可以不爬取,看情况吧,如果有需要的话,可以在文章底部留言,我会另外更新上去
小小鱼儿小小林
2020/06/24
1.1K0
武汉疫情系列(1)|java爬取丁香园|JAVA爬取丁香医生的全国新型肺炎疫情实时动态
整理总结 python 中时间日期类数据处理与类型转换(含 pandas)
我自学 python 编程并付诸实战,迄今三个月。 pandas可能是我最高频使用的库,基于它的易学、实用,我也非常建议朋友们去尝试它。——尤其当你本身不是程序员,但多少跟表格或数据打点交道时,pandas 比 excel 的 VBA 简单优雅多了。
刘娟娟PRESSone
2019/10/25
2.3K0
TimeHelper 轻量级PHP日期时间类库
TimeHelper 是一个简单易用的PHP时间日期助手类库,可以快速实现常用的时间日期操作,比如获取指定时间的秒数,获取友好的时间格式,判断时间范围,计算两个时间相差值,返回N小时/天/星期/月/年前或者后的时间戳等等。
Tinywan
2024/01/19
2310
TimeHelper 轻量级PHP日期时间类库
node爬取新型冠状病毒的疫情实时动态
新型冠状病毒有多么可怕,我想大家都已经知道了。湖北爆发了新型冠状病毒,湖南前几天爆发了禽流感,四川发生地震,中国加油!昨天晚上我突发奇想地打算把疫情实时动态展示在自建站上,于是说干就干(先附上昨晚用puppeteer截的图片)。
喜欢ctrl的cxk
2020/02/18
1.2K0
node爬取新型冠状病毒的疫情实时动态
Java 8 的时间日期 API
上一篇文章『Java 的时间日期 API』中,我们学习了由 Date、Calendar,DateFormat 等组成的「传统时间日期 API」,但是传统的处理接口设计并不是很友好,不易使用。终于,Java 8 借鉴第三方优秀开源库 Joda-time,重新设计了一套 API。 那么本篇文章就来简单学习一下新式的时间日期处理接口。 表示时刻的 Instant Instant 和 Date 一样,表示一个时间戳,用于描述一个时刻,只不过它较 Date 而言,可以描述更加精确的时刻。并且 Instant 是时区无
Single
2018/05/09
1.6K0
2021兰州疫情-新型冠状病毒疫情实时爬虫-1(实时更新)
前言 随着2021年深秋的到来,一波由旅行团所导致的疫情迅速在全国各地蔓延开来,兰州,我的家乡,在这次疫情中影响很大,为了能更好的为大家展现疫情发展的实时概括,我觉得开发一次项目,关于疫情发展的可视化界面。 采用技术
Baige
2022/03/22
1K0
2021兰州疫情-新型冠状病毒疫情实时爬虫-1(实时更新)
四、node服务器搭建
静态服务器实现与读取网页返回几乎一致,通过request.url可以获取用户访问的路径。
Dreamy.TZK
2020/07/06
2K0
四、node服务器搭建
clickhouse时间日期函数详解-toDate,toDateTime,formatDateTime
formatDateTime:函数根据给定的格式字符串来格式化时间。(请注意:格式字符串必须是常量表达式)
公众号-利志分享
2022/04/25
25.7K0
如何用matlab获取高精度互联网时间日期?
这里可以明确告诉大家一点,matlab版mathpix公式识别工具到时候不会以源代码而是以exe安装包的方式分享给大家。相应源代码则会上传至原创代码共享Q群,有需要的伙伴可以尽早加入该群,在matlab爱好者公众号中回复“原创”或“共享”了解详情。
巴山学长
2021/01/12
1.2K0
JS动态加载以及JavaScript void(0)的爬虫解决方案
[1240] Intro ------------------------------ 对于使用JS动态加载, 或者将下一页地址隐藏为JavaScript void(0)的网站, 如何爬取我们要的信息
FesonX
2018/07/05
1.5K0
项目实战 | Python爬虫概述与实践(一)
爬虫,又称为网络蜘蛛、网络机器人等,简单来说,就是请求网站并提取数据的自动化程序,可以代替人工在互联网上收集数据。
用户3946442
2022/04/11
5540
项目实战 | Python爬虫概述与实践(一)
爬虫基本功就这?早知道干爬虫了
假设windows下安装好了python和pip。 下面用pip安装爬虫库requests
震八方紫面昆仑侠
2020/12/02
1.5K0
爬虫基本功就这?早知道干爬虫了
用python制作疫情动态图
之前发了一个国外疫情发展视频,有朋友问怎么制作的,今天就写一下制作过程,非常简单,如果你学会了,以后只要获取了数据就可以制作各种类似的动图。
星星在线
2020/05/22
1.5K0
推荐阅读
相关推荐
使用 Node.js 与 Vue.js 建立新型冠状病毒疫情数据邮件与 RSS 订阅平台
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文