前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >所见即所得-基于Node.js的页面数据实践

所见即所得-基于Node.js的页面数据实践

作者头像
IT大咖说
发布2018-04-04 11:22:53
1.1K0
发布2018-04-04 11:22:53
举报
文章被收录于专栏:IT大咖说IT大咖说IT大咖说

摘要

数据抓取是企业信息化的根基和第一步,只有利用先进的技术作好了信息抓取工作,才能为信息化带来最大的价值。懂球帝高级开发工程师邓佳龙用五个字就概括了数据抓取的精髓。

嘉宾演讲视频回顾及PPT链接:http://t.cn/RnLosMH

我眼中的数据抓取

数据抓取,通俗叫法是“爬虫”。就是把非结构化的信息数据从网页中抓取出来,保存到结构化的数据库的过程。

能在页面上看到的数据就是能得到的数据,这就是我所说的“所见即所得”这五个字的含义。

数据抓取技术可以通过很多后台语言实现,比如PHP、JAVA等等,但是Node.js有它独特的优势。

知己知彼,百战不殆。数据抓取也有恶意攻击网站或盗取数据的情况。作为前端工程师,只有当你知道别人是如何抓取的时候,才能想办法去做防守。

页面抓取的三个步骤

1、获取数据。

2、从网页中提取并清洗出所需的数据。

3、落入存储当中。

使用Node.js进行数据抓取的优势

Node.js的无阻塞和事件驱动这两个特性可以大大提升抓取效率。

因为Javascript是一门前端语言,所以用它来做数据的提取和清洗有很大优势。

Node.js最近几年的社区活跃度比较高,可以用的工具和包也很多。

有一些数据会隐藏在JS脚本中,只能用Javascript来抓取。

案例分享——抓取球探足球数据

在球探足球的官网上有一些关于赛事比分的应用,如果这些数据要小编人工录入,至少要三个月。有了数据抓取技术,就变得很便捷高效。

首先抓取赛事数据,然后落地球队数据,再落地球员数据,根据赛事数据可以获取到赛程、比赛、赔率等数据。

足球里的赛程、赔率等信息都是非常重要的,而我们利用数据抓取技术可以轻易获得。

曾经填过的“坑”

有些网页如果用一些常规的数据请求方式不带useragent信息是无法正常访问的。所以在做数据抓取的时候最好带上useragent。

有些页面上的数据接口必须在头部中声明特定的referer才能获取数据。

部分网页和数据接口会有访问频次限制。我建议大家降低访问频次,不要过于规律。

一些网页和数据接口会出现转码问题。

有的网页和数据接口需要身份验证才能访问。那么就需要先做一个模拟登录,把一些cookie信息缓存下来,获取数据的时候再带上这些cookie信息。

获取数据异常状态需要兼容性处理和一定的重试机制。针对不同的网站机制也有所不同。

目标网站改版时需要一定的预警机制。

分享几个有用的包

Request——主要是用来获取数据。

Cheerio——用于转换和数据提取。

Co——把异步转化为同步的方式来写。

Async——做并发流程控制。

Mongoose——主要用于操纵MongoDB。

Sequelize——主要用于操纵MySQL。

Log4js——做日志记录。

Pm2——守护进程。

Icony-lito——转换代码。

今天就分享到这里,谢谢大家!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-03-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 IT大咖说 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云数据库 MySQL
腾讯云数据库 MySQL(TencentDB for MySQL)为用户提供安全可靠,性能卓越、易于维护的企业级云数据库服务。其具备6大企业级特性,包括企业级定制内核、企业级高可用、企业级高可靠、企业级安全、企业级扩展以及企业级智能运维。通过使用腾讯云数据库 MySQL,可实现分钟级别的数据库部署、弹性扩展以及全自动化的运维管理,不仅经济实惠,而且稳定可靠,易于运维。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档