前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【Python爬虫网站数据实战】爬虫基础简介

【Python爬虫网站数据实战】爬虫基础简介

作者头像
互联网-小阿宇
发布2022-11-21 17:03:46
5150
发布2022-11-21 17:03:46
举报
文章被收录于专栏:互联网-小阿宇

🎈 作者:互联网-小啊宇 🎈 简介: CSDN 运维领域创作者。目前从事 Kubernetes运维相关工作,擅长Linux系统运维、开源监控软件维护、Kubernetes容器技术、CI/CD持续集成、自动化运维、开源软件部署维护等领域。 🎈 博客首页:CSDN【互联网-小阿宇】

【Python爬虫网站数据实战】爬虫基础简介

代码语言:javascript
复制
前戏:
    1.你是否在夜深人静得时候,想看一些会让你更睡不着得图片。。。
    2.你是否在考试或者面试前夕,想看一些具有针对性得题目和面试题
    3.你是否想在杂乱得网络世界中获取你想要的数据。。。

什么是爬虫:
    - 通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据得过程

爬虫的价值:
    - 实际应用
    - 就业

爬虫究竟是合法还是违法的?
    - 在法律中是不被禁止的
    - 具有违法风险
    - 善意爬虫  恶意爬虫

爬虫带来的风险可以体现在如下2方面:
    - 爬虫干扰了被访问网站的正常运营
    - 爬虫抓取了受到法律保护的特定类型的数据或信息

如何在使用编写爬虫的过程中避免进入局子的厄运呢?
    - 时常的优化自己的程序,避免干扰被访问网站的正常运行
    - 在使用,传播爬取到的数据时,审查抓取到的内容,如果发现了涉及到用户隐私
    或者商业机密等敏感内容,需要及时停止爬取或传播
爬虫在使用场景中的分类
    - 通用爬虫:
        抓取系统重要组成部分。抓取的是一整张页面数据
    - 聚焦爬虫:
        是建立在通用爬虫的基础之上,抓取的是页面中特定的局部内容。
    - 增量式爬虫:
        检测网站中数据更新的情况,只会爬取网站中最新更新出来的数据。

爬虫的矛与盾:

反爬机制:
    门户网站,可以通过制定相应策略或者技术手段,防止爬虫程序进行网站数据的爬取。

反反爬策略:
    爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中具备的反爬机制,
    从而可以获取到门户网站中的相关数据。

robots.txt协议
    君子协议,规定了网站中哪些数据可以被爬虫爬取,哪些数据不可以被爬取。

HTTP协议:
    - 概念: 就是服务器和客户端进行数据交互的一种形式。
常用请求头信息:
    - User-Agent:请求载体的身份标识
    - Connection: 请求完毕后,是断开连接还是保持连接

常用响应头信息
    - Content-Type:服务器响应回客户端的数据类型
HTTPS协议:
    - 安全的超文本传输协议

加密方式:
    - 对称密钥加密
    - 非对称密钥加密
    - 证书密钥加密
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022-11-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 【Python爬虫网站数据实战】爬虫基础简介
相关产品与服务
容器服务
腾讯云容器服务(Tencent Kubernetes Engine, TKE)基于原生 kubernetes 提供以容器为核心的、高度可扩展的高性能容器管理服务,覆盖 Serverless、边缘计算、分布式云等多种业务部署场景,业内首创单个集群兼容多种计算节点的容器资源管理模式。同时产品作为云原生 Finops 领先布道者,主导开源项目Crane,全面助力客户实现资源优化、成本控制。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档