前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >爬虫数据采集

爬虫数据采集

原创
作者头像
太后
发布2022-04-28 17:18:52
1.5K0
发布2022-04-28 17:18:52
举报
文章被收录于专栏:短信接收服务

经常有小伙伴需要将互联网上的数据保存的本地,而又不想自己一篇一篇的复制,我们第一个想到的就是爬虫,爬虫可以说是组成了我们精彩的互联网世界。

网络搜索引擎和其他一些网站使用网络爬虫或蜘蛛软件来更新他们的网络内容或其他网站的网络内容索引。网络爬虫复制页面以供搜索引擎处理,搜索引擎对下载的页面进行索引,以便用户可以更有效地搜索。

这都是爬虫数据采集的功劳。这篇文章我总结了爬虫数据采集的说有流程,从最开始的最简单的基本爬虫,到爬虫所采集到的数据如何存储,以及我们如何绕过一些反爬措施,来获取我们需要的数据,进行爬虫的数据采集:

  • 爬虫介绍:主要介绍了什么是爬虫,以及爬虫可以干什么?
  • 爬虫所带来的道德风险与法律责任:这篇文章主要介绍了我们在做数据采集的时候,什么可以采集,什么不能采集,由于不当采集给我们带来的法律风险,我们需要注意的一些问题。
  • 连接网站与解析 HTML:这篇文章主要介绍了我们如何使用爬虫去连接网站,并将网站我们需要的内容解析出来。
  • 数据采集:这篇文章以一个博客网站为实例,讲解了如何使用爬虫采集网站的内容,并获取我们需要的信息,可以作为一个练手项目。
  • 使用 API:我们在进行数据采集的时候,另外的一种方法,可以大大简化我们数据采集的难度,同时有些网站只提供 API 我们应该如何去获取数据。
  • 存储媒体文件:这篇文章详解介绍了如何通过爬虫采集媒体文件,包括:图片、音频、视频等信息,采集之后我们如何保存。
  • 存储 CSV 文件:这篇文章介绍了如何将爬虫采集到的数据保存为 csv 文件,为我们后面的数据分析或者其他的一些要求做好铺垫。
  • 使用 MySQL 存储数据:这篇文章详细介绍了如何将爬虫采集到的数据保存到数据库,可以提供给我们查询或者是分析等任务。
  • 读取文档:这篇文章介绍了如何解析文档内容,并读取内容。
  • 读取 CSV、PDF、Word 文档:这篇文章详细介绍了如何读取 CSV、PDF、Word 文档,以及具体的 Python 代码演示。
  • 数据清洗:这篇文章主要介绍了我们采集的数据,如何清洗大做进一步的处理,来达到项目的要求。
  • 数据标准化:这篇文章主要介绍了数据清洗之后如何标准化,来达到可以做数据分析的要求。
  • 穿越网页表单与登录窗口进行采集:这篇文章主要介绍了如何自动登录,采集登录之后的内容。
  • 穿越网页表单与登录窗口进行采集(二):穿越网页表单与登录窗口进行采集这篇文章的续作。
  • 采集 JavaScript:这篇文章主要介绍了如何采集由 JavaScript 生成的内容, JavaScript 生成的内容不同于直接渲染的内容,普通抓取方式无法获得内容。
  • 在 Python 中用 Selenium 执行 Javascript:这篇文章主要介绍了在 Python 中用 Selenium 配合浏览器执行 Javascript,给我们大面积采集 Javascript 生成内容成为可能。
  • 图像识别与文字处理:这篇文章主要介绍了图片处理与文字识别说需要的基础环境搭建,为后面识别验证码做铺垫。
  • 处理格式规范的文字:这篇文章主要介绍我们对于互联网上有些内容做成图片的方式,防止我们采集,我们应该如何识别这篇图片上的文字。

通过以上这 18 篇文章,整个一个爬虫采集流程都详细的介绍了,几乎涉及到爬虫采集的方方面面。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云数据库 MySQL
腾讯云数据库 MySQL(TencentDB for MySQL)为用户提供安全可靠,性能卓越、易于维护的企业级云数据库服务。其具备6大企业级特性,包括企业级定制内核、企业级高可用、企业级高可靠、企业级安全、企业级扩展以及企业级智能运维。通过使用腾讯云数据库 MySQL,可实现分钟级别的数据库部署、弹性扩展以及全自动化的运维管理,不仅经济实惠,而且稳定可靠,易于运维。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档