前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python爬虫基本流程

Python爬虫基本流程

原创
作者头像
Xxy_1008
发布2024-07-22 15:41:57
1390
发布2024-07-22 15:41:57
举报
文章被收录于专栏:Java SE

Python爬虫是指利用Python编程语言编写的程序,用于从网页上获取数据。通常,爬虫程序会模拟人类用户在网页上的行为,发送HTTP请求获取网页内容,然后解析这些内容以提取所需信息。常用的爬虫库包括requests用于发送HTTP请求,BeautifulSoup用于解析HTML或XML内容,以及Scrapy用于构建更复杂的爬虫项目。通过爬虫,可以自动化地收集、分析和存储网络上的数据,用于各种目的,例如数据挖掘、搜索引擎索引、监控和分析等。

"""

爬虫实现基本流程:

一、数据来源分析

1.明确需求

**明确采集的网站以及数据内容**

*网址:

*数据:视频相关信息:标题/播放量/弹幕量/评论/作者...

2.抓包分析(在浏览器中进行操作)

**通过浏览器自带工具(开发者工具)进行数据抓包:分析我们需要数据可以请求哪个网址能够得到

1.打开开发者工具

F12/右键点击检查 选择 network(网络)

2.刷新网页/点击下一页查看数据

点击第二页/下一页(爬虫批量采集数据,进行翻页操作;最好从第二页开始分析,第一页有可能是静态页)

3.通过关键字搜索找到对应数据包链接(位置)

关键字:我们需要的数据(标题)

请求网址:

请求方法:GET

二、代码实现步骤

1.发送请求 (内容基本可以复制)

*模拟浏览器(字典接受参数内容)

主要是使用开发者工具中:请求标头 参数内容

常用:cookie/referer/host/User-Agent(UA)

*请求网址

*发送请求(请求方法&请求参数)

代码语言:txt
复制
  def GetRespon(url,data):

    # 模拟浏览器(伪装)

    headr={

        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64)"

        }

    response = requests.get(url=url,params=data,headers=headr)

    return response

2.获取数据

*response.text

获取响应的文本数据

*response.json()

响应数据返回内容{}/[{}]类似这样的形式 就直接获取json()

*response.content

保存 图片/音频/视频/特定格式文件 的时候,获取content表示获取二进制数据

3.解析数据

4.保存数据

"""

实例:

代码语言:txt
复制
import requests 
from bs4 import BeautifulSoup
head={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'}
res=requests.get('https://api.bilibili.com/x/v1/dm/list.so?oid=764406856',headers=head)
soup=BeautifulSoup(res.content,'html.parser')
danmus = soup.findAll('d')
for j in danmus:
    # print(j.string)
    with open("弹幕.txt",'a',encoding='utf-8') as f:
        f.write(j.string)
        f.write('\n')
        print(j.string)

这个Python脚本使用了requests库向Bilibili的一个API端点发送GET请求,从中获取评论(弹幕)的XML数据。然后,它使用BeautifulSoup来解析XML内容。

它从XML内容中提取所有的<d>标签,这些标签代表着单个评论。然后,它遍历每条评论,将其追加到名为"弹幕.txt"的文件中,并将每条评论打印到控制台。

head变量定义了一个User-Agent头部,以模仿一个Web浏览器。这有时有助于绕过限制或从否则会阻止非浏览器流量的网站获取内容。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、数据来源分析
    • 1.明确需求
      • 2.抓包分析(在浏览器中进行操作)
        • 1.打开开发者工具
        • 2.刷新网页/点击下一页查看数据
        • 3.通过关键字搜索找到对应数据包链接(位置)
    • 二、代码实现步骤
      • 1.发送请求 (内容基本可以复制)
        • 2.获取数据
          • 3.解析数据
            • 4.保存数据
            相关产品与服务
            云开发 CLI 工具
            云开发 CLI 工具(Cloudbase CLI Devtools,CCLID)是云开发官方指定的 CLI 工具,可以帮助开发者快速构建 Serverless 应用。CLI 工具提供能力包括文件储存的管理、云函数的部署、模板项目的创建、HTTP Service、静态网站托管等,您可以专注于编码,无需在平台中切换各类配置。
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档