前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >快速入门网络爬虫系列 Chapter11 | 将数据存储成文件

快速入门网络爬虫系列 Chapter11 | 将数据存储成文件

作者头像
不温卜火
发布2020-10-28 14:53:46
1.3K0
发布2020-10-28 14:53:46
举报
文章被收录于专栏:不温卜火不温卜火

Chapter11 | 将数据存储成文件

上一篇我们学习了两种最常用的方式:用BeautifulSoup从HTML网页中提取,从JSON中提取。数据提取出来以后就要存储。如果我们抓取的是图片等文件,通常我们仍会以文件的形式存储在文件系统中;如果我们抓取的是结构化的数据,通常我们会存储在数据库或CSV文件中。本篇博文讲解的是不同的存储方式。

通常,如果我们抓取的是图片、音频、视频、文档等内容,那么我们会把东西保存成文件。

代码语言:javascript
复制
import requests
image_url = 'http://httpbin.org/image/png'
file_path = 'test.png'
response = requests.get(image_url,timeout = 5)
with open(file_path,'wb') as f:
    f.write(response.content)
from IPython.display import Image,display
display(Image(filename = file_path))
1
1

可以看到,我们下载了图片,并正确读取了出来。需要注意的是,我们获取响应内容时,采用的是response.content,而不是response.text。这是因为response.text是响应的unicode表示,response.content响应的字节数组。因为图片是二进制的,所以此处要用response.content。这种方法除了可以下载图片,还可以下载音视频文件,以及文档

下载图片时,我们还可以直接把响应内容存到PIL.Image中:

代码语言:javascript
复制
from PIL import Image
from io import BytesIO
from IPython.display import display

image = Image.open(BytesIO(response.content))
print(image.height,image.width)
image.save(file_path)
display(image)
2
2

因为PIL.Image包含了很多操作图片的方法,如resizerotatethumbnail等,方便用户在保存之前做一些预处理。

如果需要抓取的数据量不大,通常我们可以把数据存成CSV。这样如果你用pandas载入数据的时候就会非常方便。Python中有一个原生库csv,是专门用来读写CSV文件的。

如何用csv创建一个CSV文件:

代码语言:javascript
复制
import csv

file_path = 'test.csv'
with open(file_path,'w')as f:
    writer = csv.writer(f,delimiter = '\t',quotechar = '"',quoting = csv.QUOTE_ALL)
    writer.writerow(['C1','C2','C3'])   # 写一行,这一行同时也是标题
    data = [(1,2,3),(4,5,6)]
    writer.writerows(data) # 写多行
    
with open(file_path,'r')as f:
    reader = csv.reader(f,delimiter = '\t',quotechar = '"',quoting = csv.QUOTE_ALL)
    for row in reader:
        print('\t'.join(row))
3
3

上面的代码首先创建一个writer,以'\t'为列的分隔符,给所有的数据都加上双引号,这是为了防止数据中也包含'\t'。然会写了一行标题,最后写了两行数据。接着又创建了一个reader正确地读出了CSV文件。

csv.writer在写入文件时要将unicode字符串进行编码,因为Python地默认编码是ascii,所以如果要写入的内容包含非ASCII字符时,就会出现UnicodeEncodeError。此时可以在调用writerow之前先将unicode字符串编码成UTF-8字符串,或者直接使用unicodecsv写入unicode字符串:

代码语言:javascript
复制
import unicodecsv

file_path = 'test.csv'
with open(file_path,'wb')as f:
    writer = unicodecsv.writer(f,delimiter = '\t',quotechar = '"',quoting = csv.QUOTE_ALL)
    writer.writerow(['省份','省会'])   # 写一行,标题
    data = [("河南","郑州"),("河北","石家庄")]
    writer.writerows(data)   # 写多行
    
with open(file_path,'rb')as f:
    reader = unicodecsv.reader(f,delimiter = '\t',quotechar = '"',quoting = csv.QUOTE_ALL)
    for row in reader:
        print('\t'.join(row))
4
4
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020-04-14 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Chapter11 | 将数据存储成文件
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档