前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >快速入门网络爬虫系列 Chapter10 | 数据结构化存储

快速入门网络爬虫系列 Chapter10 | 数据结构化存储

作者头像
不温卜火
发布2020-10-28 14:54:28
4620
发布2020-10-28 14:54:28
举报
文章被收录于专栏:不温卜火不温卜火

我们先来了解下数据化结构与非数据化结构 一、数据化结构 数据化结构,简单来说就是数据库。结合到典型场景中更容易理解,比如企业ERP、财务系统、医疗HIS数据库、教育一卡通、政府行政审批、其他核心数据库等 二、非结构化数据 非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、各类报表、图像和音频/视频信息等等

1
1
  • 在使用结构化数据的同时,数据的体量和多样性都会降低,同时降低的还有操作数据需要的相关技术难度、数据分析前准备数据所花费的时间以及业务用户评价数据所花费的精力。

一、结构化过程

1、非结构化数据

  • “《互联网大数据处理技术与应用》一书是由曾剑平编著,并由清华大学出版社于2017年出版。”
  • “ 清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。”

2、半结构化数据

  • (书名:互联网大数据处理技术与应用;作者:曾剑平;出版社:清华大学出版社;出版日期:2017)
  • (出版社:清华大学出版社;成立时间:198006;主管单位:教育部;主办单位:清华大学)

3、结构化数据

2
2

二、怎样数据结构化

1、明确数据需求

  • 需要抽取什么数据
  • 存放成什么格式
  • 怎么存

2、选择数据结构

  • 半结构化:XML、JSON
  • 结构化:数据库

3、怎么存

  • 文件:单独还是一起存放,如何发展数据关系
  • 数据库:数据库设计

三、半数据化结构

3.1、JSON

  • API常用格式
  • 数据结构简单
  • 有Python Json库支持
  • 可以和Python字典结构相互转化

3.2、XML(可广泛应用)

  • 可扩展标记语言,标记通用标记语言的子集,是一种用于标记电子文件使其具有结构化的标记语言

1、XML的特性

可扩展标记语言可以对文档和数据进行结构化处理,从而能够在部门、客户和供应商之间进行交换,实现动态内容生成,企业集成和应用开发

  • 准确的搜索
  • 方便的传送软件组件
  • 更好的描述一些事物
  • 设计宗旨是传输数据,而不是显示数据
  • 标签没有背被预定义,需要自行定义标签
  • 具有自我描述性
1、一个简单的XML例子
3
3
2、使用xml.etree生成xml

在这里主要使用xml.etree这个子包

代码语言:javascript
复制
import xml
from xml import etree
from xml.etree.ElementTree import ElementTree
root = etree.ElementTree.Element("root")
root.append(etree.ElementTree.Element("child1"))
child2 = etree.ElementTree.SubElement(root,"child2")
child3 = etree.ElementTree.SubElement(root,"child3")
print(xml.etree.ElementTree.tostring(root))
4
4

爬虫场景中可以使用

  • json+xml迭代完成xml与json的相互转化
  • 使用xmltodict包
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2020-04-13 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、结构化过程
    • 1、非结构化数据
      • 2、半结构化数据
        • 3、结构化数据
        • 二、怎样数据结构化
          • 1、明确数据需求
            • 2、选择数据结构
              • 3、怎么存
              • 三、半数据化结构
                • 3.1、JSON
                  • 3.2、XML(可广泛应用)
                    • 1、XML的特性
                相关产品与服务
                数据库
                云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
                领券
                问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档