前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >“平民化”半结构数据处理

“平民化”半结构数据处理

原创
作者头像
colorknight
发布2023-02-09 23:18:10
9040
发布2023-02-09 23:18:10
举报
文章被收录于专栏:Tripod

伴随着大数据技术的兴起,半结构化数据得到了迅猛发展,时至今日仍趋势不减。半结构化数据被视为一种特殊的结构化数据,其拥有语义元素,是一种自描述结构。常见的半结构数据格式有,XML、Json等。据IDC预测,2025年,结构化数据规模将达35ZB,约占数据总量的20%。虽无准确数据表明半结构化数据在结构化数据中的占比。但通过我们对日常生产、生活中遇到的各类数据格式推断,半结构化数据占有结构化数据的半壁江山不算为过。比如,我们生活中最常遇到的HTML数据等就是一种特殊的XML结构。伴随着半结构化数据的广泛应用,面向半结构化数据的分析处理需求也不断提升。

    对于半结构化数据,鉴于其格式表达的灵活性,目前主要的分析处理手段都是通过编程来实现的。各类不同的编程语言,如:Python、Java、GO等都为XML、Json等格式的处理提供了对应的开发包。开发人员可以非常便捷的使用这些开发包,完成对半结构化数据的处理。但对于主要面向业务的数据科学从业人员,要求其同时具备良好的编程能力,则相对比较困难。现实中,通晓业务知识并拥有编程能力的从业者凤毛麟角。即便有,也身价不低。这类工作往往是通过分工合作的方式来完成的,即业务知识专家和开发工程师共同合作完成。但合作中因为存在大量沟通,所以工作效率难于大幅提升。

    在“小”数据时代,数据科学从业者已经习惯了有一众“低代码”工具(笔者的上一篇《“平民化”非结构数据处理》中有提及,有兴趣的可以去看那篇文章)辅助其实现数据的处理与分析。那么在大数据时代,如果能有同样概念的“低代码”工具帮助数据科学从业者完成半结构化数据的处理与分析,那么就能大大降低从业者的技能要求。

    为此笔者团队在自研的“低代码”工具平台中加入了对半结构化数据的支持能力。相较于结构化数据与非结构化数据,半结构化数据的处理,要求具备更多的编程概念。如下Json数据格式样例:

代码语言:javascript
复制
{
 "field": "字段",
  "array": [
   {
     "complexInArray": {
       "field": "字段"
     }
}
  ],
  "complex": {
    "field": "字段"
  }
}

由于半结构化数据除了支持如字符串、数值、布尔值等简单数据类型外,还支持数组以及复杂结构类型。这使得使用者需要拥有这些数据类型概念,才能正确处理对应的数据信息。由于半结构化数据形成了一个类似树结构的数据组织形式,因此需要一种统一的表达的方式来约定访问结构中的每一个元素。一般而言有两种表达方式,一种是用Path路径方式描述,如:/o/array[0]/field;/o/complex/field;另一种是用“.”成员运算符的方式描述,如:o.array[0].field;o.complex.field。两者在语义上表达的效果是一致的,第一个表达式都是用来访问上例中数组第一个元素的field字段;而第二个表达式都是用来访问上例中复杂结构的field字段。需要注意的是表达式中的“o”代表了整个Json对象,是一种人为约定。笔者团队开发的数据科学平台使用成员运算符表达式作为表述方式。该表述方式更接近编程语言风格,可与平台提供的诸如函数调用等表达式统一风格。

    在最近接触的项目中,客户有将从公开网站获取的CPE、CVE数据导入数据库作为基础知识的需求。从网络中直接获取的原始CPE数据为XML格式;CVE为Json格式。下面将详细介绍下如何通过平台导入CPE数据,并简单介绍下CVE的数据导入过程。

1.CPE数据导入

    CPE数据的格式如下:

代码语言:javascript
复制
<cpe-list>
  <generator>
    <product_name>National Vulnerability Database (NVD)</product_name>
    <product_version>4.9</product_version>
    <schema_version>2.3</schema_version>
    <timestamp>2022-04-19T03:51:13.055Z</timestamp>
  </generator>
  <cpe-item name="cpe:/a:%240.99_kindle_books_project:%240.99_kindle_books:6::~~~android~~">
    <title xml:lang="en-US">$0.99 Kindle Books project $0.99 Kindle Books (aka com.kindle.books.for99) for android 6.0</title>
    <references>
      <reference href="https://play.google.com/store/apps/details?id=com.kindle.books.for99">Product information</reference>
      <reference href="https://docs.google.com/spreadsheets/d/1t5GXwjw82SyunALVJb2w0zi3FoLRIkfGPc7AMjRF0r4/edit?pli=1#gid=1053404143">Government Advisory</reference>
    </references>
    <cpe-23:cpe23-item name="cpe:2.3:a:\$0.99_kindle_books_project:\$0.99_kindle_books:6:*:*:*:*:android:*:*"/>
  </cpe-item>
  <cpe-item name="cpe:/a:%40thi.ng%2fegf_project:%40thi.ng%2fegf:-::~~~node.js~~">
    <title xml:lang="en-US">@thi.ng/egf Project @thi.ng/egf for Node.js</title>
    <references>
      <reference href="https://github.com/thi-ng/umbrella/security/advisories/GHSA-rj44-gpjc-29r7">Advisory</reference>
      <reference href="https://www.npmjs.com/package/@thi.ng/egf">Version</reference>
    </references>
    <cpe-23:cpe23-item name="cpe:2.3:a:\@thi.ng\/egf_project:\@thi.ng\/egf:-:*:*:*:*:node.js:*:*"/>
  </cpe-item>
  ……

    在<cpe-list>标签下包含多个<cpe-item>标签。每个<cpe-item>中都含有一个<cpe-23:cpe23-item>标签。数据处理时,需要提取出每个<cpe-23:cpe23-item>标签的name属性,如:

代码语言:javascript
复制
“cpe:2.3:a:\$0.99_kindle_books_project:\$0.99_kindle_books:6:*:*:*:*:android:*:*”

并根据CPE的编码规范拆解各字段,最后将拆解后的数据插入数据库中。使用平台搭建的输出处理流程如下:

  1. cpe原始文件:读取CPE原始XML文件
  2. 文件拆分:由于该原始XML文件较大,作为整体文件进行全部装载时占用内存资源较大,故先将其按照XML格式拆解为多个小文件。每个小文件中都包含多个<cpe-item>标签。
  3. 全文读取:将各个小文件读取成文本形式。
  4. 文本替换:替换掉文本中的特殊符号。如标签<cpe-23:cpe23-item>,‘:’,‘-’两个符号在XML标签中是合法的,但是当我们采用成员运算符表达式访问时,其并不符合编程语言的命名规范。我们需要将这些标签名替换为程序的合法名,如:<cpe-23:cpe23-item>将被替换为<cpe_23_cpe23_item>。
  5. 流输入转换器:将替换后的文本转换为XML算子可以读取的数据格式
  6. Xml读取:读取文本中的<cpe_23_cpe23_item>标签。

    如上图所示,标签<cpe-list>被替换为<XmlStream>,标签<cpe-item>被替换为<cpe_item>,<cpe-23:cpe23-item>被替换为<cpe_23_cpe23_item>。图中将XML中的XmlStream.cpe_item命名为da,使用da.cpe_23_cpe23_item访问<cpe_23_cpe23_item>标签中的内容,并将它以item的列名输出。后续算子可以通过列名item访问到对应的标签数据。

需要注意的是,笔者平台提供的所有半结构化数据处理算子在遇到数组型数据时,如果需要访问数组内部的数据对象属性,则需为其命名别名。并在后续配置中使用该别名代表数组中的每个数据对象。如上例中为XmlStream.cpe_item命名为别名da,并使用da代表数组中的cpe_item对象,访问其cpe_23_cpe23_item属性。若不需访问内部数据对象,则可不为其命名别名。直接输出XmlStream.cpe_item时,该值为一个XmlElement的数组。平台允许表达和输出对象数组嵌套对象数组的复杂结构。

  1. 值分割:将Xml读取算子输出的item列的按CPE编码规范进行切分
  2. MySQL写出:将切分好的数据输出到对应的MySQL表中。

流程运行结束后,共有866446条数据被插入对应数据表,效果如下:

2.CVE数据导入

    CVE数据格式为Json,其数据处理流程如下图:

    该数据处理流程的处理步骤与CPE略有不同,但其核心差异主要是其采用了Json格式的读取算子,并最终将数据写入了ElasticSearch中。其中Json读取算子的结构配置如下图:

图片
图片

    由于CVE数据的数据格式比CPE复杂不少,故其数据的输出结构也复杂了不少。数据流程的执行结果如下:

    笔者团队提供的数据科学平台除能支持XML、Json两种半结构化数据格式外,还支持Avro以及ProtoBuf两种常用格式。所有半结构化数据处理算子在配置使用时风格一致,可有效降低数据处理人员的学习成本及编程技能要求,从而实现半结构化数据的“平民化”处理。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档