前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >2.1.2 数据准备

2.1.2 数据准备

原创
作者头像
用户10270559
修改2023-01-01 19:30:57
2800
修改2023-01-01 19:30:57
举报
文章被收录于专栏:人工智能从业者资格

数据准备阶段通常会占到实际机器学习任务的79%的时间。包括数据采集、数据清洗(清理)、数据标注、数据验收、数据交付等阶段。

数据采集:采集之前,要对数据来源进行考察,越熟悉的数据来源越好。采集一般有四种途径,分别观测数据、人工收集、调查问卷、线上数据库

  1. 观测数据:observation,实验室监测数据、浏览器上的网页数据,规模化自动化采集,伴随环境噪声,数据缺失或不规整,需要仔细做好数据清理工作。
  2. 人工收集:线下交流和走访,大量人工辅助,心理学、社会工程学来辅助,人工归纳和总结数据,非常低效和繁琐的数据来源
  3. 调查问卷:与人工收集分开来,可以自动,各种表格,可以线下手工录入或线上自动录入,数字化录入 自动化识别,形成结构化数据,是比较高效的一种数据来源;
  4. 线上数据库,注意数据获取的权限和版权问题。

数据清理(也叫数据清洗):现实世界的数据是非常脏的,数据清理工作是繁琐的,但却是至关重要。做好版本管理,至少三种:原始数据、某一步处理过后的数据、最终有待分析的数据。主要处理以下几种数据:缺失的数据、重复的数据、内容错误的数据(逻辑、格式错误)、不需要的数据。

数据标注:可以对语音、文本、图像、视频等进行标注,形式有打点、分类、画框、3D画框、目标物体轮廓线、注释、文本转录等,这是一个标记数据对象的过程,目的是作为机器学习的标签。例如对一段语音进行文本注释,就是一个语音数据的标注过程,海量的语音片段和对应的文本,就形成了数据输入和标签,供机器学习使用。

数据划分:标注之后划分为训练集和测试集。拆分比例通常训练集比重较大,8:2或7:3等。

数据验收:就是检查,合法性(自身业务特点或约束程度)、准确性、完整性、一致性等。合法性举例,定义的业务规则,或者约束的程度。业务特点或者逻辑特点,数据约束:类型约束(布尔值 数字 日期等),范围约束(特定的日期范围内),唯一约束(保证在数据集中唯一),离散值(必须是离散型数,如性别只有男女两种)。

数据管理:数据作为一种资产,企业按照新型资产来管理。与数据治理的区别和联系。管理包含治理,治理是管理的一部分。

与数据相关的问题:数据不足(数据扩充)、隐私泄露、分类质量低、数据质量低

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档