前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据通识课案例 | 当当网图书数据清洗

大数据通识课案例 | 当当网图书数据清洗

作者头像
数据科学人工智能
发布2022-04-01 14:33:36
7950
发布2022-04-01 14:33:36
举报

爱数科(iDataScience)是一个拖拽式数据科学科研和教学一体化平台,集成数十行业数千数据集、科研案例模板。帮助科研人员快速使用大数据和人工智能技术开展研究。支持高校开展大数据通识课程教学。帮助非专业人员进行数据分析和生成数据分析报告。登录网址 www.idatascience.cn

//v.qq.com/txp/iframe/player.html?origin=https%3A%2F%2Fmp.weixin.qq.com&containerId=js_tx_video_container_0.8001625478920908&vid=h3272ub4q2z&width=677&height=380.8125&autoplay=false&allowFullScreen=true&chid=17&full=true&show1080p=false&isDebugIframe=false

本案例使用爱数科(idatascience)的字符串匹配、字符串分割、字段重命名等组件,对从当当网抓取的机器学习相关的图书信息进行数据清洗,处理为符合我们要求的数据。本案例适合作为大一大数据通识导论课程数据清洗模块的教学案例。

1. 读数据表

首先,我们读取原始数据。数据集各字段的介绍可参考:

http://idatascience.cn/dataset-detail?table_id=2

可以看出原始数据中有许多问题,例如当前价格带有人民币符号'¥',评论数含有文本等等。

2. 提取价格数值

我们去掉当前价格这一列中的 '¥' 符号,使用正则表达式\d{1,4}\.{0,1}\d{0,2}将当前价格中的数值提取出来,保存为新的一列当前价格_match

3. 提取评论数

对于评论数这一列使用正则表达式\d{1,4}\.{0,1}\d{0,2}提取数值,保存为评论数_match

4. 提取星级数值

对于星级这一列使用正则表达式\d{1,4}\.{0,1}\d{0,2}提取数值,保存为星级_match

5. 星级数值除以20

接着将提取出的星级数值除以20,将取值范围转换为[0,5]。

可以看到,经过列数值计算后的数据更适合数据的建模计算和可视化分析了。

6. 出版信息字符串分割

接下来我们处理出版信息这一列,从原始数据中可以看到,这一列主要包含三个信息,分别是作者、出版日期、出版社。它们以“/”分隔,并且存放在一个数据单元中,我们将它们分别取出,然后单独存为三列。

7. 书名去掉【】

书名信息中混合着简介信息,观察原始数据中书名一列,能找到一些规律。除去一些包含在 【】和 [] 中间的标注信息,剩余的内容中书名和其他内容基本是由空格隔开的。所以我们首先将【】和 [] 去掉,然后按照空格分隔字符串,第一个内容便是书名。

首先在书名一列中去掉【】中的信息,并将结果保存为书名_replace

8. 书名去掉[]

接着在书名_replace一列中去掉[]中的信息,保存为书名_replace_replace

9. 书名字符串分割

去除方括号【】和[]后我们把书名_replace_replace列中文字根据空格进行字符串分割,并进行分列。

10. 删除不需要的数据列

在原始数据中和上面操作生成数据中有许多冗余数据列,我们把不需要的数据列都删除掉。

11. 数据字段重命名

最后,我们将数据集各列特征名称修改为各列数据的信息种类。

原始数据集中含有文字数字混杂、量纲不同等等问题。经过数据清理,原始数据集已经适用于进一步的建模计算和可视化处理了。

  • 案例在线地址:http://idatascience.cn/case-detail?experimentId=320
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-08-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据科学人工智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 读数据表
  • 2. 提取价格数值
  • 3. 提取评论数
  • 4. 提取星级数值
  • 5. 星级数值除以20
  • 6. 出版信息字符串分割
  • 7. 书名去掉【】
  • 8. 书名去掉[]
  • 9. 书名字符串分割
  • 10. 删除不需要的数据列
  • 11. 数据字段重命名
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档