前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【技术创作101训练营】机器学习的有“米”之炊-数据处理

【技术创作101训练营】机器学习的有“米”之炊-数据处理

原创
作者头像
到不了的都叫做远方
修改2020-09-22 10:25:07
4260
修改2020-09-22 10:25:07
举报
文章被收录于专栏:翻译scikit-learn Cookbook

迟迟未进入机器学习领域,深感不安,但千里之行,始于足下,管他年龄30已过,还是其它什么,只要想做,只要不服输,未来还有三十年的征程。

俗话说“巧妇难为无米之炊”,无论是学会了决策树模型,还是线性回归模型,是SVM还是TensorFlow,我拿一堆乱七八糟的如我Windows中D盘里那个随便一个文件夹下存的资料,让它们几位活动活动筋骨,不用看都知道,它们会还给我一堆乱七八糟。自由输入的代价,亦是自由的输出。

模型需要各种各样结构化的数据,虽然我不会优化模型,不会创造模型,但是我会调用模型,所以我想方设法去满足模型。

以下,是我为了满足模型,做的思维导图(工具:百度脑图,导图优势:随时可根据知识的积累,让它变广,变深):

一:读取数据

首先从准备数据开始,无论我拥有了多少个文件夹的多少种数据,我首先要把它读到我的电脑里,让我能看到它们,才有可能操作它们,这里我展示了几种不同格式数据的读取方法:csv,json,xlsx,其中有用open打开,有用pandas的read打开,有用numpy的loadtxt打开,它们都是方法,达成读取数据的方法,黑猫白猫,抓住老鼠就是好猫,选一个自己熟悉的方法先完成这个步骤,然后在想办法去优化它。

二:了解数据及拼接数据

为什么把它们放在一起讲呢?因为在这里把所有的数据都准备好,无论是单纯叠加也好,或是缝缝补补也好,把数据在此准备完全,比后续清洗完了数据,才发现要再补点什么,要好得多。而拼接是建立在了解数据之上的,比如数据的宽度,限制纵向数据的联接,数据的高度,限制横向拼接。按行还是按列,按列名还是按其它,都得清楚,才能拼接。

三:清洗数据

数据清洗,数据准备的越适合于模型,未来模型反馈的效果也就越好,所以此处非常重要,如先处理缺失值,处理个别数据格式,对特殊数据值的修改替换,数据的排序操作,数据的增多或是一些计算数据的生成处理。应用中多得是,按照自己的需求,来操作清洗数据。

四:保存数据

当数据在不规则不规范的时候,洗它,当数据成为了想要的样子,保存它,这离模型就不远了。

做好做扎实这些工作,再去考虑模型的道与术,我相信我能行!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档