前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >再见,Excel!

再见,Excel!

作者头像
GitHubDaily
发布2020-11-13 12:03:53
5030
发布2020-11-13 12:03:53
举报
文章被收录于专栏:GitHubDailyGitHubDaily

公众号关注 “GitHubDaily” 设为 “星标”,带你挖掘更多开发神器!

大家好,我是小 G。

熟悉机器学习的小伙伴们都知道,实际场景中的机器学习可不是一番风顺的过程,不是所有数据都可以直接喂给模型。

实际场景中,机器学习要经过数据清洗,整合,缺失值处理,特征工程,调参等漫漫长路,光是特征工程就是一篇血泪史。说好的算法工程师却被调侃是数据民工,真让人头冷。

为了解决这个问题,百度 EasyDL 零门槛 AI 开发平台推出了表格数据预测功能,只需要上传 csv 数据,简单的几步操作,就可以获得高精度器学习预测模型,数据清洗、特征工程、参数调优,部署统统帮我们做好

我们可以悠闲地在初冬赏赏红叶,等待收获专属于你的预测模型了。不仅轻松,近期还有一个开发者快速提升开发能力的机会,听说看到文末的开发者就能 get 到!

EasyDL 表格数据预测的技术亮点主要有以下几点:

1:特征工程

俗话说,特征提不好,参数调到老。EasyDL 表格数据预测在特征工程方面做了非常多的工作。对于类别特征会做 One-Hot 编码展开,时间特征做年月日抽取,就连最难搞定的文本特征,EasyDL 表格数据预测也能帮助我们自动提取出多种文本特征。

不仅如此,EasyDL 表格数据预测还会对特征进行交叉,充分利用已有的数据自动生成一阶、二阶甚至更高阶特征,获取更佳的特征表达能力。在特征维数过大的时候,为了提高模型效率,系统还会自动进行特征降维,通过特征重要性、相关性等的分析消除冗余特征,在保证模型效果的同时,极大地提高了模型的训练与预测速度。

2:超参调优

EasyDL 表格数据预测不光帮你做好了特征工程,而且为了保证模型的效果,在模型的训练过程过还采用了超参数优化(HPO)技术,会根据我们的数据集,自动分配不同的超参优化算法。为我们的数据选择模型最适合的参数,保证模型的效果,简直是解放双手神器!!

3: 模型融合

给每个模型找到了最佳参数后,EasyDL 表格数据预测还加入了机器学习比赛大杀器 —— 模型融合,各个模型强强联手,进化成最强模型,将模型效果优化到极致。

这时候,你肯定有一个疑问,EasyDL 表格数据预测做了这么多优化操作,会不会导致训练过程特别慢?这要是训练个十天半个月,那我的心情可就和秋天一样越来越凉了。

这点也不需要担心,EasyDL 的研发小哥哥们在超参搜索调度和算法策略方面也做了很多优化,保证你的模型产出又快又好,上百个特征,数以万计的样本数,几个小时就可以搞定啦。

EasyDL 表格数据预测的界面长这样,功能与步骤一目了然,下面来具体介绍下使用 EasyDL 表格数据预测的几个步骤吧。

1:数据上传

首先我们要将准备好的 csv 数据上传到数据集中,点击 EasyData 数据服务中的数据总览,就可以创建数据集了。目前支持一个到多个 csv 文件的导入,当数据比较大的时候,可以打包成 zip 格式上传,极大地简化了数据导入的步骤。

数据上传后,我们可以在数据总览中看到数据的具体信息,包括数据的总行列数,以及每一列的推断类型,页面会展示 100 行的数据,方便我们核对数据。

2:模型训练

目前 EasyDL 表格数据预测可以解决三大问题:二分类,多分类以及回归。当我们选择了目标列后,可以根据所选的目标列选择算法类型。或者我们也不确定算法类型是什么,那么可以选择 “自动”,EasyDL 表格数据预测就会根据所选的目标列自动推断出算法类型哦~

3:模型评估

模型训练结束后,我们可以在模型列表中看到查看模型的评估结果,点击完整评估结果可以看到更加详细的评估报告。

针对多分类问题,平台会给出分类的混淆矩阵,以及总体分类指标,模型的分类效果一目了然。

对于二分类问题,可以通过调整阈值,得到不同阈值下的评估指标,当我们想要获得 “宁杀错,不放过” 的结果时,可以调低阈值,让召回率升高,比如地震预警等场景。

反之,当我们需要很高的精确率时,例如贷款审核等应用场景,就可以适当增加阈值,让模型判断为正的样本具有更高的可信度。

不仅仅是给出总体指标,针对各个类别,平台还将给出各自的 ROC、PR 曲线等,让我们 360 度全方位了解模型训练的效果。

只是这样居然还不够,百度的研发小哥哥们居然还贴心地给你送上特征重要性指标,告诉我们哪个变量对目标影响更大。这下你该知道该从哪个特征下手,来获取更多有用信息了吧。

4:模型校验

获得了模型之后我们就可以进行校验了,只要在各个特征列中输入数据,点击预测就可以获得分类结果了,简直 EASY 到不行。

5:模型部署

如果我们对模型的校验结果满意的话,即可发布模型,发布成功只需短短几分钟时间,我们就可以通过接口来对我们的数据进行预测了。

从数据清洗到模型部署,EasyDL 表格数据预测一站帮你解决数据分析的难题,机器学习使用越来越简单!快来点击链接体验吧~https://ai.baidu.com/easydl/app/201/20100/models

EasyDL 是基于百度自主研发的深度学习平台飞桨,结合业界先进的工程服务技术打造的简单易用的模型训练和服务平台。

面向企业用户提供零门槛 AI 开发,一站式支持 EasyData 智能数据服务、模型训练、服务部署等全流程功能,内置丰富的预训练模型,支持图像分类、物体检测、图像分割、文本分类、情感倾向分析、音视频分类、语音识别自训练、表格数据预测等近 20 类模型,支持公有云 / 私有化 / 设备端等多种部署方式。

EasyDL 已在工业制造、零售快消、企业服务、安全生产、园区管理、互联网、物流交通等领域广泛落地。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-11-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 GitHubDaily 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 公众号关注 “GitHubDaily” 设为 “星标”,带你挖掘更多开发神器!
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档