首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

企业如何去做数据挖掘呢?

20世纪90年代晚期发展的跨行业数据挖掘标准流程(CRISP-DM), 这是对我们怎么去做数据挖掘的有效指导。

第一, 是商业理解, 在我看来, 这个商业理解就是要把业务问题转换成数据挖掘问题, 目前数据挖掘的理论概念中, 一般都包括分类, 聚类,回归, 关联规则这几类, 这需要对这几类方法有一定的理解, 才能有效地转换,

第二. 数据理解, 数据描述了我们的业务, 在这一步, 我们必须找准对应关系, 所面临的业务问题, 有哪些数据可以用, 我们做的是定量分析, 没有数据显然是得不到模型的, 知道哪里数据和业务关系紧密, 也能让我们的分析事半功倍,

第三.数据准备, 实际上数据挖掘的大部分工作都在这一步, 往往到了这一步就发现理想很美好, 但现实很骨感, 数据质量令人堪忧, 缺失值, 异常值接踵而来, 这是数据的错误, 还有为了适应算法, 需要将数据去量纲化, 类型转换, 去相关性, 降维等等操作, 这一步将消耗分析人员大量精力

第四, 建模, 这一步需要对算法理解透彻, 要了解数据特征和算法特点, 才能选择最优算法, 以及最优参数, 很多算法的使用是有假设条件的, 必须仔细掌握, 得到的模型才会合理, 另外,还要考虑业务需要, 如果模型必须能解释, 那就要选择生成式模型算法

第五, 评价, 就是模型评估了, 各种评估指标的侧重点是不一样的, 要以最能反应业务的指标为准, 另外,评估数据的选择也很关键, 要尽可能的模拟实际生产环境, 才能评估模型的性能。

以上就是得到模型流程了, 业务理解和数据理解做的好, 就能快速选好方法, 和关键字段,这是能加速建模的, 数据质量是能否得到模型的关键, 缺失值, 异常值虽然能删除,填充, 但是信息的缺失是找不回来的, 就可能导致得不到模型, 可能会倒逼选择其他方法分析, 建模就要看对算法的理解了。

随着近年来人工智能及大数据、云计算进入爆发时期,依托三者进行的数据分析、数据挖掘服务已逐渐成为各行业进行产业升级的载体,缓慢渗透进我们的工作和生活,成为新时代升级版的智能“大案牍术”。

亿信华辰推出的数据挖掘产品亿信豌豆DM,让用户可以通过半自动化或者自动化地分析业务数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。

亿信华辰作为深耕智能数据领域13年的资深数据软件厂商,一直致力于让数据发挥应有的价值,围绕数据全生命周期打造多款重量级核心智能产品,涵盖数据存储、数据处理、数据治理、数据分析四大方向,能够为客户搭建一体化的大数据平台,帮助其在大数据时代持续保持竞争力和创新力。

值得一提的是,亿信华辰自主研发的数据挖掘软件豌豆DM就是现代版的大案牍术,具有数据预处理、图形化数据探索、可视化建模、模型应用等功能,可以实现客户流失分析、风险分析、信用评价、关联推荐、预测、关系网络分析等各类数据数据的深入分析应用。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20200604A0Q4IJ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券