首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据产品必备技术知识:机器学习及常见算法,看这一篇就够了

大家都知道,产品经理需要懂技术,毕竟产品经理经常要和开发同学相爱相杀。不一定要精通,但至少不要让这块成为沟通的障碍。懂点技术,实际工作中也能少被开发同学“忽悠”,讲道理时不会畏手畏脚,更有底气。对于数据产品经理来说,不仅要懂技术,还要懂更多的技术。本文分享了数据产品经理必备的那些技术知识。

产品都要懂:什么是程序?程序如何组装成功能?服务端客户端数据交互是咋样的?数据库是啥?里面的表、关系结构、字段、字段类型是啥?常见的技术名词如接口、同步异步、重构等等又是指啥?除了这些,数据产品还要懂数据相关的技术,比如说数据仓库,机器学习数据挖掘,大数据框架或者常用的数据开发工具hadoop、hive、spark等等这些。所以,从某些角度而言,数据产品比其他产品门槛要更高点。

此外,为了验证哪个模型更准,可以再用一组新的样本数据作为测试数据,套入模型,看看模型跑出的分类和实际分类误差多少,从此来衡量模型的准确性。这里引入一下训练样本和测试样本,很多训练过程都是这样处理的,样本数据划分为训练样本和测试样本,训练样本用来生成模型,测试样本用来验证准确性。同时这里面的用户的行为事件就是“特征”,分类(是否为流失用户)就是“标签”。

统计学来讲,利用统计方法来建立一个表示变量之间相互关系的方程,这样的统计方法被称为回归分析。回归算法就可以理解是研究不同变量相关关系的一个机器学习算法。多说一句,其实很多机器学习算法都是来自统计学。回归算法有两个重要的子类:线性回归和逻辑回归。这里从简单线性回归入手介绍,也就是我举得例子只是研究两个样本变量之间的线性关系。假设我们来研究考试成绩和复习时间的关系,数据如下:

我想找出考试成绩和复习时间的规律,怎么找呢?这里就是拟合出一条直线,所以这条直线需要“穿过”所有的点,并且与各个点的距离尽可能的小。解释一下,简单的线性回归一般是使用“最小二乘法”来求解,最小二乘法的思想:假设我们拟合出的直线代表数据的真实值,而观测到的数据代表拥有误差的值。为了尽可能减小误差的影响,需要求解一条直线使所有误差的平方和最小。假设拟合出的这条直线的函数如下:a、b都是直线的参数。

当我有一个绿色的点时,该判断这个肿瘤是恶性的还是良性的呢?根据红蓝点我们训练出了一个逻辑回归模型,也就是图中的分类线。这时,根据绿点出现在分类线的左侧,因此我们判断它的标签应该是红色,也就是说属于恶性肿瘤。神经网络算法是80年代机器学习界非常流行的算法,不过在90年代中途衰落。现在,携着“深度学习”之势,神经网络重装归来,重新成为最强大的机器学习算法之一。神经网络的学习机理就是分解与整合。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180716A1OKI500?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券