
导语
在 ChatGPT 火遍全球的今天,人工智能再次站在了聚光灯下。作为技术人,我们该如何厘清 AI、机器学习(ML)与深度学习(DL)的关系?一个标准的模型是如何诞生的?
本文将带你拨开迷雾,从基础概念出发,深入浅出地解析机器学习的核心要素与评估方法,并手把手拆解 KNN 与决策树两大经典算法。
这三个高频词汇并非并列关系,而是一个层层包含的同心圆:
● 🤖 人工智能 (AI):最宏大的概念,涵盖所有机器表现出的智能行为。
● 🧠 机器学习 (ML):AI 的核心子集,重点在于让机器从数据中自动学习规律,而非人工编写死规则。
● 🕸️ 深度学习 (DL):ML 的一个子集,特指基于深度神经网络模型的学习方法。
任何 ML 任务都离不开这三个要素的支撑:
1. 数据 (Data):燃料。不仅是 Excel 表格,图片、视频、文本等非结构化数据皆可是数据。
2. 模型 (Model):引擎。我们要寻找的输入 X 与输出 Y 之间的关系函数,即 Y = F(X)。
3. 算法 (Algorithm):调校工具。用于求解模型的最优化方法,目的是找到那个最优的 F(X)。
机器学习解决的问题主要分为四类,对应不同的业务场景:
技术分类 | 核心逻辑 | 业务应用示例 |
|---|---|---|
分类 (Classification) | 预测离散标签 (A or B) | 用户画像、垃圾邮件过滤、风险识别 |
聚类 (Clustering) | 无监督发现数据结构 | 市场细分、相似用户挖掘 |
异常检测 (Anomaly Detection) | 识别偏离常规的点 | 金融风控、欺诈检测 |
回归 (Regression) | 预测连续数值 | 房价预测、销量预估 |
💡 注:在实际业务中,“行业画像”通常是对确定行业的特征描述,而“用户画像”则常利用分类或聚类算法将用户划分不同群体。
一个标准的机器学习项目,通常遵循以下四个步骤的闭环:
1. 🧹 数据预处理
a. 数据清洗、格式转换。这是最耗时但也最重要的一步,数据的质量直接决定模型的上限。
2. ⚙️ 模型学习 (Training)
a. 选择合适的算法,利用训练数据构建模型 Y = F(X)。
3. 📊 模型评估 (Evaluation)
a. 使用测试集(Test Set)来“考试”,评估模型的准确率和泛化能力。
4. 🎯 新样本预测 (Prediction)
a. 模型上线,对未知的全新样本进行预测。
● 监督学习 (Supervised Learning)
○ 特点:数据自带标签 (Label),像是“有的放矢”。
○ 栗子:已知数据集包含 {姓名, 性别, 人品标签}。我们用(吴迪-好人)、(凯里-坏人)的数据训练模型,去判断新样本(王峭)是好人还是坏人。
● 无监督学习 (Unsupervised Learning)
○ 特点:数据没有标签,机器自己找规律。
○ 栗子:只知道一群人的特征,不知道谁好谁坏。算法自动根据特征相似度将他们分成两类(聚类)。
● 强化学习 (Reinforcement Learning)
○ 特点:通过与环境交互,追求长期奖励最大化。
○ 场景:王者荣耀 AI、机器人导航、自动驾驶。
● 样本 (Sample):一条数据记录(如:{吴迪, 女})。
● 特征 (Feature):数据的属性维度(如:性别)。
● 标记 (Label):我们要预测的答案(如:好人)。
● 泛化能力 (Generalization):模型“举一反三”的能力,即在从未见过的数据上的表现。
为了验证模型是否有效,我们绝不能只看它在训练题上的表现,必须安排“期末考试”。
● 留出法:直接将数据按比例(如 7:3)切分为训练集和测试集。
● 交叉验证法:轮流做测试集,更科学,减少偶然性。
我们在训练时追求的是一种“刚刚好”的状态:
● 欠拟合 (Underfitting):模型太笨(简单),偏差大,连训练集的规律都没学会。
● 过拟合 (Overfitting):模型太钻牛角尖(复杂),方差大。训练集满分,测试集不及格(死记硬背,不会变通)。
⚠️ 注意:过于复杂的模型(如某些参数下的 XGBoost)不仅容易过拟合,还会消耗大量内存和算力,这也是选择模型时的重要成本考量。
📉 回归问题 (预测数值)
关注误差的大小,越接近 0 越好:
● MAE (平均绝对误差)
● MSE (均方误差)
⚖️ 分类问题 (预测类别)
● Accuracy (准确率):整体猜对的比例。
● Precision (精确率) & Recall (召回率):这两个指标通常此消彼长。
● F1-Score:精确率与召回率的调和平均数。它是衡量模型综合性能的关键指标。
核心思想:“近朱者赤,近墨者黑”。
这是一个逻辑非常朴素的算法,既可分类也可回归。
● 步骤:
○ 计算未知样本与所有训练样本的距离。
○ 找到距离最近的 K 个邻居。
○ 投票:这 K 个邻居里谁多,我就属于谁。
● 关键点:
○ K=1 (最近邻):对噪声极度敏感,容易过拟合。
○ K值选取:K 越大抗噪越强,但可能模糊边界。二分类通常取奇数(防平票)。
● 🎬 电影分类案例:
○ 若新电影的特征(接吻镜头多、打斗少)离“爱情片”阵营的数据点更近,它就被归类为爱情片。
核心思想:模仿人类的决策逻辑,像树一样分叉。
它通过一系列的 If-Then 判断条件进行分流,逻辑清晰且可解释性极强。
● 结构:
○ 根节点:起点判断。
○ 内部节点:中间的过滤条件。
○ 叶节点:最终决定。
● 👖 买裤子决策案例:
我们构建一棵树来决定是否买一条裤子:
○ (根节点) 面料是牛仔吗? 是则继续,否则不买。
○ (内部节点) 版型是修身吗? 是则继续,否则不买。
○ (内部节点) 价格 < 400元吗? 是则 [买],否则 [不买]。
机器学习看似高深,其实质是利用数学工具在数据中寻找 Y 与 X 的映射规律。无论是简单的 KNN、直观的决策树,还是复杂的深度神经网络,理解数据、掌握评估方法、避免过拟合始终是贯穿其中的核心主线。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。