🚀 机器学习基础知识分享：从核心概念到 KNN 与决策树实战

原创

math chen

修改于 2025-11-27 08:29:43

210

导语

在 ChatGPT 火遍全球的今天，人工智能再次站在了聚光灯下。作为技术人，我们该如何厘清 AI、机器学习（ML）与深度学习（DL）的关系？一个标准的模型是如何诞生的？

本文将带你拨开迷雾，从基础概念出发，深入浅出地解析机器学习的核心要素与评估方法，并手把手拆解 KNN 与决策树两大经典算法。

01. 拨开迷雾：机器学习的定位与核心

1. 厘清 AI、ML 与 DL 的“套娃”关系

这三个高频词汇并非并列关系，而是一个层层包含的同心圆：

● 🤖 人工智能 (AI)：最宏大的概念，涵盖所有机器表现出的智能行为。

● 🧠 机器学习 (ML)：AI 的核心子集，重点在于让机器从数据中自动学习规律，而非人工编写死规则。

● 🕸️ 深度学习 (DL)：ML 的一个子集，特指基于深度神经网络模型的学习方法。

2. 机器学习的三大基石

任何 ML 任务都离不开这三个要素的支撑：

1. 数据 (Data)：燃料。不仅是 Excel 表格，图片、视频、文本等非结构化数据皆可是数据。

2. 模型 (Model)：引擎。我们要寻找的输入 X 与输出 Y 之间的关系函数，即 Y = F(X)。

3. 算法 (Algorithm)：调校工具。用于求解模型的最优化方法，目的是找到那个最优的 F(X)。

3. 四大内核技术图谱

机器学习解决的问题主要分为四类，对应不同的业务场景：

技术分类	核心逻辑	业务应用示例
分类 (Classification)	预测离散标签 (A or B)	用户画像、垃圾邮件过滤、风险识别
聚类 (Clustering)	无监督发现数据结构	市场细分、相似用户挖掘
异常检测 (Anomaly Detection)	识别偏离常规的点	金融风控、欺诈检测
回归 (Regression)	预测连续数值	房价预测、销量预估

💡 注：在实际业务中，“行业画像”通常是对确定行业的特征描述，而“用户画像”则常利用分类或聚类算法将用户划分不同群体。

02. 机器学习的“流水线” (基本流程)

一个标准的机器学习项目，通常遵循以下四个步骤的闭环：

1. 🧹 数据预处理

a. 数据清洗、格式转换。这是最耗时但也最重要的一步，数据的质量直接决定模型的上限。

2. ⚙️ 模型学习 (Training)

a. 选择合适的算法，利用训练数据构建模型 Y = F(X)。

3. 📊 模型评估 (Evaluation)

a. 使用测试集（Test Set）来“考试”，评估模型的准确率和泛化能力。

4. 🎯 新样本预测 (Prediction)

a. 模型上线，对未知的全新样本进行预测。

03. 学习范式与核心术语

1. 三种主要学习方式

● 监督学习 (Supervised Learning)

○ 特点：数据自带标签 (Label)，像是“有的放矢”。

○ 栗子：已知数据集包含 {姓名, 性别, 人品标签}。我们用（吴迪-好人）、（凯里-坏人）的数据训练模型，去判断新样本（王峭）是好人还是坏人。

● 无监督学习 (Unsupervised Learning)

○ 特点：数据没有标签，机器自己找规律。

○ 栗子：只知道一群人的特征，不知道谁好谁坏。算法自动根据特征相似度将他们分成两类（聚类）。

● 强化学习 (Reinforcement Learning)

○ 特点：通过与环境交互，追求长期奖励最大化。

○ 场景：王者荣耀 AI、机器人导航、自动驾驶。

2. 核心术语速查

● 样本 (Sample)：一条数据记录（如：{吴迪, 女}）。

● 特征 (Feature)：数据的属性维度（如：性别）。

● 标记 (Label)：我们要预测的答案（如：好人）。

● 泛化能力 (Generalization)：模型“举一反三”的能力，即在从未见过的数据上的表现。

04. 模型的评估与选择

1. 怎么考试？(数据集划分)

为了验证模型是否有效，我们绝不能只看它在训练题上的表现，必须安排“期末考试”。

● 留出法：直接将数据按比例（如 7:3）切分为训练集和测试集。

● 交叉验证法：轮流做测试集，更科学，减少偶然性。

2. 两种常见的“失败”

我们在训练时追求的是一种“刚刚好”的状态：

● 欠拟合 (Underfitting)：模型太笨（简单），偏差大，连训练集的规律都没学会。

● 过拟合 (Overfitting)：模型太钻牛角尖（复杂），方差大。训练集满分，测试集不及格（死记硬背，不会变通）。

⚠️ 注意：过于复杂的模型（如某些参数下的 XGBoost）不仅容易过拟合，还会消耗大量内存和算力，这也是选择模型时的重要成本考量。

3. 怎么打分？(评估指标)

📉 回归问题 (预测数值)

关注误差的大小，越接近 0 越好：

● MAE (平均绝对误差)

● MSE (均方误差)

⚖️ 分类问题 (预测类别)

● Accuracy (准确率)：整体猜对的比例。

● Precision (精确率) & Recall (召回率)：这两个指标通常此消彼长。

● F1-Score：精确率与召回率的调和平均数。它是衡量模型综合性能的关键指标。

05. 经典算法实战拆解

1. KNN 算法 (K-Nearest Neighbors)

核心思想：“近朱者赤，近墨者黑”。

这是一个逻辑非常朴素的算法，既可分类也可回归。

● 步骤：

○ 计算未知样本与所有训练样本的距离。

○ 找到距离最近的 K 个邻居。

○ 投票：这 K 个邻居里谁多，我就属于谁。

● 关键点：

○ K=1 (最近邻)：对噪声极度敏感，容易过拟合。

○ K值选取：K 越大抗噪越强，但可能模糊边界。二分类通常取奇数（防平票）。

● 🎬 电影分类案例：

○ 若新电影的特征（接吻镜头多、打斗少）离“爱情片”阵营的数据点更近，它就被归类为爱情片。

2. 决策树模型 (Decision Tree)

核心思想：模仿人类的决策逻辑，像树一样分叉。

它通过一系列的 If-Then 判断条件进行分流，逻辑清晰且可解释性极强。

● 结构：

○ 根节点：起点判断。

○ 内部节点：中间的过滤条件。

○ 叶节点：最终决定。

● 👖 买裤子决策案例：

我们构建一棵树来决定是否买一条裤子：

○ (根节点) 面料是牛仔吗？是则继续，否则不买。

○ (内部节点) 版型是修身吗？是则继续，否则不买。

○ (内部节点) 价格 < 400元吗？是则 [买]，否则 [不买]。

📝 结语

机器学习看似高深，其实质是利用数学工具在数据中寻找 Y 与 X 的映射规律。无论是简单的 KNN、直观的决策树，还是复杂的深度神经网络，理解数据、掌握评估方法、避免过拟合始终是贯穿其中的核心主线。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

学习方法

算法

机器学习

人工智能

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

登录后参与评论

0 条评论

热度