首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >🚀 机器学习基础知识分享:从核心概念到 KNN 与决策树实战

🚀 机器学习基础知识分享:从核心概念到 KNN 与决策树实战

原创
作者头像
math chen
修改2025-11-27 08:29:43
修改2025-11-27 08:29:43
210
举报

导语

在 ChatGPT 火遍全球的今天,人工智能再次站在了聚光灯下。作为技术人,我们该如何厘清 AI、机器学习(ML)与深度学习(DL)的关系?一个标准的模型是如何诞生的?

本文将带你拨开迷雾,从基础概念出发,深入浅出地解析机器学习的核心要素与评估方法,并手把手拆解 KNN 与决策树两大经典算法。

01. 拨开迷雾:机器学习的定位与核心

1. 厘清 AI、ML 与 DL 的“套娃”关系

这三个高频词汇并非并列关系,而是一个层层包含的同心圆:

● 🤖 人工智能 (AI):最宏大的概念,涵盖所有机器表现出的智能行为。

● 🧠 机器学习 (ML):AI 的核心子集,重点在于让机器从数据中自动学习规律,而非人工编写死规则。

● 🕸️ 深度学习 (DL):ML 的一个子集,特指基于深度神经网络模型的学习方法。

2. 机器学习的三大基石

任何 ML 任务都离不开这三个要素的支撑:

1. 数据 (Data):燃料。不仅是 Excel 表格,图片、视频、文本等非结构化数据皆可是数据。

2. 模型 (Model):引擎。我们要寻找的输入 X 与输出 Y 之间的关系函数,即 Y = F(X)。

3. 算法 (Algorithm):调校工具。用于求解模型的最优化方法,目的是找到那个最优的 F(X)。

3. 四大内核技术图谱

机器学习解决的问题主要分为四类,对应不同的业务场景:

技术分类

核心逻辑

业务应用示例

分类 (Classification)

预测离散标签 (A or B)

用户画像、垃圾邮件过滤、风险识别

聚类 (Clustering)

无监督发现数据结构

市场细分、相似用户挖掘

异常检测 (Anomaly Detection)

识别偏离常规的点

金融风控、欺诈检测

回归 (Regression)

预测连续数值

房价预测、销量预估

💡 :在实际业务中,“行业画像”通常是对确定行业的特征描述,而“用户画像”则常利用分类聚类算法将用户划分不同群体。

02. 机器学习的“流水线” (基本流程)

一个标准的机器学习项目,通常遵循以下四个步骤的闭环:

1. 🧹 数据预处理

a. 数据清洗、格式转换。这是最耗时但也最重要的一步,数据的质量直接决定模型的上限。

2. ⚙️ 模型学习 (Training)

a. 选择合适的算法,利用训练数据构建模型 Y = F(X)。

3. 📊 模型评估 (Evaluation)

a. 使用测试集(Test Set)来“考试”,评估模型的准确率和泛化能力。

4. 🎯 新样本预测 (Prediction)

a. 模型上线,对未知的全新样本进行预测。

03. 学习范式与核心术语

1. 三种主要学习方式

监督学习 (Supervised Learning)

特点:数据自带标签 (Label),像是“有的放矢”。

栗子:已知数据集包含 {姓名, 性别, 人品标签}。我们用(吴迪-好人)、(凯里-坏人)的数据训练模型,去判断新样本(王峭)是好人还是坏人。

无监督学习 (Unsupervised Learning)

特点:数据没有标签,机器自己找规律。

栗子:只知道一群人的特征,不知道谁好谁坏。算法自动根据特征相似度将他们分成两类(聚类)。

强化学习 (Reinforcement Learning)

特点:通过与环境交互,追求长期奖励最大化

场景:王者荣耀 AI、机器人导航、自动驾驶。

2. 核心术语速查

样本 (Sample):一条数据记录(如:{吴迪, 女})。

特征 (Feature):数据的属性维度(如:性别)。

标记 (Label):我们要预测的答案(如:好人)。

泛化能力 (Generalization):模型“举一反三”的能力,即在从未见过的数据上的表现。

04. 模型的评估与选择

1. 怎么考试?(数据集划分)

为了验证模型是否有效,我们绝不能只看它在训练题上的表现,必须安排“期末考试”。

留出法:直接将数据按比例(如 7:3)切分为训练集和测试集。

交叉验证法:轮流做测试集,更科学,减少偶然性。

2. 两种常见的“失败”

我们在训练时追求的是一种“刚刚好”的状态:

欠拟合 (Underfitting):模型太笨(简单),偏差大,连训练集的规律都没学会。

过拟合 (Overfitting):模型太钻牛角尖(复杂),方差大。训练集满分,测试集不及格(死记硬背,不会变通)。

⚠️ 注意:过于复杂的模型(如某些参数下的 XGBoost)不仅容易过拟合,还会消耗大量内存和算力,这也是选择模型时的重要成本考量。

3. 怎么打分?(评估指标)

📉 回归问题 (预测数值)

关注误差的大小,越接近 0 越好:

MAE (平均绝对误差)

MSE (均方误差)

⚖️ 分类问题 (预测类别)

Accuracy (准确率):整体猜对的比例。

Precision (精确率) & Recall (召回率):这两个指标通常此消彼长。

F1-Score:精确率与召回率的调和平均数。它是衡量模型综合性能的关键指标。

05. 经典算法实战拆解

1. KNN 算法 (K-Nearest Neighbors)

核心思想:“近朱者赤,近墨者黑”。

这是一个逻辑非常朴素的算法,既可分类也可回归。

步骤

○ 计算未知样本与所有训练样本的距离。

○ 找到距离最近的 K 个邻居。

投票:这 K 个邻居里谁多,我就属于谁。

关键点

K=1 (最近邻):对噪声极度敏感,容易过拟合。

K值选取:K 越大抗噪越强,但可能模糊边界。二分类通常取奇数(防平票)。

🎬 电影分类案例

○ 若新电影的特征(接吻镜头多、打斗少)离“爱情片”阵营的数据点更近,它就被归类为爱情片。

2. 决策树模型 (Decision Tree)

核心思想:模仿人类的决策逻辑,像树一样分叉。

它通过一系列的 If-Then 判断条件进行分流,逻辑清晰且可解释性极强

结构

根节点:起点判断。

内部节点:中间的过滤条件。

叶节点:最终决定。

● 👖 买裤子决策案例:

我们构建一棵树来决定是否买一条裤子:

(根节点) 面料是牛仔吗? 是则继续,否则不买。

(内部节点) 版型是修身吗? 是则继续,否则不买。

(内部节点) 价格 < 400元吗? 是则 [买],否则 [不买]

📝 结语

机器学习看似高深,其实质是利用数学工具在数据中寻找 Y 与 X 的映射规律。无论是简单的 KNN、直观的决策树,还是复杂的深度神经网络,理解数据、掌握评估方法、避免过拟合始终是贯穿其中的核心主线。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 01. 拨开迷雾:机器学习的定位与核心
    • 1. 厘清 AI、ML 与 DL 的“套娃”关系
    • 2. 机器学习的三大基石
    • 3. 四大内核技术图谱
  • 02. 机器学习的“流水线” (基本流程)
  • 03. 学习范式与核心术语
    • 1. 三种主要学习方式
    • 2. 核心术语速查
  • 04. 模型的评估与选择
    • 1. 怎么考试?(数据集划分)
    • 2. 两种常见的“失败”
    • 3. 怎么打分?(评估指标)
  • 05. 经典算法实战拆解
    • 1. KNN 算法 (K-Nearest Neighbors)
    • 2. 决策树模型 (Decision Tree)
    • 📝 结语
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档