算法基础（7）| 主流智能算法概览

用户7623498

发布于 2020-08-04 17:00:18

5950

发布于 2020-08-04 17:00:18

文章被收录于专栏：决策智能与机器学习决策智能与机器学习

0. 来源说明

作者：中国信息通信研究院和中国人工智能产业发展联盟

出处：人工智能发展白皮书技术架构篇（ 2018 年）

编辑：九三山人

1.内容提要

2018年9月，中国信息通信研究院和中国人工智能产业发展联盟联合发布了《人工智能发展白皮书技术架构篇（ 2018 年）》，从产业发展的角度，选择以深度学习算法驱动的人工智能技术为主线，分析作为人工智能发展“三驾马车”的算法、算力和数据的技术现状、问题以及趋势，并对智能语音、语义理解、计算机视觉等基础应用技术进行分析，并提出了目前存在的问题和技术的发展趋势。

本文将其中智能算法有关精彩观点进行摘要。

PDF报告全文下载，请关注公众号并回复：20180917

2.算法的分类归纳：回归、分类和聚类

回归是一种用于连续型数值变量预测和建模的监督学习算法。
分类算法用于分类变量建模及预测的监督学习算法，分类算法往往适用于类别（或其可能性）的预测。
聚类算法基于数据内部结构来寻找样本集群的无监督学习任务，使用案例包括用户画像、电商物品聚类、社交网络分析等。

3.新算法简述：胶囊网络、生成式对抗网络、迁移学习

胶囊网络：受到神经科学的启发，人工智能领军人物 Hinton 提出了胶囊网络的概念。胶囊网络由胶囊而不是由神经元构成，胶囊由一小群神经元组成，输出为向量，向量的长度表示物体存在的估计概率，向量的方向表示物体的姿态参数。理论上更接近人脑的行为。但胶囊网络也存在着计算量大、大图像处理上效果欠佳等问题，有待进一步研究。

生成式对抗网络：该算法核心思想来源于博弈论的纳什均衡，通过生成器和判别器的对抗训练进行迭代优化，目标是学习真实数据的分布，从而可以产生全新的、与观测数据类似的数据。GAN 有生成效率高、设计框架灵活、可生成具有更高质量的样本等优势。但 GAN 仍存在难以训练、梯度消失、模式崩溃等问题。

迁移学习：利用数据、任务或模型之间的相似性，将学习过的模型应用于新领域的一类算法。迁移学习可大大降低深度网络训练所需的数据量，缩短训练时间。其中， Fine-Tune 是深度迁移学习最简单的一种实现方式，通过将一个问题上训练好的模型进行简单的调整使其适用于一个新的问题，具有节省时间成本、模型泛化能力好、实现简单、少量的训练数据就可以达到较好效果的优势，已获得广泛应用。

4.三种典型的算法应用：智能语音、计算机视觉、自然语言处理

智能语音

语音合成技术即让机器开口说话，通过机器自动将文字信息转化为语音，相当于机器的嘴巴； 语音识别技术即让机器听懂人说话，通过机器自动将语音信号转化为文本及相关信息，相当于机器的耳朵； 语音评测技术通过机器自动对发音进行评分、检错并给出矫正指导。此外，还有根据人的声音特征进行身份识别的声纹识别技术，可实现变声和声音模仿的语音转换技术，以及语音消噪和增强技术等。

主要产品：

1）智能音箱类产品提升家庭交互的便利性。

2）个人智能语音助手重塑了人机交互模式。

3）以 API 形式提供的智能语音服务成为行业用户的重要入口。

计算机视觉

图像分类是指为输入图像分配类别标签。自 2012 年采用深度卷积网络方法设计的 AlexNet 夺得 ImageNet 竞赛冠军后，图像分类开始全面采用深度卷积网络。 2015 年，微软提出的 ResNet 采用残差思想，将输入中的一部分数据不经过神经网络而直接进入到输出中，解决了反向传播时的梯度弥散问题，从而使得网络深度达到 152 层，将错误率降低到 3.57%，远低于 5.1%的人眼识别错误率，夺得了ImageNet 大赛的冠军。 2017 年提出的 DenseNet 采用密集连接的卷积神经网络，降低了模型的大小，提高了计算效率，且具有非常好的抗过拟合性能。

目标检测指用框标出物体的位置并给出物体的类别。 2013 年加州大学伯克利分校的 Ross B. Girshick 提出 RCNN 算法之后，基于卷积神经网络的目标检测成为主流。之后的检测算法主要分为两类，一是基于区域建议的目标检测算法，通过提取候选区域，对相应区域进行以深度学习方法为主的分类，如 RCNN、Fast-RCNN、Faster-RCNN、SPP-net 和 Mask R-CNN 等系列方法。二是基于回归的目标检测算法，如 YOLO、 SSD 和 DenseBox 等。

目标跟踪指在视频中对某一物体进行连续标识。基于深度学习的跟踪方法，初期是通过把神经网络学习到的特征直接应用到相关滤波或 Struck 的跟踪框架中，从而得到更好的跟踪结果，但同时也带来了计算量的增加。最近提出了端到端的跟踪框架，虽然与相关滤波等传统方法相比在性能上还较慢，但是这种端到端输出可以与其他的任务一起训练，特别是和检测分类网络相结合，在实际应用中有着广泛的前景。

图像分割指将图像细分为多个图像子区域。 2015 年开始，以全卷积神经网络（ FCN）为代表的一系列基于卷积神经网络的语义分割方法相继提出，不断提高图像语义分割精度，成为目前主流的图像语义分割方法。

主要产品：

1）人脸识别抢先落地，开启“刷脸”新时代。

2）视频结构化崭露头角，拥有广阔应用前景。

3）姿态识别让机器“察言观色”，带来全新人机交互体验。

自然语言处理

自然语言处理主要步骤包括分词、词法分析、语法分析、语义分析等。其中，分词是指将文章或句子按含义，以词组的形式分开，其中英文因其语言格式天然进行了词汇分隔，而中文等语言则需要对词组进行拆分。词法分析是指对各类语言的词头、词根、词尾进行拆分，各类语言中名词、动词、形容词、副词、介词进行分类，并对多种词义进行选择。语法分析是指通过语法树或其他算法，分析主语、谓语、宾语、定语、状语、补语等句子元素。 语义分析是指通过选择词的正确含义，在正确句法的指导下，将句子的正确含义表达出来。

主要产品：

1）文本分类和聚类

2）信息检索和过滤

3）信息抽取

4）问答系统

5）机器翻译