开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

训练CNN后准确率较低

可能是由于以下原因：

数据集质量不高：训练模型的数据集可能存在噪声、标签错误或不平衡的问题。建议使用高质量、多样性的数据集，并进行数据预处理、数据增强等技术来改善数据集质量。
模型复杂度不合适：CNN模型可能过于简单或过于复杂，导致欠拟合或过拟合。可以尝试增加模型的深度或宽度，或者使用正则化技术（如Dropout、L1/L2正则化）来优化模型复杂度。
学习率设置不当：学习率过高或过低都可能导致训练困难或收敛速度慢。可以尝试使用学习率调度策略（如学习率衰减、动态调整学习率）来优化学习率设置。
训练样本不足：CNN模型需要足够的训练样本来学习特征和模式。如果训练样本较少，可以考虑使用迁移学习或数据增强等技术来扩充训练样本。
训练时间不足：CNN模型可能需要更长的训练时间来达到更高的准确率。可以尝试增加训练迭代次数或使用更强大的硬件（如GPU）来加速训练过程。
参数初始化不当：CNN模型的参数初始化可能不合适，导致训练困难或陷入局部最优。可以尝试使用不同的参数初始化方法（如Xavier、He等）来改善模型的初始化效果。
激活函数选择不当：CNN模型的激活函数选择可能不合适，导致梯度消失或梯度爆炸等问题。可以尝试使用其他激活函数（如ReLU、Leaky ReLU、ELU等）来改善模型的非线性表达能力。
优化器选择不当：CNN模型的优化器选择可能不合适，导致训练困难或收敛速度慢。可以尝试使用其他优化器（如Adam、RMSprop等）来改善优化过程。
特征提取不充分：CNN模型可能没有充分提取图像的特征信息，导致准确率较低。可以尝试增加模型的深度或使用更复杂的卷积核来提取更丰富的特征。
类别不平衡：如果训练数据集中的类别分布不平衡，模型可能更倾向于预测数量较多的类别，导致准确率较低。可以尝试使用类别平衡技术（如过采样、欠采样、类别权重调整）来处理类别不平衡问题。

腾讯云相关产品和产品介绍链接地址：

数据集质量改善：腾讯云数据万象（https://cloud.tencent.com/product/ci）
模型训练加速：腾讯云AI加速器（https://cloud.tencent.com/product/ai）
数据增强：腾讯云数据增强（https://cloud.tencent.com/product/daug）
迁移学习：腾讯云迁移学习（https://cloud.tencent.com/product/mlt）
模型部署与推理：腾讯云AI推理（https://cloud.tencent.com/product/aii）
模型优化：腾讯云AI优化（https://cloud.tencent.com/product/aiop）
图像处理：腾讯云图像处理（https://cloud.tencent.com/product/imgpro）
机器学习平台：腾讯云机器学习（https://cloud.tencent.com/product/tiia）
人工智能服务：腾讯云人工智能（https://cloud.tencent.com/product/ai）
数据分析与挖掘：腾讯云数据分析（https://cloud.tencent.com/product/dm）
云计算基础设施：腾讯云云服务器（https://cloud.tencent.com/product/cvm）
安全服务：腾讯云安全（https://cloud.tencent.com/product/safe）
数据库服务：腾讯云数据库（https://cloud.tencent.com/product/cdb）
存储服务：腾讯云对象存储（https://cloud.tencent.com/product/cos）
区块链服务：腾讯云区块链（https://cloud.tencent.com/product/baas）
物联网服务：腾讯云物联网（https://cloud.tencent.com/product/iot）
移动开发服务：腾讯云移动开发（https://cloud.tencent.com/product/mad）
音视频处理：腾讯云音视频处理（https://cloud.tencent.com/product/vod）
云原生服务：腾讯云容器服务（https://cloud.tencent.com/product/tke）
元宇宙服务：腾讯云元宇宙（https://cloud.tencent.com/product/mu）

相关搜索:CNN仅在本地GPU上准确率较低准确率较低，即预测准确率为52%，而训练期间的训练和验证准确率约为92%为什么在训练CNN时准确率不会提高？Tensorflow CNN零准确率？CNN准确率与损失选择如何训练分类CNN？准确率等于0 CNN Python Keras 基于Keras MNIST示例训练CNN连体网络时，验证准确率停留在0.50 同一CNN上的不同准确率 Tensorflow中的CNN训练错误如何标记CNN的训练数据？使用Prelu激活函数训练CNN MNIST上LeNet CNN的准确率非常低 CNN验证准确率很高，但预测能力很差？训练二进制CNN (Keras) -训练时间较慢经过训练的SVM的训练准确率为0%Caffe CNN训练过程陷入循环如何在CNN中训练卷积内核？CNN训练模型未正确保存训练CNN不相容的形状

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

把CNN里的乘法全部去掉会怎样？华为提出移动端部署神经网络新方法

深度学习模型，尤其是深度卷积神经网络（DCNN），在多个计算机视觉应用中获得很高的准确率。但是，在移动环境中部署时，高昂的计算成本和巨大的耗电量成为主要瓶颈。而大量使用乘法的卷积层和全连接层正是计算成本的主要贡献者。

01

把CNN里的乘法全部去掉会怎样？华为提出移动端部署神经网络新方法

深度学习模型，尤其是深度卷积神经网络（DCNN），在多个计算机视觉应用中获得很高的准确率。但是，在移动环境中部署时，高昂的计算成本和巨大的耗电量成为主要瓶颈。而大量使用乘法的卷积层和全连接层正是计算成本的主要贡献者。

02

大规模图像检索的深度哈希方法简介

传统的图像检索过程，先通过人工对图像进行文字标注，再利用关键字来检索图像，这种依据图像描述的字符匹配程度提供检索结果的方法，称为“以字找图”(text-based image retrieval)，既耗时又主观多义。如今每一秒都有数百万图片通过各种渠道上传到各种大规模存储设备中。给定一张查询图片，快速从百万量级的图像数据库中通过图像特征来找出内容相近的一定数量的图片，这种任务被称为“基于内容的图像检索”(content-based image retrieval (CBIR))，是目前非常流行的研究方向。

不是每张图都要高清，华为诺亚动态分辨率网络入选NeurIPS 2021

该论文指出识别每张图片所需要的最小分辨率是不同的，而现有方法并没有充分挖掘输入分辨率的冗余性，也就是说输入图片的分辨率不应该是固定的。论文进一步提出了一种动态分辨率网络 DRNet，其分辨率根据输入样本的内容动态决定。一个计算量可以忽略的分辨率预测器和我们所需要的图片分类网络一起优化训练。在推理过程中，每个输入分类网络的图像将被调整到分辨率预测器所预测的分辨率，以最大限度地减少整体计算负担。

01

用TensorFlow做Kaggle“手写识别”达到98%准确率-详解

这是一个TensorFlow的系列文章，本文是第三篇，在这个系列中，你讲了解到机器学习的一些基本概念、TensorFlow的使用，并能实际完成手写数字识别、图像分类、风格迁移等实战项目。文

09

MLP回归，无需卷积、自注意力，纯多层感知机视觉架构媲美CNN、ViT

计算机视觉的发展史证明，规模更大的数据集加上更强的计算能力往往能够促成范式转变。虽然卷积神经网络已经成为计算机视觉领域的标准，但最近一段时间，基于自注意力层的替代方法 Vision Transformer（ViT）实现新的 SOTA 性能。从技术上讲，ViT 模型延续了长久以来去除模型中手工构建特征和归纳偏置的趋势，并进一步依赖基于原始数据的学习。

02

无需额外数据，首次实现ImageNet 87.1% 精度，颜水成团队开源VOLO

机器之心专栏 Sea AI Lab (SAIL) 团队 VOLO 是第一个在 ImageNet 上无需额外数据达到 87.1% top-1 准确率的模型，进一步拉近了视觉 Transformer 与最顶级 CNN 模型的性能距离。近十年来，计算机视觉识别任务一直由卷积神经网络 (CNN) 主导。尽管最近流行的视觉 Transformer 在基于 self-attention 的模型中显示出巨大的潜力，但是在没有提供额外数据的情况下，比如在 ImageNet 上的分类任务，它们的性能仍然不如最新的 SOTA

03

NeurIPS 2019论文解读：学习一个模仿小鼠视觉系统的CNN

当前的基于 CNN 的图像识别模型确实能在许多任务中得到很高的识别准确率、也得到了许多实际应用，但 CNN 模型的泛化性和鲁棒性仍然远逊于人类视觉 —— 面对经过细微修改的、或者带有噪声的图像，人类的视觉识别几乎不受影响，而 CNN 的识别准确率则可能大幅波动；场景和视角也能显著影响 CNN 的表现，更别提从很少的样本学习物体识别了。

02

想入门设计卷积神经网络？这是一份综合设计指南

作者：George Seif 机器之心编译参与：Nurhachu Null、刘晓坤这篇文章可以作为一个设计指南，为特定分类任务的 CNN 设计提供指导。作者围绕准确率、速度、内存消耗三个指标的权衡，从网络类型、架构设计、数据处理和迁移学习等方面介绍了 CNN 设计过程中使用的方法。你想开始做图像分类，但是无从着手。应该使用哪个预训练网络？如何修改网络以使其满足需求？你的网络应该包含 20 层还是 100 层？哪些是最快的、最准确的？这些是你为图像分类选择最好的 CNN 时会遇到的众多问题。当选择

04

目标检测：速度和准确性比较（Fater R-CNN，R-FCN，SSD，FPN，RetinaNet和YOLOv3）

文章来源：https://zhuanlan.zhihu.com/p/91719437

01

基于Yolov8网络进行目标检测（一）-介绍和预测

之前提到过目标检测模型分为两类。一类是two-stage，将物体识别和物体定位分为两个步骤分别完成，这一类的典型代表是R-CNN, fast R-CNN, faster-RCNN家族。他们识别错误率低，漏识别率也较低，但是由于网络结构参数的计算量大，导致其检测速度慢，不能满足实时检测场景。为了解决精度与速度并存的问题，另一类方式出现了，称为one-stage, 典型代表是Yolo, SSD, YoloV2等。此类方法使用基于回归方法的思想，直接在输入图像的多个位置中回归出这个位置的区域框坐标和物体类别，他们识别速度很快，可以达到实时性要求，而且准确率也基本能达到faster R-CNN的水平。

02

Meta研究人员利用人工智能解码脑电语音信号（全文解读）

最近，Meta团队提出一种通过非侵入式脑磁(电)图(magneto- or electro- encephalography, M/EEG)解码语言的方法。具体地，首先使用深度学习方法对语音输入和对应的脑电(磁)图信号进行解码，得到深层次的特征表示；然后，应用对比学习策略匹配两种模态的潜在特征表示；最终，在四个公共数据集上评估了该模型，该模型可以从3s的MEG信号中识别相应的语音段进行识别，TOP-10的准确率高达72.5%（TOP-1的正确率为44%），在EEG信号的TOP-10准确率为19.1% (允许测试集中存在训练集中不存在的短语)。

03

【深度学习】深度图像检测算法总结与对比

一. R-CNN：Rich feature hierarchies for accurate object detection and semantic segmentation

04

英伟达开源新Backbone涨点方法STL | 让FAN Backbone直接登顶ImageNet-1K等数据集榜单

视觉 Transformer （ViTs）在视觉识别任务上近期取得了显著的成功。这种成功不仅归因于它们的自注意力表示，也归功于新开发的训练配置。例如，在训练技术方面的改进，如强大的数据增强和知识蒸馏，大大缓解了ViTs的耗数据问题，使其对于在ImageNet-1K上的训练更加可行。

01

用于 BCI 信号分类的深度特征的 Stockwell 变换和半监督特征选择

在过去的几年里，运动图像 (MI) 脑电图 (EEG) 信号的处理已被吸引到开发脑机接口 (BCI) 应用程序中，因为这些信号的特征提取和分类由于其固有的复杂性和倾向于人为它们的属性。BCI 系统可以提供大脑和外围设备之间的直接交互路径/通道，因此基于 MI EEG 的 BCI 系统对于控制患有运动障碍的患者的外部设备似乎至关重要。目前的研究提出了一种基于三阶段特征提取和机器学习算法的半监督模型，用于 MI EEG 信号分类，以通过更少的深度特征来提高分类精度，以区分左右手 MI 任务。在所提出的特征提取方法的第一阶段采用斯托克韦尔变换从一维 EEG 信号生成二维时频图 (TFM)。接下来，应用卷积神经网络 (CNN) 从 TFM 中寻找深度特征集。然后，使用半监督判别分析（SDA）来最小化描述符的数量。最后，五个分类器的性能，包括支持向量机、判别分析、在所提出的特征提取方法的第一阶段采用斯托克韦尔变换从一维 EEG 信号生成二维时频图 (TFM)。接下来，应用卷积神经网络 (CNN) 从 TFM 中寻找深度特征集。然后，使用半监督判别分析（SDA）来最小化描述符的数量。最后，五个分类器的性能，包括支持向量机、判别分析、在所提出的特征提取方法的第一阶段采用斯托克韦尔变换从一维 EEG 信号生成二维时频图 (TFM)。接下来，应用卷积神经网络 (CNN) 从 TFM 中寻找深度特征集。然后，使用半监督判别分析（SDA）来最小化描述符的数量。最后，五个分类器的性能，包括支持向量机、判别分析、k近邻、决策树、随机森林，以及它们的融合比较。SDA 和提到的分类器的超参数通过贝叶斯优化进行优化，以最大限度地提高准确性。所提出的模型使用 BCI 竞赛 II 数据集 III 和 BCI 竞赛 IV 数据集 2b 进行验证。所提出方法的性能指标表明其对 MI EEG 信号进行分类的效率。

02

2023年为何YOLO成为最热门视觉检测技术？猫头虎带您揭秘其背后的原因！

🔍 在2023年，YOLO（You Only Look Once）技术在计算机视觉领域成为炙手可热的明星。从实时处理速度到准确率的大幅提升，YOLO在众多领域展现了其非凡的实力。本文将深入探讨YOLO的原理，实现方式，以及它如何在众多竞争技术中脱颖而出。无论你是AI初学者还是领域大佬，都能从这篇文章中获得有价值的洞见。关键词：计算机视觉，实时检测，YOLO算法，深度学习，AI技术，模型优化。

01

[知乎作答]·关于在Keras中多标签分类器训练准确率问题

本文来自知乎问题关于在CNN中文本预测sigmoid分类器训练准确率的问题？中笔者的作答，来作为Keras中多标签分类器的使用解析教程。

02

模型部署系列 | 卷积Backbone量化技巧集锦

本文首发于【集智书童】，白名单账号转载请自觉植入本公众号名片并注明来源，非白名单账号请先申请权限，违者必究。

04

即插即用新卷积：提升CNN性能、速度翻倍

近期，来自 Facebook AI、新加坡国立大学、奇虎 360 的研究人员联合提出了一种新的卷积操作 (OctConv)，用于替代现有的通用卷积。这款新卷积不仅占用更少的内存和计算，还有助于提高性能。

03

评测 | CNTK在Keras上表现如何？能实现比TensorFlow更好的深度学习吗？

选自MiniMaxir 作者：Max Woolf 机器之心编译参与：Jane W、吴攀 Keras 是由 François Chollet 维护的深度学习高级开源框架，它的底层基于构建生产级质量的深度学习模型所需的大量设置和矩阵代数。Keras API 的底层基于像 Theano 或谷歌的 TensorFlow 的较低级的深度学习框架。Keras 可以通过设置 flag 自由切换后端（backend）引擎 Theano/TensorFlow；而不需要更改前端代码。虽然谷歌的 TensorFlow 已广受

05

DNN/LSTM/Text-CNN情感分类实战与分析

最近把2014年Yoon Kim的《Convolutional Neural Networks for Sentence Classification》看了下，不得不说虽然Text-CNN思路比较简单，但确实能够在Sentence Classification上取得很好的效果。另外，之前@霍华德大神提了这个问题，链接如下：

03

脑机接口新应用，利用深度学习对无声语音信号解码

浙江大学、中国矿业大学和伦敦大学的研究人员研究了可用于识别神经肌肉信号的空间特征和解码器。具体来说，研究人员提出了利用迁移学习和深度学习的方法，将表面肌电信号数据转换为包含丰富的时频域信息的声谱图。对于迁移学习，在大型图像数据集上使用一个预先训练好的Xception模型来生成特征。然后利用提取的特征对三种深度学习方法(MLP、CNN和bLSTM)进行训练，并对其进行评价，以识别词集中的发音肌肉运动。所提出的解码器成功地识别了无声语音，双向长短时记忆的准确率达到了90%，优于其他两种算法。实验结果验证了谱图特征和深度学习算法的有效性。

02

AAAI2021 | 在手机上实现19FPS实时的YOLObile目标检测，准确率超高

随着近年来 CNN 在目标检测领域的发展和创新，目标检测有了更加广泛的应用。考虑到在实际场景中的落地需求，目标检测网络往往需要在保持高准确率的同时拥有较低的计算延迟。而现有的目标检测网络，在资源有限的平台上，尤其是手机和嵌入式设备上部署这类应用时，很难同时实现高准确率与实时检测。

02

AAAI2021 | 在手机上实现19FPS实时的YOLObile目标检测，准确率超高

机器之心专栏机器之心编辑部本文提出了一套模型压缩和编译结合的目标检测加速框架，根据编译器的硬件特性而设计的剪枝策略能够在维持高 mAP 的同时大大提高运行速度，压缩了 14 倍的 YOLOv4 能够在手机上达到 19FPS 的运行速度并且依旧维持 49mAP（COCO dataset）的高准确率。相比 YOLOv3 完整版，该框架快出 7 倍，并且没有牺牲准确率。该框架由美国东北大学王言治研究组和威廉玛丽学院任彬研究组共同提出。随着近年来 CNN 在目标检测领域的发展和创新，目标检测有了更加广泛的应

01

CVPR 2020 | 一种频域深度学习

深度神经网络在计算机视觉任务中取得了显著的成功。对于输入图片，现有的神经网络主要在空间域中操作，具有固定的输入尺寸。然而在实际应用中，图像通常很大，必须被降采样到神经网络的预定输入尺寸。尽管降采样操作可以减少计算量和所需的通信带宽，但它会无意识地移除冗余和非冗余信息，导致准确性下降。受数字信号处理理论的启发，我们从频率的角度分析了频谱偏差，并提出了一种可学习的频率选择方法，可以在不损失准确性的情况下移除次相关的频率分量。在下游任务中，我们的模型采用与经典神经网络（如ResNet-50、MobileNetV2和Mask R-CNN）相同的结构，但接受频域信息作为输入。实验结果表明，与传统的空间降采样方法相比，基于静态通道选择的频域学习方法可以实现更高的准确性，同时能够减少输入数据的大小。具体而言，在相同的输入尺寸下，所提出的方法在ResNet-50和MobileNetV2上分别实现了1.60%和0.63%的top-1准确率提升。当输入尺寸减半时，所提出的方法仍然将ResNet-50的top-1准确率提高了1.42%。此外，我们观察到在COCO数据集上的分割任务中，Mask R-CNN的平均精度提高了0.8%。

04

鬼都藏不住，人脸识别新突破！就算遮住半张脸也能100%被识别

基于计算机的人脸识别已经成为一种成熟且可靠的机制，实际上已被应用于许多访问控制场景，不过目前面部识别或认证，主要使用全正脸面部图像的“完美”数据来执行。但实际上，有许多情况下比如闭路电视摄像机往往只能拍到脸的一侧，或者如果被拍摄者戴了帽子、口罩等遮挡物，就无法获得完整的正脸。因此，使用不完整面部数据的面部识别是一个亟待开发的研究领域。

02

脑机接口新应用，无声语音信号解码

研究人员研究了可用于识别神经肌肉信号的空间特征和解码器。具体来说，研究人员提出了利用迁移学习和深度学习的方法，将表面肌电信号数据转换为包含丰富的时频域信息的声谱图。对于迁移学习，在大型图像数据集上使用一个预先训练好的Xception模型来生成特征。然后利用提取的特征对三种深度学习方法(MLP、CNN和bLSTM)进行训练，并对其进行评价，以识别词集中的发音肌肉运动。所提出的解码器成功地识别了无声语音，双向长短时记忆的准确率达到了90%，优于其他两种算法。实验结果验证了谱图特征和深度学习算法的有效性。

01

【TPAMI重磅综述】 SIFT与CNN的碰撞：万字长文回顾图像检索任务十年探索历程（下篇）

本文是《SIFT Meets CNN: A Decade Survey of Instance Retrieval》的下篇。在上篇中概述了图像检索任务极其发展历程，介绍了图像检索系统的基本架构和设计难点，详细展示了基于图像局部特征（以SIFT为代表）的检索流程以及关键环节的核心算法。

03

如何做深ViT模型？NUS、字节：引入Re-attention机制，实现强大性能

视觉 transformer (ViT) 现已成功地应用于图像分类任务。近日，来自新加坡国立大学和字节跳动美国 AI Lab 的研究者表明，不同于卷积神经网络通过堆叠更多的卷积层来提高性能，ViT 的性能在扩展至更深时会迅速饱和。

02

苹果公司提出Mobile-ViT | 更小、更轻、精度更高，MobileNets或成为历史！！！

轻量级卷积神经网络(CNN)是移动视觉任务的实际应用。他们的空间归纳偏差允许他们在不同的视觉任务中以较少的参数学习表征。然而，这些网络在空间上是局部的。为了学习全局表征，采用了基于自注意力的Vision Transformer(ViTs)。与CNN不同，ViT是heavy-weight。

03

一文全览 | 全览iPhone 12就可以实时推理的移动端ViT

受Transformer模型在自然语言处理（NLP）应用中的成功启发，A.Dosovitskiy、Dosovitski等人介绍了用于计算机视觉（CV）应用的视觉Transformer（ViT）。视觉Transformer模型在ImageNet数据集上显示出77.9%至81.3%的Top-1准确率，并已用于许多下游图像识别任务，如分类、目标检测和分割。

03

基于卷积神经网络(CNN)的中文垃圾邮件检测

本文为 CSDN 优质博文博主：clayanddev http://blog.csdn.net/clayanddev/article/details/70738475 前言文本分类任务是一个经久不衰的课题，其应用包括垃圾邮件检测、情感分析等。传统机器学习的做法是先进行特征工程，构建出特征向量后，再将特征向量输入各种分类模型（贝叶斯、SVM、神经网络等）进行分类。随着深度学习的发展以及RNN、CNN的陆续出现，特征向量的构建将会由网络自动完成，因此我们只要将文本的向量表示输入到网络中就能够完成

02

首个二值量化评测基准来了，北航/NTU/ETH联合提出，论文登ICML 2023

秦浩桐投稿量子位 | 公众号 QbitAI 二值量化可以有效节约AI模型消耗的资源。具体而言，它可以把32位浮点数值压缩到1位，大大降低了存储和运算成本。然而，此前对二值量化模型质量的评测一直停留在理论层面，难以对算法在准确性和效率方面的表现进行全面评估。为此，来自北京航空航天大学、南洋理工大学、苏黎世联邦理工大学的研究者，全新推出了首个二值量化评测基准BiBench。相关论文已被ICML 2023接收。近日，机器学习顶会 ICML 2023接收论文结果已经正式公布。在 6538篇有效投稿中

00

【转】目标检测之YOLO系列详解

YOLO将输入图像分成SxS个格子，若某个物体 Ground truth 的中心位置的坐标落入到某个格子，那么这个格子就负责检测出这个物体。

05

如何使用Keras集成多个卷积网络并实现共同预测

在统计学和机器学习领域，集成方法（ensemble method）使用多种学习算法以获得更好的预测性能（相比单独使用其中任何一种算法）。和统计力学中的统计集成（通常是无穷集合）不同，一个机器学习集成仅由一个离散的可选模型的离散集合组成，但通常拥有更加灵活的结构 [1]。 GitHub 地址：https://github.com/LawnboyMax/keras_ensemblng 使用集成的主要动机是在发现新的假设，该假设不一定存在于构成模型的假设空间中。从经验的角度看，当模型具有显著的多样性时，集成方法倾

09

学界 | 旷视&清华大学提出新型两步检测器Light-Head R-CNN

选自arXiv 机器之心编译参与：路雪、刘晓坤近日，来自旷视和清华的研究者提出一种新型两步检测器 Light-Head R-CNN，改变两步检测器头重脚轻（heavy-head）的设计，实现速度和准确率的双重突破。近期基于 CNN 的目标检测器可以分为一步检测器和两步检测器。一步检测器通常聚焦于快速、高准确率地检测最佳点（sweet-spot）。两步检测器将任务分为两步：第一步（检测器体/body）生成多个 proposal，第二步（检测器头/head）识别 proposal。通常情况下，为了达到最高

06

苹果机器学习开发日记：如何设计能在Apple Watch上实时运行的中文手写识别系统

AI 科技评论按：随着苹果机器学习日记（Apple ML Journal）的开放，苹果分享出的设计自己产品、运用机器学习解决问题的故事也越来越多。近日苹果在上面就放出了一篇关于识别手写中文的文章，介绍

MNIST数据集深度学习实践汇总

严格来说，softmax回归应该不算深度学习，不过这是我用Tensorflow搭建的第一个模型，所以如果你之前没接触过Tensorflow，我觉得softmax作为入门的第一个项目是一个不错的选择。

02

干货|TensorFlow数据量少的时候却占GPU显存比较多

最近在做一个文本多分类的项目，来源于实际的需求场景。具体的情况不多说，但是有一点需要说明的是，场景有多个，每个场景下都有自己的数据，这些数据都是短文本数据。不同的是每个场景中含有的数据量不同。一开始我们做的时候是从数据量最大的场景入手，有107万条训练数据，单词有7万多个，分类效果还不错，不做任何数据预处理，测试集上准确率有94%，这个时候显示的GPU显存是700MB。接着做数据量小一点儿的场景，有70几万条数据，单词有6万多个，发现这个时候的GPU显存有3000多MB。训练时候的参数一模一样。按道理应该单词数多的那个显存比较大才对。而且按照我们的参数计算GPU显存就应该只有几百MB才是正常的。虽然从准确率上看程序应该没问题，但这个问题不解决会让我怀疑自己。

02

不使用残差连接，ICML新研究靠初始化训练上万层标准CNN

深度卷积神经网络（CNN）是深度学习成功的关键。基于 CNN 的架构在计算机视觉、语音识别、自然语言处理以及最近的围棋博弈等多个领域取得了前所未有的准确率。

00

不使用残差连接，ICML新研究靠初始化训练上万层标准CNN

深度卷积神经网络（CNN）是深度学习成功的关键。基于 CNN 的架构在计算机视觉、语音识别、自然语言处理以及最近的围棋博弈等多个领域取得了前所未有的准确率。

02

用深度学习构建声乐情感传感器

人类的表达是多方面的，复杂的。例如，说话者不仅通过语言进行交流，还通过韵律，语调，面部表情和肢体语言进行交流。这就是为什么更喜欢亲自举行商务会议而不是电话会议，以及为什么电话会议或发短信会优先考虑电话会议。越接近通信带宽就越多。

03

最全整理 | 万字长文综述目标检测领域，您要的，都在这里！

目标检测是计算机视觉中的一个重要问题，近年来传统检测方法已难以满足人们对目标检测效果的要求，随着深度学习在图像分类任务上取得巨大进展，基于深度学习的目标检测算法逐渐成为主流。总体上站长我都做了summary，先上图为敬：

01

谷歌提出新型卷积网络EfficientNet：推理速度提升5.1倍，参数减少88%（附论文&代码）

谷歌提出了一种新型CNN网络EfficientNet，该网络具备极高的参数效率和速度。

03

技巧只能源码找？李沐带你纵览卷积网络实战中的惊艳技艺

作者：Tong He、Zhi Zhang、Hang Zhang、Zhongyue Zhang、Junyuan Xie、Mu Li

04

业界 | 谷歌提出移动端AutoML模型MnasNet：精度无损速度更快

卷积神经网络（CNN）已被广泛用于图像分类、人脸识别、目标检测和其他领域。然而，为移动设备设计 CNN 是一项具有挑战性的工作，因为移动端模型需要体积小、速度快，还要保持精准。尽管人们已经做了大量努力来设计和改进移动端模型，如 MobileNet 和 MobileNetV2，但手动创建高效模型仍然是一项挑战，因为要考虑的因素太多。从最近 AutoML 神经架构搜索方面的进展受到启发，我们在想移动端 CNN 模型的设计是否也能受益于 AutoML 方法。

04

亚马逊：用CNN进行图像分类的Tricks

自 2012 年 AlexNet 大展神威以来，研究者已经提出了各种卷积架构，包括 VGG、NiN、Inception、ResNet、DenseNet 和 NASNet 等，我们会发现模型的准确率正稳定提升。

01

论文解释：Vision Transformers和CNN看到的特征是相同的吗？

点击上方“Deephub Imba”,关注公众号,好文章不错过 ! 近年来，Vision Transformer (ViT) 势头强劲。本文将解释论文《Do Vision Transformers S

02

全新SOTA骨干网络HIRI-ViT | 大力出奇迹，高分辨率+双路径设计，让Backbone卖力生产精度

受到自然语言处理（NLP）[1]中占主导地位的Transformer结构的启发，计算机视觉（CV）领域见证了Vision Transformer（ViT）在视觉 Backbone 设计上的崛起。这一趋势在图像/动作识别[2, 3, 4, 5]和密集预测任务（如目标检测[6]）中表现得最为明显。这些成功中的许多都可以归因于通过传统Transformer块中的自注意力机制对输入视觉token之间的长距离交互的灵活建模。最近，几项并行研究[7, 8, 9, 10, 11]指出，直接在视觉token序列上应用纯Transformer块是次优的。这种设计不可避免地缺乏对2D区域结构建模的正确感应偏差。为了缓解这一限制，它们引领了将卷积神经网络（CNN）的2D感应偏差注入ViT的新浪潮，产生了CNN+ViT混合 Backbone 。

01

检测9000类物体的YOLO9000 更好更快更强

多尺度训练YOLOv2；权衡速度和准确率，运行在不同大小图像上。YOLOv2测试VOC 2007 数据集：67FPS时，76.8mAP；40FPS时，78.6mAP。

04

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭