开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

用于序列数据识别的CNN模型的配置-- CNN平行层顶部的体系结构

CNN模型是一种卷积神经网络模型，用于序列数据识别。它的配置包括CNN平行层顶部的体系结构。

CNN平行层顶部的体系结构是指在CNN模型中，平行层之上的网络结构。它通常由全连接层和输出层组成，用于对卷积层提取的特征进行分类或回归。

配置CNN平行层顶部的体系结构需要考虑以下几个方面：

全连接层：全连接层是一种常用的神经网络层，每个神经元与上一层的所有神经元相连。它可以将卷积层提取的特征映射转化为具体的类别或数值输出。全连接层的神经元数量和层数可以根据任务的复杂度和数据集的特点进行调整。
激活函数：在全连接层中，激活函数用于引入非线性特性，增加模型的表达能力。常用的激活函数包括ReLU、Sigmoid和Tanh等。选择合适的激活函数可以提高模型的性能。
输出层：输出层根据具体的任务类型进行设计。对于分类任务，可以使用Softmax函数作为输出层的激活函数，将模型的输出转化为类别的概率分布。对于回归任务，可以使用线性激活函数或其他合适的激活函数。
损失函数：损失函数用于衡量模型预测结果与真实标签之间的差异。对于分类任务，常用的损失函数包括交叉熵损失函数。对于回归任务，可以使用均方误差损失函数。选择合适的损失函数可以优化模型的训练过程。
优化算法：优化算法用于更新模型的参数，使得损失函数达到最小值。常用的优化算法包括随机梯度下降（SGD）、Adam和RMSprop等。选择合适的优化算法可以加快模型的收敛速度和提高模型的性能。

对于序列数据识别任务，CNN模型的配置可以根据具体的需求进行调整。例如，可以增加卷积层和池化层来提取序列数据中的局部特征，然后通过全连接层进行分类或回归。此外，还可以使用Dropout层来减少过拟合的风险。

腾讯云提供了一系列与CNN模型相关的产品和服务，例如腾讯云AI Lab、腾讯云机器学习平台等。这些产品和服务可以帮助开发者快速构建和部署CNN模型，实现序列数据识别等任务。

更多关于腾讯云相关产品和产品介绍的信息，您可以访问腾讯云官方网站：https://cloud.tencent.com/

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

网络运行时间提高100倍，Google使用的AI视频理解架构有多强？

视频理解是一个很有挑战性的问题。由于视频包含时空数据，因此图像的特征表示需要同时提取图像和运动信息。这不仅对自动理解视频语义内容有重要性，还对机器人的感知和学习也至关重要，比如网络视频分类或体育活动识别。就和人类一样，机器人相机的输入很少是静态的快照，而是以连续视频的形式出现。

02

Convolutional neural network architectures for predicting DNA–protein binding

CNN用于基因组学研究的最大优势之一是，它可以探测某一motif（指蛋白质分子具有特定功能的或者作为一个独立结构域一部分相近的二级结构聚合体）是否在指定序列窗口内，这种探测能力非常有利于motif的鉴定，进而有助于结合位点的分类

01

视频架构搜索

Video 机器人技术研究人员Michael S. Ryoo和学生研究员AJ Piergiovanni发布。了解视频是一个具有挑战性的问题。由于视频包含时空数据，因此需要使用其特征表示来抽象外观和运动信息。这不仅对于自动理解视频的语义内容（例如网络视频分类或体育活动识别）必不可少，而且对于机器人的感知和学习也至关重要。就像人类一样，来自机器人摄像机的输入很少是世界的静态快照，而是采用连续视频的形式。

01

基于转移学习的图像识别

算法该如何分辨这只狗可能属于哪个品种？当然小伙伴们可以训练自己的卷积神经网络来对这张图片进行分类，但是通常情况下我们既没有GPU的计算能力，也没有时间去训练自己的神经网络。但是，全世界的各个研究团队（例如牛津，谷歌，微软）都拥有足够的计算能力，时间和金钱，而且以前可能已经解决过一些类似的问题。我们该如何利用他们已经完成的工作呢？现在来让我们了解一个重要的概念——转移学习。

02

CV全新范式 | LSTM在CV领域杀出一条血路，完美超越Swin与ConvNeXt等前沿算法

Vision Transformer成功的原因被认为是由于Self-Attention建模远程依赖的能力。然而，Self-Attention对于Transformer执行视觉任务的有效性有多重要还不清楚。事实上，只基于多层感知器(MLPs)的MLP-Mixer被提议作为ViTs的一个有吸引力的替代方案。

01

【技术白皮书】第三章：文字表格信息抽取模型介绍——实体抽取方法：NER模型（上）

深度学习是一个由多个处理层组成的机器学习领域，用于学习具有多个抽象层次的数据表示。典型的层次是人工神经网络，由前向传递和后向传递组成。正向传递计算来自前一层的输入的加权和，并通过非线性函数传递结果。向后传递是通过导数链规则计算目标函数相对于多层模块堆栈权重的梯度。深度学习的关键优势在于表示学习的能力以及向量表示和神经处理赋予的语义合成能力。这允许机器输入原始数据，并自动发现分类或检测所需的潜在表示和处理。

02

药物设计的深度学习

过去的十年中，深度学习（deeplearning, DL）方法已经非常成功并广泛用于开发几乎每个领域的人工智能（AI）。与传统的机器学习（machine learning, ML）算法相比，DL方法在小分子药物发现和开发方面还有很长的路要走。对于DL研究的推广和应用，例如小分子药物研究和开发，还有很多工作要做。本综述主要讨论了监督学习和非监督学习等几种最强大和主流的体系结构，包括卷积神经网络（CNN）、递归神经网络（RNN）和深度自动编码器网络（DAENs），总结了小分子药物设计中的大部分代表性应用；并简要介绍了如何在这些应用程序中使用DL方法。还强调了关于DL方法利弊的讨论以及我们需要解决的主要挑战。

05

十大深度学习算法的原理解析

深度学习是机器学习的子集，它基于人工神经网络。学习过程之所以是深度性的，是因为人工神经网络的结构由多个输入、输出和隐藏层构成。每个层包含的单元可将输入数据转换为信息，供下一层用于特定的预测任务。得益于这种结构，机器可以通过自身的数据处理进行学习。

02

万字长文 - Nature 综述系列 - 给生物学家的机器学习指南 3 （人工神经网络）

人工神经网络模型得名于这样一个事实，即所拟合的数学模型的形式受到大脑中神经元的连接性和行为的启发，最初设计用于学习大脑的功能。然而，数据科学中常用的神经网络已不再被视为大脑的模型，而是可以在某些应用中提供最先进性能的机器学习模型。近几十年来，由于深度神经网络的架构和训练的快速发展，人们对神经网络模型的兴趣与日俱增。在本节中，我们将介绍基本的神经网络，以及在生物学研究中广泛使用的各种神经网络。其中一些如图4所示。

05

第四范式提出AutoSTR，自动搜索文字识别网络新架构

在最近被ECCV2020接收的论文AutoSTR中，第四范式的研究人员提出了使用网络结构搜索（NAS）技术来自动化设计文本识别网络中的特征序列提取器，以提升文本识别任务的性能。

02

从基本组件到结构创新，67页论文解读深度卷积神经网络架构

【导读】近期一篇CNN综述文章《A Survey of the Recent Architectures of Deep Convolutional Neural Networks 》发布，受到了大家的关注，今天作者对论文中的内容做了中文的解读，帮助大家全面了解CNN架构进展。

01

2012到2020主要的CNN架构总结

CNN被设计用于图像识别任务，最初是用于手写数字识别的挑战（Fukushima 1980，LeCun 1989）。CNN的基本设计目标是创建一个网络，其中网络早期层的神经元将提取局部视觉特征，而后期层的神经元将这些特征组合起来以形成高阶特征。

01

卷积神经网络

在机器学习中，分类器将类别标签分配给数据点。例如，图像分类器针对图像中存在哪些对象产生类别标签（例如，鸟，飞机）。一个卷积神经网络，或CNN的简称，是一种类型的分类，在解决这个问题，其过人之处！

08

Attention的可解释性及其在网络结构中的应用

本文首先讨论了使用注意力的关键神经网络体系结构；接着讨论了在神经网络中加入注意力是如何带来显著的性能提高的，通过Attention的可解释性，对神经网络内部工作的有了更深入的了解；最后讨论了三个应用领域的注意建模的应用。

01

谷歌大脑新技术——多尺度特征金字塔结构用于目标检测

当前最先进的目标检测卷积结构是手动设计的。在这里，我们的目标是学习一个更好的特征金字塔网络结构的目标检测。

02

数据科学家应该知道的10个深度学习的高级架构！

随着深度学习不断地产生新进展，要跟上时代的脚步变得异常困难。几乎每天都有创新，或是产生一种新的深度学习的应用。这篇文章包含了最近深度学习的一些进展。为了保持文章内容的简洁，本文只列出在计算机视觉领域

05

Nat. Commun. | 深度学习探索可编程RNA开关

今天给大家介绍的是一篇发表在Nature Communications 的文章“A deep learning approach to programmable RNA switches”，工程RNA元件是能够检测小分子、蛋白质和核酸（合成生物学成分）的可编程工具。增强深度学习的模式识别可以用于预测合成生物学成分。本文用深度神经网络（DNN）来预测合成生物学中的经典核糖开关模型——toehold开关。为了促进DNN训练，作者在体内合成并表征了涵盖23个病毒基因组和906个人类转录因子的91,534个toehold开关的数据集。经过核苷酸序列训练的DNN表现（R 2 = 0.43–0.70）优于前沿的热力学和动力学模型（R 2 = 0.04–0.15），且允许实行人类可理解的注意力可视化（VIS4Map）识别成功和失败的模式。本文研究表明深度学习方法可用于RNA合成生物学中的功能预测。

05

Google新作 | 详细解读 Transformer那些有趣的特性（建议全文背诵）

近期Vision Transformer（ViT）在各个垂直任务上均表现出非常不错的性能。这些模型基于multi-head自注意力机制，该机制可以灵活地处理一系列图像patches以对上下文cues进行编码。

05

神经架构搜索研究指南，只看这一篇就够了

导读：从训练到用不同的参数做实验，设计神经网络的过程是劳力密集型的，非常具有挑战性，而且常常很麻烦。但是想象一下，如果能够将这个过程实现自动化呢？将这种想象转变为现实，就是本指南的核心内容。我们将探索一系列的研究论文，这些论文试图解决具有挑战性的自动化神经网络设计任务。在本指南中，我们假设读者尝试过使用 Keras 或 TensorFlow 等框架从头开始设计神经网络。

01

无人机遥感深度学习研究综述

Osco, L. P., Junior, J, M., Marques Ramos, A, P., de Castro Jorge, L, A., Fatholahi, S. N., Waterloo, O. C., de Andrade Silva, J., Matsubara, E. T., Gonçalves, W. N., Li, J. (2021) A Review on Deep Learning in UAV Remote Sensing. https://arxiv.org/abs/2101.10861

03

Transformer的潜在竞争对手QRNN论文解读，训练更快的RNN

使用递归神经网络（RNN）序列建模业务已有很长时间了。但是RNN很慢因为他们一次处理一个令牌无法并行化处理。此外，循环体系结构增加了完整序列的固定长度编码向量的限制。为了克服这些问题，诸如CNN-LSTM，Transformer，QRNNs之类的架构蓬勃发展。

03

在浏览器中使用TensorFlow.js

光学字符识别(OCR)是指能够从图像或文档中捕获文本元素，并将其转换为机器可读的文本格式的技术。如果您想了解更多关于这个主题的内容，本文是一个很好的介绍。

01

使用深度学习进行图像去噪

使用深度学习架构会更好的解决这个问题。目前看深度学习远远超过了传统的去噪滤波器。在这篇文章中，我将使用一个案例来逐步解释几种方法，从问题的形成到实现最先进的深度学习模型，然后最终看到结果。

02

谷歌最新提出无需卷积、注意力，纯MLP构成的视觉架构！网友：MLP is All You Need ？

近日，谷歌大脑团队新出了一篇论文，题目为《MLP-Mixer: An all-MLP Architecture for Vision 》，这篇论文是原视觉Transformer（ViT）团队的一个纯MLP架构的尝试。

05

squeezenet 论文阅读

最近对深卷积神经网络 (CNNs) 的研究主要集中在提高计算机视觉数据集的精确度上。对于给定的精度级别, 通常可以用不同的 CNN 体系结构来实现了该精度级别。而具有更少参数的 CNN 体系结构具有以下几个优点:

01

机器翻译新突破！“普适注意力”模型：概念简单参数少，性能大增

目前，最先进的机器翻译系统基于编码器-解码器架构，首先对输入序列进行编码，然后根据输入编码生成输出序列。两者都与注意机制接口有关，该机制基于解码器状态，对源令牌的固定编码进行重新组合。

04

目标检测 | Facebook开源新思路！DETR：用Transformers来进行端到端的目标检测

论文地址：https://arxiv.org/pdf/2005.12872.pdf

03

深度学习架构的对比分析

深度学习的概念源于人工神经网络的研究，含有多个隐藏层的多层感知器是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示，以表征数据的类别或特征。它能够发现数据的分布式特征表示。深度学习是机器学习的一种，而机器学习是实现人工智能的必经之路。

03

图解BERT：通俗的解释BERT是如何工作的

在本文中，我将进一步介绍BERT，这是最流行的NLP模型之一，它以Transformer为核心，并且在许多NLP任务（包括分类，问题回答和NER）上均达到了最先进的性能。

03

从十篇热门学术论文看计算机视觉的未来

原标题 | Ten Trending Academic Papers on the Future of Computer Vision

03

深度学习时间序列异常检测方法

本文全面概述了深度学习用于时间序列异常检测的最新架构，提供了基于策略和模型的方法，并讨论了各种技术的优点和局限性。此外，还举例说明了近年来深度学习在时间序列异常检测中各领域的应用。

01

Nat. Commun | 利用深度学习预测脑年龄

今天给大家介绍Stefansson与Ulfarsson等人在Nature Communications volume上发表的文章“Brain age prediction using deep learning uncovers associated sequence variants”。一个人的预测年龄和实际年龄之间的差异，即预测年龄差(PAD)，是与衰老和脑部疾病相关的一种表型。作者通过深度学习的方法根据大脑结构磁共振成像(MRI)估计年龄,该方法在一个健康的冰岛人的数据集上进行了训练，并利用迁移学习在两个数据集:IXI和UK Biobank上进行了测试,得到了较理想的预测结果。在UK Biobank中，对PAD进行全基因组关联分析（GWAS）,发现了与脑结构相关的序列变体。

02

文本分类综述 | 迈向NLP大师的第一步（上）

Github地址： https://github.com/xiaoqian19940510/text-classification-surveys

02

最强Vision Trabsformer | 87.7%准确率！CvT:将卷积引入视觉Transformer(文末附论文下载)

在本文中介绍了一种称为卷积视觉Transformer（CvT）的新体系结构，该体系结构通过将卷积引入ViT中来产生两种设计结合的最佳效果，从而提高了视觉Transformer（ViT）的性能和效率。

03

Nat. Commun. | 序列到功能的深度学习框架加速工程核糖调节剂设计和优化

今天给大家介绍由哈佛大学和剑桥大学的研究人员联合发表在Nature Communications的一篇文章。由于对设计规则的理解有限，设计全新的生物回路组件仍然是一项具有挑战性的工作，支点开关（Toehold Switches）的设计也面临相似的问题。针对上述情况，作者提出了两种深度学习架构——STORM和NuSpeak，这二种架构使用了卷积过滤器，注意力图和电子诱变技术用于描述和优化支点。实验结果证明，即使在训练数据比较稀疏的情况下，通过迁移学习设计的支点传感器，仍然具有改进的性能。

03

如何在深度学习结构中使用纹理特征

这是前一篇文章的继续，在这第篇文章中，我们将讨论纹理分析在图像分类中的重要性，以及如何在深度学习中使用纹理分析。

03

TimeSformer：视频理解所需的只是时空注意力吗？

[1]提出了一种无卷积的视频分类方法，该方法专门基于名为“ TimeSformer”的空间和时间上的自注意力而构建，通过直接从一系列帧级块中启用时空特征学习，将标准的Transformer体系结构应用于视频。

01

谷歌提出纯 MLP 构成的视觉架构，无需卷积、注意力！

计算机视觉的发展史证明，规模更大的数据集加上更强的计算能力往往能够促成范式转变。虽然卷积神经网络已经成为计算机视觉领域的标准，但最近一段时间，基于自注意力层的替代方法 Vision Transformer（ViT）实现新的 SOTA 性能。从技术上讲，ViT 模型延续了长久以来去除模型中手工构建特征和归纳偏置的趋势，并进一步依赖基于原始数据的学习。

02

Transformer-CNN：用于 QSAR 建模和解释的先进工具

今天给大家介绍的是Journal of Cheminformatics上的文章 " Transformer-CNN: Swiss knife for QSAR modeling and interpretation"

02

初识行为识别

随着互联网的不断发展，各种应用的不断推广。数据无论从存储，格式，形式，类型等方面都趋向于多样化，丰富化，指数化。数据就是价值，为何这么说呢？在机器学习，深度学习推动下，训练数据需求很大。对于分类模型，训练数据越多，分类器的准确度会在一定程度上更精确。行为识别可以说就是在这基础上演变出来的一个研究分支。那么什么是行为识别呢？我的理解是这样的，比如对于某个图片或者视频中的某个信息进行捕获，我们可以使用特征工程进行特征提取，这些特征提取说白了就是基于对图片局部中像素进行操作，对于视频，我们可以将视频按帧分解成图片，常用工具有ffmpeg，也可以使用python中基于视频分解图片的模块包自行通过调用处理。对于得到的图片，我们可以对其进行特征提取，比如常用的特征提取方法有Haar，Hog等，它们在结合具体的分类器比如adaboost，svm等可以对图片中相关特征精确提取达到一定准确度。有了特征之后，我们可以使用机器学习中分类器或者深度学习中的分类器利用已经得到特征进行训练，之后对未知图片进行预测，这也就达到了行为识别的目的。行为识别存在问题？由于受到视频背景混乱、闭塞、视点变化等原因，对行动的准确识别是一项极具挑战性的任务，大多数现有方法对拍摄视频的环境做出某些假设。然而，这种假设在现实环境中很少成立。此外，大多数在这些方法都遵循传统的模式模式识别，包括两个步骤，第一步从原始视频中计算并提取特征，第二步通过该特征训练分类器。在现实世界中在场景中，很少知道哪些特征对手头的任务很重要，因为特征的选择是高度依赖问题。特别是对于人类行为识别。行为识别的发展从哪开始呀？关于行为识别最早开始于19世纪中后期，科学家首先在动物行为方面进行了机械学研究[1]。但是由于当时的计算机不能处理大规模的数据计算，行为识别的研究也没有得到重视。直到20年代末期，关于行为识别的研究也是寥寥可数，当时的研究人员通过采集大量的实验数据进行分析和研究，训练并构建模型，然后匹配模型和行为序列，最终达到行为理解的目的。由于计算量的规模性，当时的研究只能局限于分析简单的行为运动。进入本世纪后，世界上多家名校和研究机构都在行为识别进行了深入研究和探索[2]。在工业界，行为识别可以说占据了普遍优势，如行程规划，用户社交行为，人员调度等领域已经出现了行为识别的相关应用。行为识别和模式识别比较火热的研究话题。行为识别的的发展如何呢？目前行为识别的主要有两大流派:Two-Stream和C3D。Two-Stream的思想是是基于视频帧图像，其表示的是静态信息和对视频序列中每两帧计算密集光流得到的光流序列，该序列表示的是时序信息，然后利用相关深度网络对它们分别训练出一个模型，在各自网络产生结果后，对结果进行融合；它能有效的从一张图片中识别出行为的类别。利用双流CNN网络分别基于RGB图像和由视频得到的光流序列各自训练一个模型，这两个模型分别对动作进行判断，最后将两这训练结果进行融合，在UCF-101数据库上准确率达到88%，在HMDB51行为数据库达到59.4%[3]。将双流网络改成VGG-16网络，VGG-16卷积神经网络探索了深度与其性能之间的关系，通过反复堆叠33的小型卷积核和22的最大池化层，层数为16层，经实验提高了准确率[4]。C3D对CNN中的卷积(convolution)操作和池化(pooling)操作进行改良，其采用3D卷积核，在时间和空间维度上进行操作，能捕捉到视频流中的运动信息。一个用于人类行为识别的3D CNN架构，该体系结构由1个硬接线层、3个卷积层、2个子采样层和1个全连接层组成，以7帧尺寸为60×40帧作为3D CNN模型的输入。采用不同的卷积规模，最终在TRECVID DATA上的精准率达到了71.37%[5]。可能对于深入的研究可能还有需要多去研究相关论文，多去动手上机实验。谢谢！

02

改进YOLO | 可能这才是用Transformer正确打开YOLO的方式吧？

目标检测的目的是在给定的图像中分类和定位感兴趣的目标。由于与其他计算机视觉应用的紧密联系，它已经引起了社会各界的极大关注。在深度学习领域取得重大突破之前，已有许多传统的方法被提出来解决目标检测问题。这些方法建立在手工制作的特征表示上。不可避免地依赖于手工制作的特征限制了传统方法的性能。

04

谷歌 MorphNet：让你的神经网络更小但更快

深度神经网络（DNN）在解决图像分类、文本识别和语音转换等实际难题方面具有显著的效果。然而，为一个给定的问题设计一个合适的 DNN 体系结构仍然是一个具有挑战性的任务。考虑到架构可能需要巨大的搜索空间，从头开始为特定的应用程序设计一个网络在计算资源和时间方面花销可能非常大。神经网络架构搜索和 AdaNet 等方法利用机器学习来搜索设计空间，以便找到改进架构的方法。另一种选择是将现有的体系结构用于类似的问题，并一次性为手头的任务进行优化。

04

Transformers 研究指南

本文讲述Transformers的最新研究进展，由数据科学家 Derrick Mwiti写作。原文标题：Research Guide for Transformers。AI科技评论编译如下：

02

MorphNet：更快更小的神经网络探索

深度神经网络(DNNs)在解决图像分类、文本识别和语音转录等实际关联难题方面具有显著的效果。然而，为给定的问题设计合适的DNN体系结构仍然是一项具有挑战性的任务。考虑到可能的架构有很大的搜索空间，从零开始为特定的应用程序设计一个网络在计算资源和时间方面代价可能非常昂贵。神经结构搜索和AdaNet等方法使用机器学习搜索设计空间，以找到改进的结构。另一种方法是使用现有的体系结构来解决类似的问题，并一次性地为手头的任务进行优化。

01

Container: Context Aggregation Network

卷积神经网络(CNNs)在计算机视觉中无处不在，具有无数有效和高效的变化。最近，Container——最初是在自然语言处理中引入的——已经越来越多地应用于计算机视觉。早期的用户继续使用CNN的骨干，最新的网络是端到端无CNN的Transformer解决方案。最近一个令人惊讶的发现表明，一个简单的基于MLP的解决方案，没有任何传统的卷积或Transformer组件，可以产生有效的视觉表示。虽然CNN、Transformer和MLP-Mixers可以被视为完全不同的架构，但我们提供了一个统一的视图，表明它们实际上是在神经网络堆栈中聚合空间上下文的更通用方法的特殊情况。我们提出了Container(上下文聚合网络)，一个用于多头上下文聚合的通用构建块，它可以利用Container的长期交互作用，同时仍然利用局部卷积操作的诱导偏差，导致更快的收敛速度，这经常在CNN中看到。我们的Container架构在ImageNet上使用22M参数实现了82.7%的Top-1精度，比DeiT-Small提高了2.8，并且可以在短短200个时代收敛到79.9%的Top-1精度。比起相比的基于Transformer的方法不能很好地扩展到下游任务依赖较大的输入图像的分辨率,我们高效的网络,名叫CONTAINER-LIGHT,可以使用在目标检测和分割网络如DETR实例,RetinaNet和Mask-RCNN获得令人印象深刻的检测图38.9,43.8,45.1和掩码mAP为41.3，与具有可比较的计算和参数大小的ResNet-50骨干相比，分别提供了6.6、7.3、6.9和6.6 pts的较大改进。与DINO框架下的DeiT相比，我们的方法在自监督学习方面也取得了很好的效果。

04

[计算机视觉论文速递] 2018-05-10

[1]《A Fusion Framework for Camouflaged Moving Foreground Detection in the Wavelet Domain》

02

汇总|医学图像分析领域论文

1.Globally Guided Progressive Fusion Network for 3D Pancreas Segmentation（MICCAI 2019：用于三维胰腺分割全局引导的渐进融合网络）

01

常用的表格检测识别方法-表格区域检测方法（上）

表格检测识别一般分为三个子任务：表格区域检测、表格结构识别和表格内容识别。本章将围绕这三个表格识别子任务，从传统方法、深度学习方法等方面，综述该领域国内国外的发展历史和最新进展，并提供几个先进的模型方法。

01

Squeeze-and-Excitation Networks

卷积神经网络(CNNs)的核心构件是卷积算子，它通过在每一层的局部接受域内融合空间和信道信息来构造信息特征。之前的大量研究已经研究了这种关系的空间成分，试图通过提高整个特征层次的空间编码质量来增强CNN的代表性。在这项工作中，我们关注的是通道之间的关系，并提出了一个新的架构单元，我们称之为“挤压-激励”(SE)块，它通过显式地建模通道之间的相互依赖关系，自适应地重新校准通道方向的特征响应。我们展示了这些块可以叠加在一起形成SENet架构，从而非常有效地在不同的数据集中进行泛化。我们进一步证明，SE块可以显著提高现有的最先进的CNNs的性能，只需要稍微增加一些计算成本。挤压和激励网络构成了我们ILSVRC 2017年分类提交的基础，该分类提交获得了第一名，并将前5名的错误减少到2.251%，比2016年获奖的条目相对提高了约25%。

02

使用CNN (VVC滤波)提高VVC的预测感知质量（ VCIP 2020）

这是2020年VCIP的一篇论文：灵感来自EDSR，以帧内预测信号作为附加输入，Y，U和V分量的平均BD速率增益分别为6.7％，12.6％和14.5％。

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭