首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

PaddlePaddle实战 | 经典目标检测方法Faster R-CNN和Mask R-CNN

机器视觉领域的核心问题之一就是目标检测(objectdetection),它的任务是找出图像当中所有感兴趣的目标(物体),确定其位置和大小。作为经典的目标检测框架FasterR-CNN,虽然是2015年的论文,但是它至今仍然是许多目标检测算法的基础,这在飞速发展的深度学习领域十分难得。而在FasterR-CNN的基础上改进的MaskR-CNN在2018年被提出,并斩获了ICCV2017年的最佳论文。Mask R-CNN可以应用到人体姿势识别,并且在实例分割、目标检测、人体关键点检测三个任务都取得了很好的效果。因此,百度深度学习框架PaddlePaddle开源了用于目标检测的RCNN模型,从而可以快速构建强大的应用,满足各种场景的应用,包括但不仅限于安防监控、医学图像识别、交通车辆检测、信号灯识别、食品检测等等。

02

从ViT到Swin,10篇顶会论文看Transformer在CV领域的发展历程

随着Transformer在NLP领域主流地位的确立,越来越多的工作开始尝试将Transformer应用到CV领域中。CV Transformer的发展主要经历了以下3个阶段;首先是在CNN中引入Attention机制解决CNN模型结构只能提取local信息缺乏考虑全局信息能力的问题;接下来,相关研究逐渐开始朝着使用完全的Transformer模型替代CNN,解决图像领域问题;目前Transformer解决CV问题已经初见成效,更多的工作开始研究对CV Transformer细节的优化,包括对于高分辨率图像如何提升运行效率、如何更好的将图像转换成序列以保持图像的结构信息、如何进行运行效率和效果的平衡等。本文梳理了近期10篇Transformer、Attention机制在计算机视觉领域的应用,从ViT到Swin Transformer,完整了解CV Transformer的发展过程。

02

CNN实现“读脑术”,成功解码人脑视觉活动,准确率超50%

【新智元导读】研究人员开发出以人脑为模型的深度学习算法,来破解人类大脑。相关研究发表在最新一期Cerebral Cortex,研究人员构建了一个大脑如何解码信息的模型,根据参与者的大脑活动,该模型能够以50%的精确度预测她所看到的东西。 人工智能让我们离科幻小说里的“读脑机器”更近了一步。现在,研究人员开发出以人脑为模型的深度学习算法,来破解人类大脑。首先,他们建立了一个大脑如何解码信息的模型。三名女性花费了数小时观看几百条短视频,功能性核磁共振机器测量了视觉皮层和其他地方的活动信号。一个用于图像处理的人工

07

Nat. Mach. Intell. | 使用指数激活函数改进卷积网络中基因组序列模体的表示

今天为大家介绍的是来自Peter K. Koo的一篇关于基因组表示的论文。深度卷积神经网络(CNN)在对调控基因组序列进行训练时,往往以分布式方式构建表示,这使得提取具有生物学意义的学习特征(如序列模体)成为一项挑战。在这里,作者对合成序列进行了全面分析,以研究CNN激活对模型可解释性的影响。作者表明,在第一层过滤器中使用指数激活与其他常用激活相比,始终导致可解释且鲁棒的模体表示。令人惊讶的是,作者证明了具有更好测试性能的CNN并不一定意味着用属性方法提取出更可解释的表示。具有指数激活的CNN显着提高了用属性方法恢复具有生物学意义的表示的效果。

02

【AAAI oral】阿里北大提出新attention建模框架,一个模型预测多种行为

作者:周畅,白金泽,宋军帅,刘效飞,赵争超,陈修司,高军 【新智元导读】本文提出一种基于注意力机制的用户异构行为序列的建模框架,并将其应用到推荐场景中。作者提出用同一种模型同时预测多种类型的用户行为,由于没有使用RNN,CNN等方法,因此在提高效果的同时,该方法能够有更快的训练速度。 本文提出一种基于注意力机制的用户异构行为序列的建模框架,并将其应用到推荐场景中。我们将不同种类的用户行为序列进行分组编码,并映射到不同子空间中。我们利用self-attention对行为间的互相影响进行建模。最终我们得到用户的

09

BRAIN:用于阿尔茨海默病分类的可解释深度学习框架的开发和验证

阿尔茨海默症是全世界痴呆症的主要病因,随着人口老龄化,患病负担不断增加,在未来可能会超出社会的诊断和管理能力。目前的诊断方法结合患者病史、神经心理学检测和MRI来识别可能的病例,然而有效的做法仍然应用不一,缺乏敏感性和特异性。在这里,本文报告了一种可解释的深度学习策略,该策略从MRI、年龄、性别和简易智力状况检查量表(mini-mental state examination ,MMSE) 得分等多模式输入中描绘出独特的阿尔茨海默病特征(signatures)。该框架连接了一个完全卷积网络,该网络从局部大脑结构到多层感知器构建了疾病概率的高分辨率图,并对个体阿尔茨海默病风险进行了精确、直观的可视化,以达到准确诊断的目的。该模型使用临床诊断的阿尔茨海默病患者和认知正常的受试者进行训练,这些受试者来自阿尔茨海默病神经影像学倡议(ADNI)数据集(n = 417),并在三个独立的数据集上进行验证:澳大利亚老龄化影像、生物标志物和生活方式研究(AIBL)(n = 382)、弗雷明汉心脏研究(FHS)(n = 102)和国家阿尔茨海默病协调中心(NACC)(n = 582)。使用多模态输入的模型的性能在各数据集中是一致的,ADNI研究、AIBL、FHS研究和NACC数据集的平均曲线下面积值分别为0.996、0.974、0.876和0.954。此外,本文的方法超过了多机构执业神经科医生团队(n = 11)的诊断性能,通过密切跟踪死后组织病理学的损伤脑组织验证了模型和医生团队的预测结果。该框架提供了一种可适应临床的策略,用于使用常规可用的成像技术(如MRI)来生成用于阿尔茨海默病诊断的细微神经成像特征;以及将深度学习与人类疾病的病理生理过程联系起来的通用方法。本研究发表在BRAIN杂志。

01

多模态融合注记_超融合泛用

多模态机器学习MultiModal Machine Learning (MMML),旨在通过机器学习并处理理解多种模态信息。包括多模态表示学习Multimodal Representation,模态转化Translation,对齐Alignment,多模态融合Multimodal Fusion,协同学习Co-learning等。 多模态融合Multimodal Fusion也称多源信息融合(Multi-source Information Fusion),多传感器融合(Multi-sensor Fusion)。多模态融合是指综合来自两个或多个模态的信息以进行预测的过程。在预测的过程中,单个模态通常不能包含产生精确预测结果所需的全部有效信息,多模态融合过程结合了来自两个或多个模态的信息,实现信息补充,拓宽输入数据所包含信息的覆盖范围,提升预测结果的精度,提高预测模型的鲁棒性。

01

mask R-cnn检测,分割和特征点定位全部都做了

摘要 我们提出一个概念上简单,灵活,而且通用的对象实例分割框架(object instance segmentation)。我们的方法能有效检测图像中的对象,同时为每个实例生成高质量的分割掩膜(segmentation mask)。我们将该方法称为 Mask R-CNN,是在 Faster R-CNN 上的扩展,即在用于边界框识别的现有分支上添加一个并行的用于预测对象掩膜(object mask)的分支。 Mask R-CNN 的训练简单,仅比 Faster R-CNN 多一点系统开销,运行速度是 5 fps。此外,Mask R-CNN很容易推广到其他任务,例如可以用于在同一个框架中判断人的姿势。我们在 COCO 竞赛的3个任务上都得到最佳结果,包括实例分割,边界框对象检测,以及人物关键点检测。没有使用其他技巧,Mask R-CNN 在每个任务上都优于现有的单一模型,包括优于 COCO 2016 竞赛的获胜模型。我们希望这个简单而有效的方法将成为一个可靠的基准,有助于未来的实例层面识别的研究。我们将会公开相关代码。

02
领券