细粒度识别_细粒度图像识别_细粒度分类 - 腾讯云开发者社区

计算机视觉（CV）是用机器来理解和分析图像的过程，是人工智能中一个重要分支。在 CV 的各个研究领域中，细粒度图像分析（fine-grained image analysis, FGIA）是一个长期存在的基础性问题，而且在各种实际应用（比如鸟的种类、汽车模型、商品识别等）中无处不在。由细粒度特性造成的类间（inter-class）小变化和类内（intra-class）大变化使得这一问题具有极大的挑战性。由于深度学习的蓬勃发展，近年来应用了深度学习的 FGIA 取得了显著的进步。

超全深度学习细粒度图像分析：项目、综述、教程一网打尽

（CV）是用机器来理解和分析图像的过程，是人工智能中一个重要分支。在 CV 的各个研究领域中，细粒度图像分析（fine-grained image analysis, FGIA）是一个长期存在的基础性问题，而且在各种实际应用（比如鸟的种类、汽车模型、商品识别等）中无处不在。由细粒度特性造成的类间（inter-class）小变化和类内（intra-class）大变化使得这一问题具有极大的挑战性。由于深度学习的蓬勃发展，近年来应用了深度学习的 FGIA 取得了显著的进步。

您找到你想要的搜索结果了吗？

是的

没有找到

谷歌开启 Naturalist 2018 挑战赛，大型物种分类技术有望突破

资源 | 最新的细粒度图像分析资源

图来自http://www.weixiushen.com/project/Awesome_FGIA/Awesome_FGIA.html

CVPR 2022 Oral | 清华开源FineDiving：细粒度动作质量评估数据集

在这里和大家分享一下我们被录用为CVPR 2022 Oral的工作：FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality Assessment

多所高校联合揭秘 TRAC 框架 | 探索 LVLMs 在细粒度视觉描述生成中的潜力！

在他们的真实描述中提供了广泛的概述。特别是，它们在生成细粒度描述方面的效力受到其固有的简洁性、简单性和多目标关注性的显著限制。此外，传统的评估指标如BLEU 和 SPICE（Brocker等人，2016）不适合评估细粒度描述，因为它们过于依赖这些粗略的真实描述，缺乏必要的粒度。

每日论文速递 | RLRF: 从反思反馈中不断迭代进行强化学习对齐

摘要：尽管 RLHF 在使 LLM 与人类偏好相一致方面大有可为，但它往往会导致表面上的一致，优先考虑风格上的变化，而不是改善 LLM 的下游性能。不明确的偏好可能会模糊调整模型的方向。缺乏探索会限制识别理想输出以改进模型。为了克服这些挑战，我们提出了一个新颖的框架：从反思反馈中强化学习Reinforcement Learning from Reflective Feedback （RLRF），它利用基于详细标准的细粒度反馈来提高 LLM 的核心能力。RLRF 采用自我反思机制来系统地探索和完善 LLM 的反应，然后通过 RL 算法对模型进行微调，同时对有前途的反应进行微调。我们在 "公正-评价"、"事实性 "和 "数学推理 "方面的实验证明，RLRF 的功效和变革潜力超出了表面的调整。

你算个什么鸟？AI十级“找茬”选手诞生

杨净丰色发自凹非寺量子位报道 | 公众号 QbitAI 你算个什么鸟？面对上面这两张图，一个AI发出了灵魂拷问。左边桃面牡丹鹦鹉，右边费氏牡丹鹦鹉。一眼识破的它早就看到左边的鸟的喙部和眼圈与右边的不一样。不行，再来！再来看这组。（文末揭晓答案）好，我放弃了。这个来自浙大计算机学院和阿里安全的“找茬”选手，识别准确率达到了91.3%，已经是业内最优水平。研究成果已被多媒体国际顶会ACM MM 2021收录。不光鸟，阿猫阿狗也能行，甚至花草植物也能行。看看这连两张照片，吉娃

AI一眼识别这是什么鸟 “我们来找茬”十级选手诞生

结果，AI一顿操作猛如虎，进行了判断：左边的是桃面牡丹鹦鹉，右边的是国家保护动物费氏牡丹鹦鹉，二者区别仅在于喙的颜色以及白色眼圈。

学界 | 微软亚洲研究院CVPR 2017 Oral论文：逐层集中Attention的卷积模型

选自CVPR 2017 机器之心编译参与：Smith、路雪、蒋思源通过计算机视觉方法识别纹理细密的物体种类已经受到了学界的强烈关注。这一类任务往往是极具挑战性的，这是因为一些纹理细密的物体种类只能被该领域的专家所识别出来。与一般的识别不同，细粒度图像识别（fine-grained image recognition）是应该能够进行局部定位（localizing），并且能在其从属（subordinate）类别中表征很小的视觉差异的，从而使各种应用受益，比如专家级的图像识别、图像标注等等。微软亚洲研究院梅

大比分领先！大规模细粒度图像分类冠军方案

本文来自社区投稿，作者：ABCDEFG，ACCV 2022 国际细粒度图像分析挑战赛——网络监督的细粒度识别赛道冠军队伍。

字节跳动获CVPR2021 细粒度图像竞赛双料冠军

当我们还对玫瑰、月季和蔷薇傻傻分不清楚的时候，计算机视觉已经可以在一万种极其相似的自然界物种里精确地分门别类了。

CVPR 2020 | 看图说话之随心所欲：细粒度可控的图像描述自动生成

本文介绍的是 CVPR 2020 上录用为 Oral 的论文《Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graph》（已开源），文章作者是中国人民大学博士生陈师哲同学，这项工作是陈师哲同学在澳大利亚阿德莱德大学吴琦老师组访问时所完成。

学界 | CVPR 2018接收论文公布，上海交通大学6篇论文简介

机器之心报道作者：吴欣不久之前，CVPR 2018 论文接收列表公布。据机器之心了解，上海交通大学电子系人工智能实验室倪冰冰教授课题组有 6 篇论文入选，本文对这几篇论文做了简介，更多详细内容可通过论文网盘链接下载查看。 CVPR 2018 论文接收列表：http://cvpr2018.thecvf.com/files/cvpr_2018_final_accept_list.txt Paper 1：《Fine-grained Video Captioning for Sports Narrative》

中文分词工具 MiNLP-Tokenizer

MiNLP-Tokenizer是小米AI实验室NLP团队自研的中文分词工具，基于深度学习序列标注模型实现，在公开测试集上取得了SOTA效果。其具备以下特点：

《AFTrans》来自ViT的免费午餐！北大&阿里提出用于细粒度视觉识别的自适应注意多尺度融合Transformer

本文分享论文『A free lunch from ViT- Adaptive Attention Multi-scale Fusion Transformer for Fine-grained Visual Recognition』，被称为来自 ViT 的免费午餐！由北大&阿里提出用于细粒度视觉识别的自适应注意多尺度融合Transformer：《AFTrans》。

MemoryMamba | 工业缺陷检测的视觉模型，在 NEU 数据集取得了高达99%的成绩！

深度学习技术的出现显著推动了各个行业的发展，特别是在制造业中，通过转变质量控制在缺陷识别过程中的作用。在制造业中，缺陷识别在提高生产效率、降低成本和确保产品可靠性方面起着关键作用。随着行业向更自动化、更精确的制造技术发展，对复杂且精确的缺陷识别系统的需求日益增强。这些系统不仅对于减少缺陷产品到达消费者手中的发生率至关重要，而且通过减少浪费和改进安全协议，也有助于提高生产线的整体可持续性。

一眼识别这是什么鸟，比人类还厉害的“我们来找茬”十级选手诞生！

AI科技评论报道编辑：琰琰话说，你能看出上面这三只鹦鹉有什么不一样吗？脸盲如我，要使出玩“我们来找茬”的十级能力。 AWSL，鹦鹉鹦鹉，傻傻分不清楚。结果，AI一顿操作猛如虎，进行了判断：左边的是桃面牡丹鹦鹉，右边的是国家保护动物费氏牡丹鹦鹉，二者区别仅在于喙的颜色以及白色眼圈。小鸟并不孤单，猫猫狗狗和花花草草也在被“找茬”。最近，浙江大学和阿里安全在AI细粒度图像识别技术上取得了新进展，利用RAMS-Trans相关技术先后在公开数据集CUB（鸟类识别）、St

细粒度情感分析在到餐场景中的应用

经典的细粒度情感分析（ABSA，Aspect-based Sentiment Analysis）主要包含三个子任务，分别为属性抽取、观点抽取以及属性-观点对的情感倾向判定三个级联任务。

基于PyTorch、易上手，细粒度图像识别深度学习工具库Hawkeye开源

细粒度图像识别 [1] 是视觉感知学习的重要研究课题，在智能新经济和工业互联网等方面具有巨大应用价值，且在诸多现实场景已有广泛应用…… 鉴于当前领域内尚缺乏该方面的深度学习开源工具库，南京理工大学魏秀参教授团队用时近一年时间，开发、打磨、完成了 Hawkeye——细粒度图像识别深度学习开源工具库，供相关领域研究人员和工程师参考使用。本文是对 Hawkeye 的详细介绍。

百度IDL主任林元庆解读：人工智能技术研发的四大支柱

近日，百度深度学习实验室主任林元庆在百度年终媒体分享会上做了《看懂AI-百度技术开放日》的演讲，从客观层面阐述了人工智能技术研发的四大支柱，为我们呈现了让人工智能更深层，更极致的方法论，下面是演讲精华

013

见微知著：细粒度图像分析进展

作者简介：魏秀参，南京大学计算机系机器学习与数据挖掘所（LAMDA）博士生，专攻计算机视觉和机器学习。曾在国际顶级期刊和会议发表多篇学术论文，并两次获得国际计算机视觉相关竞赛冠亚军。责编：何永灿，欢迎人工智能领域技术投稿、约稿、给文章纠错，请发送邮件至heyc@csdn.net 本文为《程序员》原创文章，未经允许不得转载，更多精彩文章请订阅2017年《程序员》有别于通用图像分析任务，细粒度图像分析的所属类别和粒度更为精细，它不仅能在更细分的类别下对物体进行识别，就连相似度极高的同一物种也能区别开来。

满足不同下游任务特征需求！Sea AI Lab 提出多粒度自监督学习框架Mugs，刷新多项SOTA

机器之心专栏机器之心编辑部由颜水成老师带领的 Sea AI Lab 提出了一种多粒度自监督学习框架 Mugs[1]，用以学习不同粒度的非监督特征，从而满足不同下游任务对不同粒度甚至多粒度特征的需求。在相同的实验设置下（相同数据集和模型等），该方法大幅超越了目前最好的自监督学习方法。在没有使用额外数据的情况下，该方法在 ImageNet 数据集上取得了目前最高的线性评估准确率（linear probing accuracy）82.1% 以及最高的 KNN 分类准确率 80.3%。详细结果请参看 pape

腾讯云流计算 Oceanus：新版弹性方案，助力实时业务降本超30%

进入大数据时代，数据量呈爆炸式增长，传统批处理计算模式难以满足日益增长的实时性需求。数据实时化已经成为数字经济时代的必然趋势。实时计算作为一种能够持续处理数据流的技术，能够以毫秒级延迟提供计算结果，为实时分析、风控、推荐等应用场景提供强有力的支持。

今日 Paper | 社交媒体谣言检测；连续手语识别；细粒度服装相似性学习；混合图神经网络等

论文名称：Rumor Detection on Social Media with Bi-Directional Graph Convolutional Networks

「扫鼻子，找狗子」是怎么做到的？答案在这篇CVPR论文里

机器之心专栏机器之心编辑部还记得支付宝「扫鼻子，找狗子」的新功能吗？最近，研究者把论文公布了出来。世上没有两片完全相同的树叶，也没有完全相同的两个狗 / 猫鼻子。前段时间，机器之心报道了支付宝上线的一个新功能：利用鼻纹识别帮助养宠物的家庭寻找走失宠物。这一功能的操作非常简单。首先，打开支付宝搜「防走丢」，然后录入宠物鼻纹信息，你就可以为自己的宠物领取一张独一无二的电子「身份证」。一旦宠物走丢，你可以一键报失，如果路人看到走丢宠物，可用支付宝扫鼻纹进行识别，通过虚拟号码联系你，送宠物回家。这项看

三篇论文解决「语义分割的优化和评估」难题！鲁汶/清华/牛津等联合提出全新方法

优化语义分割模型常用的损失有Soft Jaccard损失，Soft Dice损失和Soft Tversky损失，但它们都和软标签不兼容，所以无法支持一些重要的训练技术（例如标签平滑，知识蒸馏，半监督学习，多标注员等）。

不止视觉，CMU研究员让机器人学会了听音辨物！

在机器人技术中，虽然我们已经在视觉和触觉方面取得了巨大的进步，但是对声音的研究一直稍有欠缺。

大连理工大学在CVPR18大规模精细粒度物种识别竞赛中获得冠军

近日，引人瞩目的国际计算机视觉与模式识别大会CVPR 2018在美国盐湖城落下帷幕。在为期5天的会议中，除了有精彩的口头报告、墙报张贴以及企业展示之外，还有对极具挑战性的竞赛的宣讲和总结。

精确指出特定事件发生时间！字节&复旦大学多模态大模型解读视频太香了

它主要解决的是多模态LLM跨多种模态进行细粒度理解的能力，此前业内的成果主要强调全局信息。

大会 | CVPR VUHCS Workshop征稿啦，附带5项极具吸引力的比赛

AI 科技评论按：CVPR 2018 将于 2018 年 06 月 18-22 日在美国盐湖城举办，除了主会议程，各式各样的 Workshop 也值得大家一探究竟。其中，CVPR 2018 Visual Understanding of Humans in Crowd Scene (VUHCS 2018）Workshop 尤为亮眼，该 Workshop 由新加坡国立大学 LV 组联合美国卡内基梅隆大学、中国中山大学主办。今年，主办方在 VUHCS 2017 的基础上进行了延伸与拓展，除接收相关论文，还将迎

横扫13个视觉语言任务！哈工深发布多模态大模型「九天」，性能直升5%

为了应对多模态大语言模型中视觉信息提取不充分的问题，哈尔滨工业大学（深圳）的研究人员提出了双层知识增强的多模态大语言模型-九天（JiuTian-LION）。

ICPR 2020|大规模商品图像识别挑战赛冠军技术干货分享

【新智元导读】近日，国际模式识别大会（ICPR 2020）拉开帷幕，各个workshop也公布了各项挑战赛的结果，来自中国的DeepBlueAI 团队斩获了由ICPR 2020、Kaggle和JDAI等联合举办大规模商品图像识别挑战赛冠军。

ICPR 2020|大规模商品图像识别挑战赛冠军技术干货分享

随着互联网技术和电子商务的迅猛发展，人们的购物方式逐步由传统实体店购物变为网络购物。为了充分满足客户海量、多样化的网上购物需求，人工智能零售系统需要快速地从图像和视频中自动识别出产品的存货单元(Stock Keeping Unit，SKU)级别的类别，然而，许多SKU级别的产品都是细粒度的，可以看出它们在视觉上是相似的。

打破Transformer宿命，新秀VOLO开源！横扫CV多项记录，首个超越87%的模型

一直以来，Transformer的性能距离最佳的CNN仍存在差距，而今天由颜水成团队开源的新秀VOLO打破了这一宿命，成为了ImageNet数据上首个无需额外数据达到87.1%的模型。

大规模食品图像识别：T-PAMI 2023论文解读

美团基础研发平台视觉智能部与中科院计算所展开科研课题合作，共同构建大规模数据集Food2K，并提出渐进式区域增强网络用于食品图像识别，相关研究成果已发表于T-PAMI 2023。

比Meta「分割一切AI」更全能！港科大版图像分割AI来了：实现更强粒度和语义功能

模型名为Semantic-SAM，顾名思义，在完全复现SAM分割效果的基础上，这个AI还具有两大特点：

CVPR 2019细粒度图像分类竞赛中国团队DeepBlueAI获冠军 | 技术干货分享

近日，在Kaggle上举办的CVPR 2019 Cassava Disease Classification挑战赛公布了最终结果，国内团队 DeepBlueAI 获得冠军。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐