首页
学习
活动
专区
工具
TVP
发布

贾志刚-OpenCV学堂

三本书《Java数字图像处理-编程技巧与应用实践》、《OpenCV Android开发实战》、《OpenCV4应用开发-入门、进阶与工程化实践》作者。OpenCV实验大师平台 软件作者
专栏作者
862
文章
1433507
阅读量
422
订阅数
tochvision轻松支持十种图像分类模型迁移学习
点击上方蓝字关注我们 微信公众号:OpenCV学堂 关注获取更多计算机视觉与深度学习知识 torchvision分类介绍 Torchvision高版本支持各种SOTA的图像分类模型,同时还支持不同数据集分类模型的预训练模型的切换。使用起来十分方便快捷,Pytroch中支持两种迁移学习方式,分别是: - Finetune模式基于预训练模型,全链路调优参数- 冻结特征层模式这种方式只修改输出层的参数,CNN部分的参数冻结 上述两种迁移方式,分别适合大量数据跟少量数据,前一种方式计算跟训练时间会比第二种方
OpenCV学堂
2022-10-09
4940
PyTorch创始人:Transformer太火很不好,AI易撞墙
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 机器之心 授权 Souminth Chintala 担心 Transformer 可能导致人工智能碰壁。 2017 年 Transformer 首次亮相,便迅速在 AI 领域扩散开来,CV、NLP 等任务都有其身影,越来越多的研究人员投入其中。 要说 Transformer 有多厉害,比如 OpenAI 重磅推出的 GPT-3,就是基于 Transformer 实现的。至于传播速度方面,短短 5 年,Transformer 便在 TensorFlow
OpenCV学堂
2022-10-09
3400
IEEE年度薪酬报告发布!美国程序员薪资中位数7年来首次下降2.4万
---- 点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 新智元 授权 【导读】近日,IEEE发布了年度薪酬报告。数据显示,美国工程师薪资中位数自2013年以来首次显著下降。 美国技术专业人员能赚多少钱? 近日,IEEE-USA发布了2022年美国技术人员薪资报告。 在2021年,身为IEEE成员的美国工程师和其他技术专业人员的收入中位数达160,097美元,高于2020年的154,443美元。 然而,到了今年,直接下滑了近3500美元。 这是IEEE-USA自2013年以来记录的科技人员工资中
OpenCV学堂
2022-09-23
6240
TPAMI 2022 | 不同数据模态的人类动作识别综述,涵盖500篇文章精华
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 机器之心 授权 本文对最近被 TPAMI 接收的一篇综述文章 Human Action Recognition from Various Data Modalities: A Review(基于不同数据模态的人类动作识别综述)进行解读。 原综述文章地址:https:arxiv.org/pdf/2012.11866.pdf 1 概述 人类动作识别(Human Action Recognition, HAR)旨在理解人类的行为,并为每个行为分配一个标签。多
OpenCV学堂
2022-09-19
1.3K0
整理了20场kaggle比赛baseline
我整理了20场+kaggle比赛baseline,包括CV/NLP/多模态/机器学习等方向。 01 CV方向比赛 CV方向选出了10场比赛,涵盖图像分类、图像分割、目标检测、视频分类等CV经典任务,覆盖农业、医疗、体育等应用领域。 扫码加我微信,回复“比赛” 领取baseline代码 02 NLP方向比赛 NLP方向选出了6场比赛,涵盖文本分类、AES等NLP任务,覆盖医疗、教育等应用领域。 扫码加我微信,回复“比赛” 领取baseline代码 03 多模态方向比赛 多模态方向有2场比赛,
OpenCV学堂
2022-09-19
4030
推荐一个论文写作神器
朋友们,开学啦,你的论文开始写了嘛~ 论文通俗来说是本科和硕士的升学助力,也是学术界的硬通货,更是未来工作的加分项和敲门砖。 论文的写作对很多学生来说,是一种挑战。有些学生不知该如何对论文做选题,更多的学生则是对毕业论文写作到底有什么要求不清楚,不知从何下手,常常为毕业论文发愁。 我跟几位CVPR、ECCV等顶会审稿人聊了聊,总结输出如下文,希望对大家有启发。 扫码0.1元领取 《顶会审稿人论文写作干货》 论文写作的分为四个顺序:阅读论文→确定创新点→Coding/实验→论文写作。 01 阅读论文 发表论
OpenCV学堂
2022-09-09
3930
ECCV 2022 | 清华&Meta提出HorNet,用递归门控卷积进行高阶空间相互作用
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 机器之心 授权 来自清华大学和 Meta AI 的研究者证明了视觉 Transformer 的关键,即输入自适应、长程和高阶空间交互,也可以通过基于卷积的框架有效实现。 视觉 Transformer 的最新进展表明,在基于点积自注意力的新空间建模机制驱动的各种任务中取得了巨大成功。在本文中,来自清华大学和 Meta AI 的研究者证明了视觉 Transformer 背后的关键成分,即输入自适应、长程和高阶空间交互,也可以通过基于卷积的框架有效实现。作者提
OpenCV学堂
2022-09-09
5120
Vision Transformers看到的东西是和卷积神经网络一样的吗?
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 AI公园 授权 ---- 作者:Mengliu Zhao 编译:ronghuaiyang 导读 这是对论文《Do Vision Transformers See Like Convolutional Neural Networks》的一篇解读。 Vision Transformer (ViT)自发布以来获得了巨大的人气,并显示出了比基于CNN的模型(如ResNet)更大的潜力。但是为什么Vision Transformer比CNN的模型更好呢?最近发
OpenCV学堂
2022-09-08
8950
加上Web UI,文本-图像模型Stable Diffusion变身绘图工具,生成艺术大片
‍ 点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 机器之心 授权 对于艺术家和插‍图画家来说,这类绘图工具虽然省时省力,但如何保持自己的创作风格是一个大问题。 前段时间,来自慕尼黑大学和 Runway 的研究者,与Eleuther AI、LAION 等团队合作,共同开发了一种文本转图像模型 Stable Diffusion。这项研究入选CVPR 2022 Oral。 Stable Diffusion 可以在消费级 GPU 上的 10 GB VRAM 下运行,并在几秒钟内生成 512x512 像素的
OpenCV学堂
2022-09-01
1.2K0
简单粗暴,5行代码,快速实现图像分割
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 量子位 授权 图像分割,作为计算机视觉的基础,是图像理解的重要组成部分,也是图像处理的难点之一。 那么,如何优雅且体面的图像分割? 5行代码、分分钟实现的库——PixelLib,了解一下。 当然,如此好用的项目,开源是必须的。 为什么要用到图像分割? 虽然计算机视觉研究工作者,会经常接触图像分割的问题,但是我们还是需要对其做下“赘述”(方便初学者)。 我们都知道每个图像都是有一组像素值组成。简单来说,图像分割就是在像素级上,对图像进行分类的任务。 图像
OpenCV学堂
2022-08-29
6720
多模态图像合成与编辑这么火,马普所、南洋理工等出了份详细综述
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 机器之心 授权 本篇综述通过对现有的多模态图像合成与编辑方法的归纳总结,对该领域目前的挑战和未来方向进行了探讨和分析。 近期 OpenAI 发布的 DALLE-2 和谷歌发布的 Imagen 等实现了令人惊叹的文字到图像的生成效果,引发了广泛关注并且衍生出了很多有趣的应用。而文字到图像的生成属于多模态图像合成与编辑领域的一个典型任务。 近日,来自马普所和南洋理工等机构的研究人员对多模态图像合成与编辑这一大领域的研究现状和未来发展做了详细的调查和分析。
OpenCV学堂
2022-08-29
3800
【建议收藏】时间序列预测paper、应用汇总
Optiver是全球顶尖的量化交易公司。10个月前,Optiver在Kaggle上面办的一场预测股票市场波动率的比赛。 这场比赛吸引了超过3800支队伍参加,其中相当一部分选手梦想着训出一个模型、指导购买股票、一夜暴富,迎娶白富美走上人生巅峰。 然后当然是没有然后的。 这场比赛的落地场景——金融量化正是时间序列预测应用最广泛的领域之一。并且随着机器学习和深度学习算法地更广泛应用,时间序列预测的落地场景越来越多,比如供应链、零售、交通等等等等。 广义线性模型,xgboost等机器学习方法,LSTM,CN
OpenCV学堂
2022-08-29
2960
良心推荐:最强推荐系统学习路径,入职无悬念
现如今推荐系统在我们的生活中无处不在,逛淘宝看到的“你可能还喜欢”、网易云的“推荐歌单”等功能都是通过推荐系统进行的推送。信息爆炸的当下,推荐系统在互联网行业得到了广泛的应用,同时也出现了大量岗位,推荐算法人才的稀缺程度水涨船高,薪资水平也十分可观。 截至2022年8月4日,推荐系统工程师月平均工资¥30K-50K,对比平均工资¥10.2K高252.8%,即使每个地区薪资情况各有不同,但推荐岗的薪资也至少高于当地平均工资50%。 如此好的行业前景和薪资水平吸引了各行各业的人才,但,学习推荐算法真的这么
OpenCV学堂
2022-08-29
5220
有福利送书 | 3D对象检测检测概述
点击上方蓝字关注我们 微信公众号:OpenCV学堂 关注获取更多计算机视觉与深度学习知识 将3D对象检测方法分为三类:单目图像,点云以及基于融合的方法。基于单目图像的方法。       尽管2D对象的检测已解决,并已在多个数据集中得到成功应用。但KITTI数据集对对象检测,提出了挑战的特定设置。而这些设置,对于大多数驾驶环境都是常见的,包括小的、被遮挡的或被截断的物体,以及高度饱和的区域或阴影。此外,图像平面上的2D检测,还不足以提供可靠的驱动系统。此类应用需要更精确的3D空间定位和尺寸估算。本节将重点介
OpenCV学堂
2022-08-29
6800
15年软件架构师经验总结:在ML领域,初学者踩过的5个坑
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 机器之心 授权 如果你要构建你的第一个模型,请注意并避免这些问题。 数据科学和机器学习正变得越来越流行,这个领域的人数每天都在增长。这意味着有很多数据科学家在构建他们的第一个机器学习模型时没有丰富的经验,而这也是错误可能会发生的地方。 近日,软件架构师、数据科学家、Kaggle 大师 Agnis Liukis 撰写了一篇文章,他在文中谈了谈在机器学习中最常见的一些初学者错误的解决方案,以确保初学者了解并避免它们。 Agnis Liukis 拥有超过 1
OpenCV学堂
2022-08-29
3100
大火的多模态,落地了吗?
01 多模态机器学习 多模态机器学习,英文全称 MultiModal Machine Learning (MMML),旨在通过机器学习的方法实现处理和理解多源模态信息的能力。 每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉,听觉,视觉,嗅觉;信息有语音、视频、文字等媒介;多种多样的传感器,如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。 模态也可以有非常广泛的定义,比如我们可以把两种不同的语言当做是两种模态,甚至在两种不同情况下采集到的数据集,亦可认为是两种模态。 02 爆火的多
OpenCV学堂
2022-08-29
6800
图像大面积缺失,也能逼真修复,新模型CM-GAN兼顾全局结构和纹理细节
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 机器之心 授权 来自罗彻斯特大学和 Adobe Research 的研究者提出了一种新的生成网络 CM-GAN,很好地合成了整体结构和局部细节,在定量和定性评估方面都显著优于现有 SOTA 方法,如 CoModGAN 和 LaMa。 图像修复是指对图像缺失区域进行补全,是计算机视觉的基本任务之一。该方向有许多实际应用,例如物体移除、图像重定向、图像合成等。 早期的修复方法基于图像块合成或颜色扩散来填充图像缺失部分。为了完成更复杂的图像结构,研究人员开始转
OpenCV学堂
2022-08-29
5100
解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉Transformer
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 机器之心 授权 来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer,即 Next-ViT。Next-ViT 能像 CNN 一样快速推断,并有 ViT 一样强大的性能。 由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大? 近期一些工作试
OpenCV学堂
2022-07-26
6991
Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元!
---- 点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 新智元 授权 【导读】谷歌大神Jeff Dean最近亲自操刀发新作,提出了一个大规模多任务学习框架µ2Net,基本把各大数据集多任务学习的SOTA刷了个遍,但这次为何网友有点不买账了?很简单,差钱。 2021年10月,Jeff Dean亲自撰文介绍了一个全新的机器学习架构——Pathways。 目的很简单,就是让一个AI能够跨越数以万计的的任务,理解不同类型的数据,并同时以极高的效率实现: 在大半年之后的2022年3月,Jeff Dean终
OpenCV学堂
2022-07-26
4020
解决CNN固有缺陷, CCNN凭借单一架构,实现多项SOTA
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 机器之心 授权 本文提出了迈向通用 CNN 架构:CCNN,可以用于任意分辨率、长度和维度的数据。 在 VGG、U-Net、TCN 网络中... CNN 虽然功能强大,但必须针对特定问题、数据类型、长度和分辨率进行定制,才能发挥其作用。我们不禁会问,可以设计出一个在所有这些网络中都运行良好的单一 CNN 吗? 本文中,来自阿姆斯特丹自由大学、阿姆斯特丹大学、斯坦福大学的研究者提出了 CCNN,单个 CNN 就能够在多个数据集(例如 LRA)上实现 SOT
OpenCV学堂
2022-07-26
6690
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战,赢鹅厂证书、公仔好礼!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档