首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

PNAS:艺术品的记忆是可以预测的

参观艺术博物馆可能是我们在实验之外为数不多的几次观看一系列静态图像试图记住它们的机会之一。重要的是,如果一图像有内在的感知方面,使它令人难忘,那么就有可能在现实世界中人类记忆进行磨练预测。...结果 我们进行了三个实验,设计测试了一个模型,用于预测哪些艺术作品会对一个人的记忆产生持久的影响。在实验1中,我们从芝加哥艺术学院的在线数据库中收集了所有可用的4,021画的记忆性能度量。...3.3.3 过程 参与者看了40或41画的一个子集,以随机顺序呈现。对于每幅画,他们被要求按照1到5的李克特量表每幅画的四个属性进行评分。参与者给它的美打分(“你觉得这幅画有多美?”)...:一点也不有趣到非常有趣),以及它的熟悉程度(“你这幅画有熟悉?”(从完全不熟悉到非常熟悉)。这些画作在不同的实验中被平衡,因此每幅画都由10名参与者根据这四个特征进行评分。...ResMem架构用近7万张图像进行了训练和验证,这些图像来自一个组合图像集,主要由各种物体和场景的照片组成。这些图像在连续识别任务中进行测试(如实验1),通过HR估计记忆性,用于训练网络。

28520

数据增强方法 | 基于随机图像裁剪和修补的方式(文末源码共享)

今天分享的文献中,提出了一种新的数据增强技术,称为随机图像裁剪和修补(RICAP),它随机地图像进行裁剪,它们进行修补,以生成新的训练图像。...数据增强通过多种方式增加图像的多样性,例如翻转、调整大小和随机裁剪。颜色抖动改变了亮度、对比度和饱和度,使用主成分分析(PCA)RGB通道进行颜色转换交替。...Dropout是一种常用的数据增强技术,它通过降低像素向图像中注入噪声。与传统的数据增强技术不同,数据丢失会干扰和掩盖原始图像的特征。...首先,从训练集中随机选取四图像。第二,图像分别裁剪。第三,裁剪后的图像进行修补以创建新的图像。尽管这一简单的程序,RICAP大幅度增加了图像的多样性,防止了深度CNN具有许多参数的过拟合。...通过阿尔法混合两图像,混合产生像素级的特征,原始图像永远不会产生,大大增加了cnn必须学习的各种特征,潜在地扰乱了训练。

3.5K20
您找到你想要的搜索结果了吗?
是的
没有找到

图像到语言:图像标题生成与描述

1、图像简单标题生成与描述 图像中的视觉内容进行归纳和总结,使用合适的词汇与合理的语法结构将其重新组织表达出来,是图像标题生成与描述的主要研究内容。...Wang 等人(2018a) 将强化学习与对抗学习的思想引入图像流的描述任务中,使用层次化RNN 作为句子生成器,设计模判别器与语言风格判别器计算奖励,整个模型通过对抗训练的方式进行优化。...此外,对于 Flickr8K 数据集,其样本量更少,共包含 8 091 图像。 同样地,每幅图像对应 5 条参考句子。...VG数据集为每幅图像圈定了更为密集的视觉语义对象,进行描述。 部分研究人员认为,图像进行过多的圈定进行标注可能是没有必要的。...在原数据集中,共包含了约10 000 图像,每幅图像对应 5 条事实描述句子,1 条幽默风格的句子,1 条浪漫风格的句子。

1.6K30

业界 | 向机器学习偏见开战:谷歌展示全球涂鸦数据集分析结果

国家和全球图画一览 为了快速高效地理解该数据集中的视觉图形,我们与艺术家 Kyle McDonald 一道工作,叠加数千来自世界各地的图画。这帮助我们创建合成图像判断每个国家以及全球的趋势。...数据集中 115000 鞋的图片时,我们发现一种鞋(类似球鞋)的图片非常。由于这种鞋的图片比较多,神经网络学得的结果是仅识别这种鞋为「鞋」。...诊断数据以改善数据集的包容性 通过谷歌上个月 PAIR 项目推出的开源工具 Facets,我们可以快速浏览大型数据集中的图像。...该工具根据图像的特征值在多个维度内进行「层面搜索」(faceting),帮助我们定位数千图像,特征值可以是国家,最多可以是 100 个国家。...改进包括: 改变数据人工评级或内容生成的协议,使数据更加准确地代表地区或全球人群趋势 分析数据的子组,识别相当于视觉图形内表面的「交错性」数据增强修改数据权重,使数据具备更强的包容性 通过发布该数据集和

83690

扩展的曝光图像合成算法及其在单幅图像增强中的应用。

如果原始图像序列由N图像,则这样处理就增加为了N*M图,后续就是这N*M进行标准的比曝光融合了。因此可以明显的看出,这个算法的速度要比Exposure Fusion至少慢M倍。   ...图,而且我们注意到扩展后的图和源图没有一个是相同的,通过组合这新生产的8图,最终得到扩展的融合结果。   ...那么很明显,如果要想借用曝光融合算法来增强单幅图像,一个很自然的想法就是在原图的基础上使用不同曝光值进行映射(增强或降低对比度),然后融合就可以了,但是这里就涉及到了几个问题,第一,如果确定需要的曝光的图像的数量...,二是如何确定每幅图像的曝光值。   ...,在非焦点区域,图像是模糊的,焦点区域图像是清晰的,因为模糊区域的拉普拉斯金字塔必然数较小,而焦点区域因为有很多图像细节,拉普拉斯数据丰富,因此,如果是用特征权重融合,模糊区域结果就一定有影响,而如果用最大值

44620

CVPR 2020 论文大盘点-图像质量评价篇

上面左图为原图,中间为经过JPEG2000压缩后的图,右图为高斯模糊后的图,从清晰度来讲,肯定第一图质量更高,质量评价就是给图像打分,即如何用算法自动化给图像打分。...因为图像处理增强也好、恢复也好,你总要评价结果好坏;又或者你单纯的想某一项视觉任务评估图像能否满足需要,比如针对人脸识别的质量评价,看一图像是否应该拒绝还是输入到人脸识别系统中;现在也有很多人研究图像的美学评价...,这就很好理解了,图像拍的美不美进行打分。...CVPR 2020 共有7篇相关论文,既涉及到底层的视觉感知质量的评价,也涉及到高级视觉任务比如图像描述、人脸识别的质量评价,篇论文代码开源贡献了数据集,非常值得参考!...智能手机拍照功能的感知质量评估,该文建立了 66 部智能手机拍摄的 11125 图像每幅图像广泛调研了人类其各种指标的评价,是智能手机拍照功能的最全面比较研究,基于此数据集设计了盲图像质量评价基线模型

2.3K20

CVPR2021| 基于自监督学习的视图立体匹配 (CVPR2021)

,首先参考图像和源图像进行下采样得到图像金字塔,然后利用共享权重的特征提取网络为所有尺度的图像进行特征提取,提取的特征通过单应变换构建代价体。...考虑到视图之间可能存在遮挡,因此在计算光度损失的时候采用了TopK的策略。即计算M=6图像之间的光度损失,但是只选取K=3最小的误差计算损失项。...图2 鲁棒的光度一致性损失计算 预备知识3: DTU数据集的预处理流程 DTU数据集提供了带有法向信息的点云,MVSNet论文在数据预处理阶段点云进行表面重建,得到表面网格模型,又因为DTU数据集提供了每幅视角下相机位姿...图4 基于概率的图像合成 第二阶段:基于伪标签的自监督迭代训练 图5 伪标签生成流程示意图 利用高分辨率的图像进行深度图预测,利用视图几何一致性初始深度图进行过滤,将过滤后的深度图进行点云融合,得到三维空间中的点云...,再通过泊松表面重建,得到重建点云的表面网格模型,然后通过渲染得到每幅视角下的深度图。

1.2K10

SPPNet算法解析

容易看出这里面存在的一些性能瓶颈: 速度瓶颈:重复为每个region proposal提取特征是极其费时的,Selective Search对于每幅图片产生2K左右个region proposal,也就是意味着一图片需要经过...性能瓶颈:对于所有的region proposal防缩到固定的尺寸会导致我们不期望看到的几何形变,而且由于速度瓶颈的存在,不可能采用尺度或者是大量的数据增强去训练模型。...SPPnet在这个想法上继续加入SPM的思路,SPM其实在传统的机器学习特征提取中很常用,主要思路就是对于一副图像分成若干尺度的一些块,比如一图像分成1份,4份,8份等。...相比于其他的CNN网络,SPPNet的优点是可以方便地进行尺寸训练,而且对于同一个尺度,其特征也是个空间金字塔的特征,综合了多个特征的空间尺度信息。...: 训练的时候通过上面提到的尺寸训练方法,也就是在每个epoch中首先训练一个尺寸产生一个model,然后加载这个model训练第二个尺寸,直到训练完所有的尺寸。

27140

模态应用之自然语言处理

数据集有91类物体(人、猫和卡车等),共计32.8万图像每幅图像包含5个英文描述。...Flickr30K收录了来自Flickr的共计31783日常活动、事件和场景的图像每幅图像通过众包方式标注了5个图像描述。...视觉对话和模态对话常用数据集的详细对比如表3所示。04 模态摘要模态摘要是基于模态输入(文本、语音、图像和视频等)的理解,归纳生成单模态或者模态的概括性总结(摘要)的任务。...在大规模图像-词汇对齐的模态语料库上训练的预训练语言模型可增强自然语言的理解能力。实验证明,该模型在多个纯文本的任务上(如GLUE、SQuAD和SWAG等)均获得了显著的性能提高。...也有研究者模态翻译的可解释性进行了探索。Wu等人的研究表明,视觉特征模态翻译的帮助来自于正则化,视觉特征的合理选取模型性能至关重要。

1.4K50

手写数字图像数据集MNIST

每幅图像代表一个手写数字,每个方框下方的数字是这个图像对应的标签(label)。...一图像及其对应的标签构成了一个输入/输出,例如,图1左上角的图像与其正下方的5构成了一个输入/输出,我们把这个输入/输出对称为一个样本(sample/example)。...,最后将加载数据作为参数调用ds_imshow()函数显示图像。...keras.datasets.mnist.load_data()方法用于加载数据集,首次运行时需要用十几秒到几分钟的时间进行远程下载,再次使用时将从本地加载。...使用scikit-learn加载MNIST 与keras.datasets.mnist.load_data()方法类似,scikit-learn也提供了加载MNIST数据集的方法,通过以下代码可以导入datasets

85020

多相机视觉系统的坐标系统标定与统一及其应用

标定方法拼接图像 方案简介: 对于有些大幅面物体 ,可以通过拍摄图像每幅图像覆盖物体的不同的部分。...甚至可以将图像拼接为一副覆盖整个物体的大图,这个可以通过每幅图像都校正到同一个测量平面上实现。在结果图像上,可以直接在世界坐标系中进行测量。 图像拼接示意图: ?...为了保证可以将图像拼接为一副大图,它们之间必须存在一个小的交迭区域。交迭区域可以很小,因为这个交迭区域只是为了保证在拼接的结果图像中没有缝隙,下图为交叠区域示意图。 ?...在得到所有进行校正图像需要的映射图后,使用两个摄像机拍摄的每个图像都可以进行校正并且高效的拼接。拼接的结果图由两校正后的图像组成,每个校正后的图像图像的一个部分,下图为校正后的图像和拼接结果。...这种拼接方法的优点是不需要进行摄像机标定,并且每幅单独的图像可以自动进行排列。

7K20

复旦提出GaitSet算法,步态识别的重大突破!

步态识别是一种新兴的生物特征识别技术,旨在通过人们走路的姿态进行身份识别,与其他的生物识别技术相比,步态识别具有非接触远距离和不容易伪装的优点。在智能视频监控领域,其更具优势。...F 为提取单幅步态轮廓图像的CNN特征; G 为将各图像的CNN特征聚合成一个特征向量; H 为考虑提取尺度特征,通过全连接网络提高特征的鉴别性。...3.1 提取图像CNN特征 由以上算法框架流程图可知,将步态序列的黑白轮廓图每幅图像分别输入CNN网络提取特征。 此时图像集的图像个数可为不同,每幅图像单独处理。...3.2 特征集合池化(Set Pooling) 该部分作用即将图像通过CNN网络提取的特征聚合为一个特征向量。 该部分体现在以上算法框架流程图中SP部分。...四、实验结果 该文在CASIA-B和OU-MVLP两数据库上进行了实验。 数据集和实验设置不再赘述,欲细读此文的朋友可于文末自行下载查看。

1.3K20

低光图像目标检测的研究成果总结

在低亮度条件下对日本某市中心真实监控摄像机拍摄的两动态图像的实验检测结果表明,在相同的误报率下,与独立检测算法相比,该算法的准确率提高了15%,讨论了该算法在严重监控情况下的可实现性。...检测结果显示在该领域两个常用的数据库上,即麻省理工学院+CMU的130图像和生物标识的1526图像。本文实现了90%以上的检测率和10-7%的极低假阳性率。...实验结果表明,增强图像的闵可夫斯基距离度量指数提高到0.975,检测准确率分别达到0.907和0.840,是其他图像增强方法中最高的。该方法智能城市应用中的夜间无人机视觉监控具有潜在价值。...在检测过程中,通过将车辆尾灯检测与目标提案相结合来生成准确的感兴趣区域。实验结果表明,所提出的仿生图像增强方法车辆检测有较好的效果。...我们的车辆检测方法显示了95.95%的检出率,每幅图像为0.0575假阳性,优于一些最先进的技术。我们提出的方法可以处理各种场景,包括不同类型和大小的车辆,那些有遮挡和模糊区域。

3.5K20

使用TensorFlow和OpenCV实现口罩检测

这个数据集包括大约1,376图像,其中690图像包含戴口罩的人,686图像包含没有戴口罩的人。...这里,我们需要增强我们的数据集,为训练提供更多数量的图像。...在数据增强时,我们旋转翻转数据集中的每幅图像。在数据增强后,我们总共有2751图像,其中‘yes’类中有1380图像,‘no’类中有1371图像。...训练CNN模型 这一步是主要的步骤,我们使用训练集中的图像来训练我们的模型,使用测试集中的数据来测试我们的训练结果,给出准确率。我们进行了30次迭代,我们训练的输出结果在下面给出。...face_clsfr=cv2.CascadeClassifier('haarcascade_frontalface_default.xml') 这种级联分类器是由OpenCV设计的,通过训练数千图像来检测正面的人脸

2.6K12

opencv相机标定示例代码

*/ ofstream fout("caliberation_result.txt"); /* 保存标定结果的文件 */ //读取每一图像,从中提取出角点,然后对角点进行亚像素精确化 cout...view_gray,CV_RGB2GRAY); /* 亚像素精确化 */ find4QuadCornerSubpix(view_gray,image_points_buf,Size(5,5)); //粗提取的角点进行精确化...\n"; //标定结果进行评价 cout<<"开始评价标定结果………………\n"; double total_err = 0.0; /* 所有图像的平均误差的总和 */ double err...= 0.0; /* 每幅图像的平均误差 */ vector image_points2; /* 保存重新计算得到的投影点 */ cout<<"\t每幅图像的标定误差:\n"; fout.../* 通过得到的摄像机内外参数,对空间的三维点进行重新投影计算,得到新的投影点 */ projectPoints(tempPointSet,rvecsMat[i],tvecsMat[i],cameraMatrix

1.8K30

手把手教你用TensorFlow搭建图像识别系统(一)| 干货

我们希望计算机能做的包括以下方面:当我们向计算机展示一图片(特定尺寸)时,它能够图片进行分析打上标签。他可以从固定数量的标签中进行选择,每一类的标签描述了一种图像的内容。...这个任务被称作图像分类。 我们将使用标准的CIFAR-10数据集。CIFAR-10包含了60000图片。它有10个不同的分类,每类包含6000图片。每幅图片的规格是32x32像素。...这么小尺寸的图片我们人类来说有时很难进行正确的分类,但它却简化了计算机模型的任务,降低了分析图片的计算负载。 CIFAR-10数据集中10个分类中的随机图片。...监督学习 我们怎么使用图像数据集让计算机自己学习呢?即使计算机自己能够学习,我们也需要告诉它学习什么和怎样学习。所以,我们需要通过制定一个大致的流程让计算机能够图像进行评估。...稍后在实际使用它们时再进行讨论。然后加载CIFAR-10数据集。因为读取数据并不是我们要做的核心,我把这部分的函数单独放在data_helper.py文件中。

1.1K70

开源目标检测算法用于交通标志检测全方位评估

交通标志检测在自动驾驶、汽车主动安全中应用非常重要,通用的目标检测算法可以通过微调网络的方式直接用于交通标志检测。如何在不同的硬件平台和应用环境中选择算法?...来自西班牙Universidad de Sevilla 的学者全方位评估了现有主流的目标检测算法用于交通标志检测,对于进行相关研究和开发的人员具有重要的参考价值。 作者信息: ?...GTSDB含有900图像,共计1206个交通标志,其中600训练图像含有846个交通标志,300测试图像含有360个交通标志。...结论 Faster R-CNN与Inception Resnet V2的组合达到最高的mAP(95.77%),R-FCN与Resnet 101组合达到精度(95.15%)和速度(85.45ms每幅图像)...的最佳平衡,YOLO V2取得了有竞争力的精度(78.83%)并且是第二快的(21.48ms每幅图像),SSD MobileNet则是最快的模型(15.14ms每幅图像),也是对内存要求最低的(94.70MB

94530

高精度肺结节自动检测方案 | 算法解析

影像科医生的首要任务是反复逐层浏览三维CT图像,寻找肺结节区域,然后发现的肺结节区域进行分析,判断它是否癌变确定它的癌变程度。...Jocobs等人实现了一个半实性肺结节的可疑位置推荐算法[4],直接通过区间阈值CT图像阈值化,阈值化图像进行形态学操作,求出连通区域,从而推荐可疑肺结节的位置。...与此同时,Dou等人设计了一个浅层三维全卷积神经网络,结合一种在线样本过滤算法,实现了端到端的类型肺结节可疑位置推荐,在LUNA16数据集上把肺结节召回率进一步提升到97.1%,并把平均每幅CT图像上假阳性推荐位置的数量减少到...该算法在LUNA16数据集上进行了全类型肺结节检测效果的验证,能在平均每幅CT图像只容忍1个假阳性肺结节的情况下达到75.2% 的召回率。...该网络是一个多输入的并行结构,每个输入是候选图像块的一个视角的截面(这种视角的结构使二维卷积神经网络能抽取更多、更丰富的空间信息),在LUNA16数据集上能在平均每幅CT图像容忍1个假阳性肺结节的情况下达到

33620

研究人员使用更少的标记数据训练图像生成AI

生成AI模型倾向于学习复杂的数据分布,这就是为什么它们擅长于生成类似人类的语言,以及以假乱真的汉堡和人脸图像。但是训练这些模型需要大量标记数据,并且根据手头的任务,必要的语料库有时会供不应求。...然后执行聚类分析,将表示进行分组,使同一组中的表示与其他组中的表示具有更多共同点。最后训练一个GAN,通过推断标签来尝试区分生成的样本和真实样本。...为了测试该技术的性能,研究人员使用ImageNet数据库,其中包含130训练图像和5万测试图像每幅图像对应于1000个对象类中的一个,随机从每个图像等级中选择一部分样本来获得部分标记的数据集...在第三代谷歌张量处理单元的1280个核心上,使用无监督、预训练和联合训练的方法每个GAN进行三次训练后,团队用两个评分指标比较了输出的质量。...在未来,研究人员希望研究这些技术如何应用于更大和更多样化的数据集,“未来的工作有几个重要方向,但我们相信这是实现少数高保真图像合成的第一步。”

78720

用深度学习解决Bongard问题

例如,在对数百万图像进行训练后,再图像类别进行分类时,取得了很好的效果。在这种情况下,神经网络显示出与人类相似的(甚至更好的)性能。...首先,在与目标问题相似的问题中,在许多样本上模型进行训练,然后再利用该模型的相关参数解决目标问题。 深度神经网络学习训练数据的层次化特征表示[8]。...合成数据集 为了提取特征的神经网络进行预训练,我生成了一组随机图像,类似于Bongard问题中出现的图像,这些图像主要包含几何原语。...对于每一图像,我们都获得一个二值特征向量,该特征从NN(神经网络)的角度描述了这幅图像。 9.png 2)每个特征,核查了10训练图像的特征值。...有几种方法可以解决这个问题: 创建一个包括图像和Bongard问题中规则解释的模态合成数据集,并将其用于有监督学习。

2.3K170
领券