展开

关键词

CVPR 19系列 | 基于深度树学习的Zero-shot人脸检测(文末论文)

先前的技术工作Face Anti-spoofing基于的人脸反欺骗是指人脸防欺诈技术,仅将RGB作为输入而不需要诸如深度之类的额外信息。 然后,爸爸给小明安排了一个任务,让他在动物园里找一种他从没见过的动物,叫,并告诉了小明有关于的信息:“有着的轮廓,身上有老虎一样的条纹,而且它熊猫一样是黑白色的。” 如下所示ZSL就是希望能够模仿人类的这个推理过程,使得计算机具有新事物的能力。? 这样的模型显然并不符合我们对人工智能的终极想象,我们希望机器能够上文中的小明一样,具有通过推理,新类的能力。 假设我们的模型已经能够,老虎和熊猫了,现在需要该模型也,那么我们需要爸爸一样告诉模型,怎样的对象才是,但是并不能直接让模型看见

30220

CVPR 19系列1 | 基于深度树学习的Zero-shot人脸检测(文末论文)

先前的技术工作Face Anti-spoofing基于的人脸反欺骗是指人脸防欺诈技术,仅将RGB作为输入而不需要诸如深度之类的额外信息。 然后,爸爸给小明安排了一个任务,让他在动物园里找一种他从没见过的动物,叫,并告诉了小明有关于的信息:“有着的轮廓,身上有老虎一样的条纹,而且它熊猫一样是黑白色的。” 假设我们的模型已经能够,老虎和熊猫了,现在需要该模型也,那么我们需要爸爸一样告诉模型,怎样的对象才是,但是并不能直接让模型看见。 ,包含了模型需要辨的类),这里和传统的监督学习中也定义一样;(3)训练集类的描述 ? ,以及测试集类的描述 ? ;我们将每一个类 ? ,都表示成一个语义向量 ? 的能力,因此模型需要知道所有类的描述 ? 和 ? 。ZSL这样的设置其实就是上文中小明的过程中,爸爸为他提供的条件。

1K20
  • 广告
    关闭

    云产品限时秒杀

    云服务器1核2G首年38元,还有多款热门云产品满足您的上云需求

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    MIT和Google让AI具备感官统合能力,可将看到听到读到的东西关联起来

    但是就交互设计之父Alen Cooper所说那样,计算机能你说的话,但它可能不懂你的意思。为什么?上下文语境、背景等信息对于理解意思和意义是非常重要的。 MIT训练AI将、声音和文字匹配起来协调正是研究的关键。研究人员并没有教算法任何新东西,而是建立了一种方式让算法将一种感觉获得的知与另一种进行连接或协调。 接下来,研究人员把带有标题的类似情况下的提供给同一个算法,这样它就能够将文字与对象和中的动作关联起来。想法跟前面一样:首先网络会单独中所有的对象以及相关问题,然后进行匹配。 乍看之下这种网络似乎没什么了不起,因为AI独立声音、、文字的能力已经很了不起了。 比方说,算法听到在叫的时候,它会假设的样子类似于(在不知道样子的情况下):它会知道是一头动物,它会知道这头动物会发出这类的声音,并且自然地将这一信息在不同形态间做转化。

    21340

    谷歌新突破:AI自动重构3D大脑神经地,准确度提高一个数量级

    这个过程需要对脑组织进行纳米级(通常使用电子显微镜)3D成,然后分析所得到的数据以追踪大脑的神经突并个体突触连接。 通过预期运行长度测量准确度研究者与克斯普朗克研究所的合作伙伴合作,设计了一个度量标准,并称之为“预期运行长度”(ERL),用于测量以下内容:给出脑中三维中随机神经元内的随机点,在犯某种错误之前,我们可以追踪神经元多远 红线显示“合并率”的进展,“合并率”测量两个单独的神经突被错误地追踪为单个对象的频率;实现非常低的合并率对于实现手动和纠正重建中的剩余错误的有效策略是重要的。 算法在一个鸣禽大脑中追踪单个神经突3D。新的flood-filling网络方法对胸草雀歌鸟脑的一小部分中的每个神经元进行分割,如下所示:?重建部分胸草雀的大脑。 金球代表使用先前发布的方法自动突触位置。通过将这些自动化结果与修复剩余错误所需的少量额外人力相结合,研究者现在可以研究鸣禽连接组,从而更深入地理解雀鸟,如研究它们如何唱歌,以及如何学习唱歌。

    21130

    NVIDIA 又出了一个“变脸”算法,你要不要试试?

    说到的转换(image-to-image translation),就会想到NVIDIA的 CycleGAN,它可以将某种转换爲另一种,例如将转换爲。 ? 这样看起来非常有意思,但却有一个很大的限制,因为要完成之间的转换,要弄一堆的照片和一堆的照片,再训练 CycleGAN 模型就能获得两类之间的转换关系。 虽然之间的不需要成对匹配,但这样是不是还有一些复杂?感觉不能人那样自由「想象」? 虽然当前无监督转换算法在很多方面都非常成功,尤其是跨的复杂外观转换,但根据先验知从新一类少量样本中进行泛化的能力依然无法做到。 具体来说,如果模型需要在某些类上执行转换,那么这些算法需要所有类的大量作爲训练集。也就是说,它们不支持 few-shot 泛化。

    62810

    前沿 | 谷歌AI脑神经元绘制法登上Nature子刊:速度提升一个数量级

    这一过程需要对大脑组织进行纳米级的 3D 成(通常使用电子显微镜),然后分析成数据结果以追踪大脑的神经突触并单个突触连接。 对于工程师来说,ERL 的吸引力在于它将线性物理路径长度与算法产生的个错误的频率关联起来,并且可以直接计算。 红线表示「合并率」的进展,合并率测量两个分离的神经突被错误地追踪为单个目标的频率;达到非常低的合并率对于实现手动和校正重建中剩余误差的有效策略至关重要。? 分割过程鸣禽连接组学我们用 ERL 测量了一百万立方微米胸草雀大脑中一组基本真实神经元的进展,胸草雀大脑通过我们的合作伙伴使用肖特基场发射扫描电子显微镜而成。 金色球是使用以前发布的方法自动突出位置。 谷歌研究人员正和克思·普朗克研究所的同僚们通过这种自动化方法,辅以少量人力协助以解决一些疑难问题。

    19320

    我所理解的零次学习

    然后,爸爸给小暗安排了一个任务,让他在动物园里找一种他从没见过的动物,叫,并告诉了小暗有关于的信息:“有着的轮廓,身上有老虎一样的条纹,而且它熊猫一样是黑白色的。” 假设我们的模型已经能够,老虎和熊猫了,现在需要该模型也,那么我们需要爸爸一样告诉模型,怎样的对象才是,但是并不能直接让模型看见。 ZSL这样的设置其实就是上文中小暗的过程中,爸爸为他提供的条件。2 ZSL设置2,可以较为直观地了解ZSL的设置。讲到这,很多同学可能会问:(1)类的描述A到底是怎么获取的? 我希望模型能够在没有样本的情况下,,而现在,虽然我不需要为模型提供的样本,但是却要为每一个类添加一种描述,更离谱的是我还需要(测试集)的描述,这个过程并没有想象中智能。 答:的确,在我们的想象中,我们期待的智能是:只给机器、老虎和熊猫,然后它就可以了,这样多爽,多神奇。

    61020

    【python 从菜鸟

    安装在C:Program Files下5、找到 pytesseract.py 更改 tesseract_cmd = C:Program FilesTesseract-OCRtesseract.exe二、英文 三、验证码 ??? 二、实现源代码 1、英文#-*-coding:utf-8-*-import sysreload(sys)sys.setdefaultencoding(utf-8) import timetime1 FilesPython27Libsite-packagespytesseracttest.png)code = pytesseract.image_to_string(image)print(code)2、验证码 = image.convert(L)# 把片变成二值

    1K30

    激光雕刻机装上AI,混合材料T恤上都能雕出花,自动变换力度保证不割破

    ,SensiCut立就告诉你毛毡太薄了,现在的案设计对它来说太复杂。 原理很简单:利用散传感(speckle sensing)技术,将激光打向材料表面,上面的微小特征差异导致反射激光束光路的微小偏差,从而反射到传感器成为带有亮和暗的散案。 下为四种材料分在普通相机、电子显微镜和散传感成下的三组照片,对比很明显: 有了,就可以用训练好的神经网络来进行类型了。 还用了数据增强技术生成额外以便模型更好地泛化(比如光照也不会过多影响结果)。评估结果和未来方向SensiCut 98.01%(SD=0.20)的平均准确率基于5-fold交叉验证。 他们还做了一些实验发现:相比红色白色材料100%的准确率,反射光线较少的黑色材质只有92%的准确率,不过这个在捕获时启用自适应曝光来可以调整。此外他们还研究了一下光照和角度对材料的影响。

    11810

    Flow在零样本任务上大显身手

    举例而言,我们要中的三种动物,那么首先我们需要标注大量老虎、兔子和片,然后基于这些有标签的片训练深度学习模型,最后将未知类片输入训练好的模型中,才能够准确片中包含的动物类 然而,在实际应用场景中,我们往往会遇到以下“尴尬”情况:当我们在训练深度学习模型时,能“看见”的是标注好的大量老虎和兔子的片,然而我们需要片中包含的却是。 可以预见的是,不管我们使用多么先进的模型架构,将输入训练好的模型后,所得到的预测结果很有可能就是老虎(为啥?很简单,因为老虎和长得更不是嘛)。 如下所示,我们把称作不可见类(Unseen Class),而老虎和兔子就属于可见类(Seen Class),而这个问题则被称为零样本(Zero-Shot Recognition)问题,用来解决这一类问题的方法则被称为零样本学习 2、学习语义空间到视觉空间的映射关系这种思路反其道而行之,学习语义到视觉空间的映射,这样的话我们就可以基于的语义编码生成的视觉特征,当新来一幅包含片时,我们就可以根据它在视觉空间中与之前生成的特征进行相似度度量

    24520

    少儿AI教育疯狂前行,家长却在为伪AI买单

    来源AI课1分35秒,我又惊了,做题居然能修好帽子!大嘴博士直接亮出黑板,一本正经地讲看形找规律,跟我数学老师是一模一样,然后又抛出几道练习题强制触屏完成,这让我一下子从动画片急转到课堂。 毋庸置疑,AI课确实做到了教育二字,通过动画吸引孩子注意力,剧情引导、反复教学结合触屏、语音等技术应用,再用专业教学团队自研教材、录制有趣教学视频,从而打造出大量吸金的非真人沉浸式教学课堂。 而且AI课的技术仍然局限于机器知觉应用的语音技术和触屏技术,内容方面的教学内容、情节设计、强制模式、动画互动、鼓励方式、成绩生成等都是提前设计好或者录播的,依旧由人工完成大部分工作,不过实际效果很好 片来源艾瑞咨询截来源买购网最直接体现莫过于,知讲解、概念普及、作业布置、鼓励机制等花样百出,但只要稍微有问题,比如孩子就任意问题提问软件,希望给出答案, AI立就露馅,答非所云。 艾上AI疫情期间已放弃AI老师,转换为直播课+AI工具训练+在线辅导的教学模式,的在线趣味AI课+线下社群老师教学模式,其中动画制作、情节设计、教学内容研究等工作仍是人工完成,AI的弱势不过被动画角色和趣味性的强势所遮掩

    17210

    英伟达又火了一篇转换论文,我们竟然用来吸猫

    借助数据集,无监督转换方法可以将给定类的映射到另一类的模拟,例如 CycleGAN 将转换为。 虽然这种模型非常成功,但在训练时需要大量源类和目标类的,也就是说需要大量。而这样训练出来的模型只能转换,作者认为这极大限制了这些方法的应用。 说到的转换(image-to-image translation),我们最熟悉的可能就是 CycleGAN,它可以将某种转换为另一种,例如将转换为。? 如果我们希望完成之间的转换,那么要弄一堆的照片和一堆的照片,再训练 CycleGAN 模型就能获得两类之间的转换关系。虽然之间的不需要成对匹配,但这样是不是还有一些复杂? 虽然当前无监督转换算法在很多方面都非常成功,尤其是跨的复杂外观转换,但根据先验知从新一类少量样本中进行泛化的能力依然无法做到。

    26230

    AI角 | AI challenger零样本学习算法大赛报名开启,数据集开放

    这几种特征不仅适用与线性分类器,而且在非线性分类器中也能达到良好的表现。 例如一张片,但在训练时没有训练过片。那么我们可以通过比较这张片中包含的属性和各个类的属性定义,进而在属性空间中找到与该测试片相近标签,即为该片的标签。 而零样本学习的意义也显而易见:在传统任务中,训练阶段和测试阶段的类是相同的,但每次为了新类的样本需要在训练集中加入这种类的数据。 应用场景未知物体例如,模型在“”、“牛”等类上训练过,因此模型能够准确地”、“牛”的片。当模型遇到“象”这个新类,由于从未见过,模型无法作出判断。 未知类合成近年来,对抗网络GAN被用于合成,取得了以假乱真的效果。但传统合成仅能合成见过的类。零样本合成希望模型能够合成从未见过的类

    34520

    【Nature】机器学习革新生物数据分析,自动物种分类成为可能

    其中,研究人员通过计算机视觉技术,用数码影生成数字化三维模型,计算机能自动标本的各项特征,而这些数据可以用于确定该生物与其他物种以及同种类中不同个体间的关系。 发育中的鱼胚胎的细胞流,上是 3D 显微镜数据,下是三维显微镜数据的平面投射。 但是,当追踪单个鱼细胞的路径时,得到的轨迹是一团乱麻。于是,Scherf 借用了分析大气和洋流的流体力学方法,绘制染色线,标注主要路径。为此,Scherf 编写了软件用于分析。 目前为止,他通过这种方法发现了一个基因突变,这个突变只发生在鱼发育初期很早的阶段,会改变细胞运动轨迹,导致鱼器官发育畸形。Scherf 认为,其他研究生物发育的人也可以因此受益。 使用标本高清,计算机能自动细胞并生成形状、大小等关键性状,使得自动物种分类成为可能。来源:John Tann, Australian MuseumCC BY 3.0.

    54280

    地,我们发现一种称为深卷积神经网络的模型 可以在硬性视觉任务上实现合理的性能 - 匹配或超过某些领域的人类表现。 我们现在正在采取下一步,发布在最新型号Inception-v3上运行的代码。 Inception-v3 使用2012年的数据对ImageNet大型视觉挑战进行了培训。 这是计算机视觉中的一项标准任务,其中模型尝试将整个分为1000个类,如“”,“达尔提亚”和“洗碗机”。例如,以下是AlexNet对一些进行分类的结果:? 您将学习如何使用Python或C ++ 将分类为1000个类。我们还将讨论如何从此模型中提取更高级的功能,这些功能可能被重用于其他视觉任务。 我们很高兴看到社区将如何处理这种模式。  ,您可以看到网络正确她穿着军装,得分高达0.8。?

    2.8K80

    Unsupervised Attention-guided Image-to-Image Translation

    这是NeurIPS 2018一篇翻译的文章。目前的无监督的翻译技术很难在不改变背景或场景中多个对象交互方式的情况下将注意力集中在改变的对象上去。 这篇文章的解决思路是使用注意力导向来进行翻译。下面是这篇文章的结果:? 上的左边就是转普通的具体流程,首先(s)()会通过(F_{S rightarrow T})((S)代表Source,(T)代表Target)得到普通的预测,通知(s)还会通过一个注意力网络 如果不跟前景相关,根据上述公式知道,Foreground将不会凸显前景,因为掩模不跟前景相关,相乘会得到低值前景,而Background将凸显的特征,相加后还是,与普通差异大,无法骗过鉴器, ,但整体场景是假的,因为背景仍然显示了生活在草地上的地方,而不是生活在热带稀树草原上的地方,要向骗过鉴器,注意力网络也会将背景凸显出来,这是我们不想看到的,具体事例如下所示:?

    40230

    沸腾的AI课赛道,“嘘声”越来越大?

    来自Canva不知何时,“2—8岁上,学英语、学思维”的广告语随处可见。也许是,教育要从小抓起,每一个父母都不希望自己的孩子输在起跑线上,而AI课的热度恰恰反映出少儿AI教育市场的潜力。 据悉,AI课是“猿辅导”公司在启蒙阶段的布局产品,其基于自主研发的人工智能技术与数据化教研成果,专为2-8岁孩子设计的思维与语言学习。自2017年上线以来,AI课的圈粉无数。 据Frost Sullivan统计数据显示,2018年,我国AI教育市场中,机构学习解决方案占比约59%,人工智能在线课程和智能知产品及服务分占比26%、15%,预计到2023年,我国AI教育市场规模超 AI课教育研究院院长修佳明明确表示:AI课程与传统的线上课程相比具备很多优势。 终上所述,疫情加速了少儿AI教育的爆发,资本纷沓而至意分得一杯羹,进而掀起了优胜劣汰的浪潮。

    47230

    封闭已久的智能驾驶系统,在云栖大会上,被敲开一个裂缝

    紧急制动、快速响应等要求,决定了汽车的车控系统必须是实时在线的,还要满足高可靠性。智行这次发布的AliOS智能驾驶系统内核,是车控操作系统的核心部分。 AliOS智能驾驶系统内核能够给ADAS和自动驾驶提供强大的计算能力,以满足和决策计算的要求,其次是强大的数据吞吐能力,以满足多传感器数据的实时接入和处理;第三是高度的灵活性扩展性可编程性,以满足多种算法模型的需要 这一场景似曾相。因为智行这次也宣布了将AliOS智能驾驶系统免费开放给用户的战略。 越多的伙伴参与“软件定义汽车”,产业发展就越迅速,的这块“基石”也就越牢靠。筑牢基石的下一步,自然是向完整的车载操作系统进军,这也是智行“三部曲”战略规划终极目标。 首先是体验方面, QNX系统或者安卓,多屏互动的体验不好,但智行可以做到各个应用的显示边界融合、应用间彼此通信,这源于智行从底层开始设计操作系统。其次有产业安全方面的风险。

    7520

    【Nature重磅】谷歌AI自动重构3D大脑,最高精度绘制神经元

    这个过程需要以纳米分辨率(通常使用电子显微镜)对3D脑组织进行成,然后分析所得到的数据,追踪大脑的神经节并各个突触连接。 ERL吸引人的地方在于,它可以将线性的物理路径与算法出现个错误的频率联系起来,以便于直接计算。 采用ERL方法(蓝色线)的结果表现最好,红色线表示“合并率”,即两个独立的神经元被错误地当成一个目标进行跟踪的频率。将合并率保持在一个很低的水平,对于研究人员手动辨并改正其他错误具有很重要的意义。 重构胸草雀大脑中的一部分。不同颜色表示不同区域,都是使用Flood-Filing网络自动生成的。金球代表使用以前的方法自动的突触位置?胸草雀又称珍珠鸟,属于雀形目梅花雀科,分布于澳洲。 1:分割pipeline,包括共(consensus)和集聚程序FFN具有两个输入通道:一个用于3D数据,一个用于对象形状(叫做预测对象(POM)的数据结构)的当前预测。

    30320

    谁能驾驭赛克?微软AI打码手艺 VS 谷歌AI解码绝活儿

    这背后涉及到人脸检测、追踪和。1.人脸检测人脸检测的作用是定位人脸出现的位置。为了保证人脸尽量不被漏掉,微软采用了一套基于深度网络的、具有高召回率的人脸检测器。 3.人脸当然,该方案仅仅靠人脸检测与追踪还是不够的。假设一个场景,如果视频中存在镜头切换以及人物遮挡等问题,就需要利用人脸。 同理,在实际放大照片中这种方法并不合适,因为这种插值会增加的可见锯齿。双线性插值在双线性插值中,新创造的象素值,是由原位置在它附近的(2 x -2)4个邻近象素的值通过加权平均计算得出的。 举个例子,片中有几只点狗,但其中一只点狗被打码了,于是去赛克算法寻找这个中“最能匹配这个赛克的”其它点狗的局部,然后用这个局部来填补那个赛克。 他们已经成功将 8×8(毫米)网格的赛克转换成为肉眼可辨的人物

    89130

    扫码关注云+社区

    领取腾讯云代金券