首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

微信AI从物到通用图像搜索的探索揭秘

作者:lincolnlin,腾讯 WXG 专家研究员 微信物是一款主打物品识别的 AI 产品,通过相机拍摄物品,更高效、更智能地获取信息。...电商场景:我们要识别的集合是无限大的,而且还是动态的。所以我们是通过动态图像召回。从召回的结果上推断出商品的具体款式。 动植物汽车这种场景:集合是相对固定的。而且需要一些专业的数据库。...故我们基于 maskrcnn 的训练框架,改进 RetinaNet 成为双流的 RetinaNet, 一条流用于商品的精确位置和类别输出,一条流只用于分类自然场景图片,以便快速拓展更新模型。...前面提到服务端的检测是带有类别的,比如图中输出鞋子,那么我们就走鞋子的专用检索模型提取特征,再到鞋子库中检索。这是最朴素的版本。...检索篇 | 通用以图搜图之无监督的分库 上面提到的是物的检索方案实现,回到通用的以图搜图场景,我们无法简单的把图片定义成 N 个库出来,所以我们用了无监督的分库方法。

3.2K30

下一代听歌曲技术——从信号处理到深度学习

怎么衡量一款听歌曲效果的好坏?什么样的听歌曲才是好的系统?QQ音乐的听歌曲到底效果怎样呢?来看看用户的反馈。 用户的期望可以总结为曲库全、识别准、速度快、灵敏度高以及旋律识别的模糊性。...即便是更短的片段时长,QQ音乐识别的精准率仍然保持在100%,尽管在更短的情况召回率降低,但在一定程度上也能提升用户体验。 使用经典听歌曲系统,无结果中的样本中,翻唱歌曲占60%甚至更多。...可以看到对一些检索库中不存在的翻奏例子或者翻唱的例子,经典听歌曲系统无法识别。 从19年开始翻唱、改编歌曲呈爆发性增长。其中的原因我们也不言而喻。因此我们迫切需要进行技术更新。...但缺点也很明显,序列的严格对齐,变速后无法满足时序要求,所以不支持变速;单个Query和Doc都要提取数百Embedding,索引检索开销大。 目前QQ音乐增加了歌声ASR检索模块。...输出不同同歌组以更好的服务不同业务。 该技术不仅仅可以应用在音乐行业,在直播中对于真假唱辨别也十分高效。 还有很多其他的应用,这里不一一介绍。

1.7K50
您找到你想要的搜索结果了吗?
是的
没有找到

基于信息理论的机器学习-中科院自动化所胡包钢研究员教程分享04(附pdf下载)

本次tutorial的目的是,1.介绍信息学习理论与模式识别的基本概念与原理;2.揭示最新的理论研究进展;3.从机器学习与人工智能的研究中启发思索。...根据各种拒门槛值设定,可以组合出各种分类,比如“小类与拒类”的两类分类输出。 ?...其中应用了修正的互信息计算公式以适应拒分类情况。我们是通过混淆矩阵来获得联合概率分布的估计。 ? 表中对比了贝叶斯与互信息分类器的输入与输出情况。...当贝叶斯分类器需要代价矩阵或拒门槛值作为输入量时,互信息分类器是将其变为输出结果。 ? 左图:给出了两类的均值是等同,方差不同。...但是它们均无法在拒分类学习中胜任。而互信息分类器在拒分类学习中表现了独特的优势。该方法能够根据数据的分布自动平衡误差类别与拒类别。

1.8K70

「形色」专访:爆款识花软件的炼成之路

在知乎上,有人将几种常见识花软件进行对比,雷锋网 AI 研习社看到,形色花的好评数很多,而微软花相较来说准确度逊色于其他主流花软件。...有人提出这样一种看法,「形色识别的准确度比较高是因为前期训练数据比较多,而微软花识别率太低是因为训练数据少,但他们的算法相对来说比较优秀。」...,数量的上限大约在 500 种,超过这个数量级,系统的工作量和数据库的承载能力都无法实现。...形色表示,在某种程度上,计算机可以看到很多人眼无法辨识的特征。...现在,形色 App 已经入驻上百万植物专家和植物爱好者,当系统碰到实在无法别的植物,用户可以直接上传到鉴定区,植物专家和爱好者会在几分钟内给出他们的答案。

2.2K40

基于信息理论的机器学习-中科院自动化所胡包钢研究员教程分享03(附pdf下载)

▌概述 ---- 本次tutorial的目的是,1.介绍信息学习理论与模式识别的基本概念与原理;2.揭示最新的理论研究进展;3.从机器学习与人工智能的研究中启发思索。...思考为什么M2与M3无法区分,列为同序B?“元准则”可以理解为是期待底层准则要尽量可以包容的特征。Meta3是对Meta2的进一步期待要求。 ?...我们发现第二个信息论指标应用了修正的互信息计算公式最为适用于拒分类评价。 参见该指标对四个混淆矩阵的输出计算值,由此给出它们分类质量的排序符合元准则3。而其它任何指标基本不适用于拒分类评价。 ?...第4章总结 ---- 不同于已有的“分而治之”各种方法,要理解拒决策为机器学习带来了新的研究空间,而拒子空间研究工作仍有不足。拒分类方式符合人类的智能决策原理。...本章在拒决策中从“误差类别”与“拒类别”同时考察的角度展开研究。这也是来源于应用中的问题。由于常规分类评价指标已经无法适用于拒结果评价,我们对24个信息论指标进行系统性考察。

1.1K70

“人工智能”的边际

以上公式虽然是基础,但研究过人工智能的人一定知道以上公式的重要性,因为应用类似的公式可以方便的进行卷积运算来控制输入输出,从而设计出图像识别、语音识别等等一系列现代社会人工智能领域的技术所使用的计算机软件程序...那么除了这些条件以外,还有别的吗?有啊,电力!也就是能量,没有电,一切人工智能都会虾米。如何有电呢,用煤炭、天然气、石油、水里、风力、太阳光、等等用来发电才能有电。...但是无论人工智能或则未来可能出现的机器智能如何发展,也仅仅是在众生包含第六意识在内的前六(眼、耳、鼻、舌、身、意)的功能和性能在工具方向的外在延伸,是工具和方法,属于“用”或“术”的范围,根本无法代替人类的前六本身...原因是直觉是人类的第七所直接负责,而第七只有佛法的修行人才可以如实全面的现观其功能体性,属于“心法”,而出生人工智能的人类第六意识必须有第七识才能出生,这就是人工智能无法有真正直觉的原因。...无论未来人工智能如何发展,都无法实现第七意根和第八如来藏,也无法代替前六,也就是人工智能不仅毫无超越人类本身的可能性,而且从本质上说连动物的智能都无法超越,无论任何低级动物。

2.5K90

玩转AI新声态-哼歌曲背后的秘密

而哼歌曲作为一种便捷的音乐识别方式,受到了越来越多人的喜爱。本文将为您揭秘哼歌曲背后的原理,以及音乐识别技术的发展历程和应用。...研究者们开始利用这些技术对音乐进行特征提取和分类,大大提高了音乐识别的准确率。以至于现在除了音乐软件外,例如微信的主流APP也引入了哼歌曲功能为什么通过哼歌就能识别出来曲目?...其实哼歌曲主要归功于音频信号处理和机器学习技术:1、音频信号处理:当用户在音乐软件中哼歌时,软件首先会捕捉到这段音频信号。...最后,为了提高曲的准确性,音乐软件还可能利用用户的交互来优化结果。例如,当软件返回多个候选歌曲时,用户可以选择最符合自己记忆的那一首,从而帮助软件在未来更准确地识别类似的歌曲。...5、结果输出:根据匹配结果,系统输出相应的歌曲信息,如歌曲名称、歌手等。

7910

微信「扫一扫」物为什么这么快?背后的秘诀竟然是

Class-wise 检测(即传统意义上的物体检测)的优势在于同时输出物体的位置和类别,然而开放环境下的物体类别很难准确定义和完整覆盖。...Two-stage 检测器的优势在于:RoIPool 的候选框尺度归一化对小物体具有较好的鲁棒性;进一步的区域(region)分类对于较多类别的检测需求更为友好。...对于“扫一扫”物中主体检测的应用场景,小物体和多类别的需求不如实时性来得强烈,因此我们选择 one-stage 的模型结构。 2....:FoveaBox[14]、DuBox [13]、FCOS[15])普遍采用多头输出来提高模型的尺度鲁棒性。...然而,多头输出的网络结构对于移动端加速并不友好。

7.1K22

详解苏宁门店的人脸识别技术

1:1和1:N,其底层技术是相同的,区别在于后者的误率会随着N的增大而增大,如果设置较高的相似度阈值,则会导致拒率上升。...拒和误二者不可兼得,所以评价人脸识别算法时常用的指标是误率小于某个值时(例如0.1%)的拒率。...安防摄像头通常置于棚顶,一般距离地面都有2.7米以上,在行人经过最佳采集位置时很难采集到正脸,而且镜头分辨率较低,成像噪声大,即使采集到了人脸也无法满足人脸识别应用的需求。...图3softmaxLoss结构 图3是一个典型神经网络输出层softmaxLoss的结构。其lossfunction为 ?...这也比较好解释,当一张人脸照片质量比较低的时候,能够区分人脸的这些神经元无法被充分激活,得到的feature自然比较小。

3.9K30

在线图片文字识别html,识别文字在线_识别图片文字的在线方法是什么?

其实没有必要咋先ocr文字识别的,可以使用专业的第三方软件来进行ocr文字识别的。 识别的效果也是很不错的,准确率达到97%,甚至更高的,建议尝试一下。...2、选择好图片后,云便签就会自动识别图片中出现的文字了,完成识别后,云便签将会把识别出来的文字保存在便签,接着可以复制粘贴到需要的地方 3、云便签目前可以识别简体中文、繁体中文和英文字母,古代字体暂时无法识别...识别图片文字的软件,您说的是第三方软件吧,叫做“ocr文字识别软件”; 1、打开百度搜索“迅捷办公”,找到旗下的ocr文字识别软件; 2、打开文字识别软件,关闭上面的提示窗口,通过左上角把需要识别的图片添加进去...可以用汉王文,不过不是在线的,是一个app,需要在手机端进行安装,直接搜索汉王文下载即可。可以识别手写体和印刷体,可以拍照识别,也可以识别图片,整体功能比较简单,但是能救急。...识别结果很精准,如果我们有大量的图片需要识别的话,真的能节省很多时间,高效工具。 在线图片识别文字 在线图片识别文字其实并不难,不管在pc电脑上还是在手机上都可以轻松解决,都无需下载任何软件。

55.1K50

问答 | 如何看待某手机品牌语音助手无法识别机主语音,误解锁操作?

话不多说,直接上题 @酱番梨 问: 如何看待某手机品牌语音助手无法识别机主语音,误解锁操作? 按照现在的语音识别技术,出现这样的事正常吗?...猜测可能是厂商在开发系统时就把阈值降低了,导致容错率增大,出现误的情况也会更多。 @杨 晓凡 我也来抢答嘻嘻嘻。...首先这个问题体现出了语音识别的两种取向:是“语音转文本”还是“声纹识别”,前者是所有语音助手、智能音箱核心关注的事情,识别出用户说的话的内容是什么,把它以文本的形式输出,便于后续处理;后者就是关注说话的人到底是谁...(补充说明一句,已经8102年了,没有任何一家的语音解锁会直接把当初激活时的录音和后来用户解锁时的收音音频波形直接进行对比,因为受到距离以及环境噪音影响,无法匹配简直是家常便饭。

1.1K10

被踢出去的用户

——《血字的研究》 “齐,路老板又来邮件了。”白娜一脸无耐地说。 “一定没好事吧?”齐回头看了一眼,手依旧在快速敲着代码,并没有停。 “你刚从泰国回来?”齐说到。 “你怎么知道?”...像这种线上问题,尤其是本地无法复现的线上问题,是他最喜欢的。定位这些问题的过程,就像是侦探在探案,从最初的案件出发,将看似毫无关联的线索逐一梳理过滤,那最终唯一的真相也会慢慢浮出水面。...但这次用户被踢出的问题,齐前前后后处理过三次,都无法定位。...齐打开发心跳请求的JavaScript文件,就是一个简单的setInterval,没有什么特别的。是什么,让这个2分钟的轮询停止了呢? 老夏呢?老夏呢?这老家伙跑哪去了?...而在此期间,齐是去转换文件了。 齐盯着日志,良久之后,哈哈哈哈地笑出了声。 ---- 5 通过搜索,齐很快验证了自己的想法。

1.1K20

人民大学提出听音物AI框架,不用人工标注,嘈杂环境也能Hold住,还可迁移到物体检测

对于人类而言,听音物是一件小事,但是放在AI身上就不一样了。 因为视觉和音频之间对应关系无法直接关联,过去算法往往依赖于手动转换或者人工标注。...聚类的每一个簇,被认为能够代表一种语义类别的视觉表征集合。 由此一来,AI便在无形之中掌握了不同乐器在外观和声音上的关系,也就是可以听音物了。...具体来看,对于某一帧多声源的场景,AI会先从画面中提取到不同物体的特征,然后再和字典中的各个类别比对,从而完成听音物的初步定位。...△每行前3张为真实演奏场景,后4张为合成场景 在具体表现上,研究人员分别使用了合成音乐、二重奏等4个数据集来测试这个框架识别的水平。...作者分别展示了成功和失败的一些例子: △一些成功案例 △一些失败案例 作者表示,出现失败的情况中,一方面是无法定位到正确的声源位置(如上图第一行)。

51540

graph representation learning_with for什么意思

人脸识别技术经过进几年的发展,已较为成熟,在众多的场景与产品中都已有应用,但人脸识别技术只能用到人体的人脸信息,放弃了人体其他重要信息的利用,例如衣着、姿态、行为等,另外在应用时必须要有清晰的人脸正面照片,但在很多场景下无法满足要求...而跨镜追踪(ReID)技术正好能够弥补人脸识别的这些不足,行人重识别能够根据行人的穿着、体态、发型等信息认知行人。...而作者新设计了一个多分支的端到端的深度网络,使得不同级别的网络分支能够关注不同粒度的分辨信息,也能够有效兼顾整体信息。...「刷脸」是计算机视觉领域的重要的应用,而「人」将促使计算机视觉行业进入新的发展阶段。云从科技作为人脸识别领域的领导者之一,同样对行人识别的技术前景、应用场景、社会价值有极其深刻的研究。...云从科技希望能够与业内一起推动计算机视觉在「人」这个方向上的发展,让大家能够更快地体会到「人」的人工智能对智能安防、人机互动、自动驾驶、智能商业、家居生活等各方面的帮助与提升。

67820

挑战真实场景对话——小爱同学背后关键技术深度解析

关于特征,首先是NLU部分,NLU是利用小爱大脑意图识别的能力,给出domain和意图的打分。...策略拒还存在缺点,由于拒策略的设计是基于一部分特征,而不是综合利用所有特征,也就无法学习特征的组合。 当不同特征的策略有冲突的时候,这种办法就很难处理了。 1.2语义拒 ?...比如一段无意义的人声如果被识别成有头部意图的query的话,很容易干扰拒的工作。 第二个问题是有些时候我们无法单纯从文本确定是不是在和小爱说话,比如用户对着旁边的孩子说给我背一下《弟子规》。...如果规则系统无法确定,就会进行第二步,单轮判别模型。如果单轮判定模型认为用户没说完的话,假设在多轮的场景下,会进行第三步多轮修正,给出最终的结果。 2.1规则系统 ?...Q:语音向量加入拒,架构有没有调整? A:语音架构加入拒,在架构上有相应的一些解决方案。现在我们多模态模型,是有语音和文本两路输出,语音和NLU其实是在不同的环节处理的。

4.5K40

专访 | 蚂蚁金服生物识别技术负责人陈继东:数据驱动人工智能引发行业变革

机器之心:能否分享一下如何将人脸识别精度提升到金融交易应用级别的要求? 陈继东:在保证极低误率的同时拥有很高的准确率,是人脸识别金融级精准度的基础要求。...在一般的互联网场景下,99% 的准确率通常假设 0.1% 的误率(在一千次识别有一次错)的情况下,对的概率也能到达 99%。...但是在金融的场景下,这个误率是无法满足的,这意味着有可能别人试了一千次就有一次进入我的账户,盗用我的资金,这个安全等级是远远不够的。...我们至少是需要万分之一,甚至十万分之一,到未来是百万分之一的误率。在这个误率的情况下,你对的概率能到多少呢?...如果没有活体检测的保障,我们是无法把这项技术大规模应用于金融级的。事实上,基本市场上所有的攻击方式,自刷脸服务上线以来,我们都经历过,包括现在每天我们都会拦截甚至上千的攻击量。

3.1K130

14. Kotlin 使用高阶函数处理集合数据

因为acc会被初始化为集合的第一个元素,所以reduce函数的输出也被限制为集合的范型类型。也就是说,sumBy的场景无法用reduce代替。 那 Kotlin 有没有能指定acc类型的高阶函数?...map的逻辑也很简单,它回返回一个和调用者大小相同的列表,具体的元素值为 lambda 的执行结果。...这意味着不仅高阶函数的调用最终会被函数的实际代码代替,而且声明的 lambda 也会被解析成具体的代码,而不是方法调用。...但如果数据量不是万级别的,操作频率不是毫秒级别的,对性能的影响实在小之又小,特别是在移动端的场景更是难以遇到。...但因为 Java 没有 inline 无法有效的优化 lambda,且 Java 的 lambda 没有完整的闭包特性,无法修改外部变量。

2.5K10

语音识别的相关知识

别 方 法 语音识别方法主要是模式匹配法。在训练阶段,用户将词汇表中的每一词依次说一遍,并且将其特征矢量作为模板存入模板库。...在识别阶段,将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。 存 在 问 题 1、口音和噪声 语音识别中最明显的一个缺陷就是对口音和背景噪声的处理。...和自然语言识别的区别 语音识别是自然语言识别的一个方向。 广义的“自然语言处理”包含了“语音”,或者说“语音”也是“自然语言”的一种。...自然语音识别亮点是自然语言理解功能,即用户可以按照个人的语言习惯,用自己惯用的语气、惯用的词,将需要被识别的语音任务说出来即可。...自然语音识别与指令式语音识别主要区别是词库大小及处理方式,指令语音所有处理都是本地进行,自然语音识别目前基本都是采用云处理方式,这样其语音库及处理能力是指令语音无法比拟的。

1.6K11
领券