项目地址:https://github.com/tensorflow/cleverhans
此资料库包含CleverHans的源代码,CleverHans是一个Python库,用于将机器学习系统中的漏洞与对抗性示例进行对比。 您可以在随附的博客上了解有关此类漏洞的更多信息。
在看人工智能安全方面的资料,顺手看到cleverhans的资料,就将它在python 3.6的环境下进行编译和测试。
AI科技评论按:近日,OpenAI发表最新研究,论述了AI安全领域的一大隐忧:“对抗样本”,它可以轻易地让机器学习系统产生误判,这会对AI的应用实践产生影响。在这篇由“GANs”之父Ian Goodfellow领衔撰写的文章里,OpenAI针对“对抗样本”进行了防御策略的实验,其中有两种方法效果显著,但也并不能解决根本问题。OpenAI表示设计出抵抗强大、具有适应性攻击者的防御策略,是非常重要的研究领域。本文原载于OpenAI Blog,由AI科技评论编译整理。 “对抗样本”是攻击者故意设计的,被用来输
AI 科技评论按:去年年底,Ian Goodfellow与Nicolas Papernot(是的,就是ICLR 2017的最佳论文得主之一)合作开了一个博客叫cleverhans,主要写一些关于机器学习在安全与隐私问题的文章。一个Goodfellow、一个Papernot,此二神的称呼真是般配呢。 在第一篇博客里,他俩介绍了为什么攻击机器学习要远比防御容易得多。以下是雷锋网AI科技评论编译的第二篇文章,未经雷锋网AI科技评论许可不得转载: 在我们的第二篇博客里,我们此前已经给出了一些背景知识,告诉大家,为什
对抗样本是指攻击者故意设计以导致机器学习模型出错的输入样本;他们对机器来说就像是视觉幻觉一样。在本篇博文中,我们将向您展示对抗样本在不同介质中的运作原理,也将讨论为何系统难以防御它们。 在 OpenAI,我们认为对抗样本是研究安全性的一个好方面因为它代表着人工智能安全性上一个能在短期内得以解决的具体问题,由于解决对抗样本是如此之难,需要严肃认真的研究工作。(尽管为了达到我们建立安全、广泛分布的人工智能的目标,我们还需要研究机器学习安全性的许多方面。) 为了弄清楚对抗样本的真实面目,请思索一下《解释并驾驭对
AI 科技评论按:TensorFlow 是目前最流行的深度学习库,它是 Google 开源的一款机器学习开发框架。Tensor 的意思是张量,代表 N 维数组;Flow 的意思是流,代表基于数据流图的计算。把 N 维数字从流图的一端流动到另一端的过程,就是人工智能神经网络进行分析和处理的过程。
汉斯的主人是一位退休的中学教师,名叫威廉·冯·奥斯滕。他想弄清楚,通过系统的授课,一匹马的思维能力究竟能提高和发展到什么程度。
OpenAI研究员Ian Goodfellow等人今天发表文章,详细描述了机器学习模型面临的“对抗范例(adversarial examples)”攻击,以及目前已有的防御方式。 以下内容由量子位编译自OpenAI官方博客。 对抗范例(adversarial examples),是攻击者为了让机器学习模型产生错误而设计的输入数据,就像“机器产生了幻觉”。在这篇文章中,我们将展示对抗范例了如何通过不同媒介进行攻击,并讨论保护系统免受这种攻击难在何处。 在OpenAI,我们认为对抗范例是安全领域一个值得研究的
深度学习和神经网络的兴起为现代社会带来了各种机会和应用,例如对象检测和文本转语音。然而,尽管看似准确性很高,但神经网络(以及几乎所有机器学习模型)实际上都可能受到数据(即对抗性示例)的困扰,而这些数据是从原始训练样本中进行的非常轻微的操纵。实际上,过去的研究表明,只要您知道更改数据的“正确”方法,就可以迫使您的网络在数据上表现不佳,而这些数据在肉眼看来似乎并没有什么不同!这些对数据进行有意操纵以降低模型精度的方法称为对抗性攻击,而攻击与防御之战是机器学习领域中持续流行的研究主题。
这篇文章是关于如何使用人工智能构建鲁棒的反滥用保护系统系列文章中的第四篇,也是最后一篇。第一篇文章解释了为何 AI 是构建鲁棒的保护系统的关键,这种保护用来满足用户期望和日益提升的复杂攻击。在介绍完构建和启动一个基于 AI 的防御系统的自然过程之后,第二篇博文涵盖了与训练分类器相关的挑战。第三篇文章探讨了在生产中使用分类器来阻止攻击的主要困难。
机器之心整理 演讲者:Ian Goodfellow 参与:吴攀、李亚洲 面向开发者的世界上最大的人工智能主题在线演讲与对话大会 AI WITH THE BEST(AIWTB)于 2017 年 4 月 29-30 日在 AIWTB 官网上通过在线直播的方式举办。作为第三届 AI WITH THE BEST 华语社区独家合作伙伴,今年线上大会机器之心有免费赠门票资格。在此前的问题征集赠票活动中,我们从读者提问中选出了 1 个高质量问题并赠送了参会票。 在本文中,机器之心对这次对话大会上 Ian Goodfell
作者:Roman Trusov 编译:元元、桑桑、徐凌霄、钱天培、高宁、余志文 Google brain最近的研究表明,任何机器学习的分类器都可以被误导,然后给出错误的预测。甚至,只需要利用一些小技巧,你就可以让分类器输出几乎任何你想要的结果。 机器学习可能会被“误导”的这一现象,正变得越发令人担忧。考虑到越来越多的系统正在使用AI技术,而且很多系统对保障我们舒适而安全的生活至关重要,比如说,银行、监控系统、自动取款机(ATM)、笔记本电脑上的人脸识别系统,以及研发中的自动驾驶汽车。关于人工智能的安全问题,
选自GitHub 参与:蒋思源、吴攀 生成对抗网络(GAN)是近段时间以来最受研究者关注的机器学习方法之一,深度学习泰斗 Yann LeCun 就曾多次谈到 这种机器学习理念的巨大价值和未来前景。在本文中,机器之心总结了 GitHub 上两篇关于 GAN 的资源,其中一篇介绍了 GAN 的一些引人关注的新理论和实践(如 Wasserstein GAN),另一篇则集中展示了大量 GAN 相关的论文。 以下是两篇原文的链接: GAN 理论&实践的新进展:https://casmls.github.io/gene
随着机器学习模型能力越来越强、效率越来越高,它已经逐步应用到各种实际场景中。但是 AI 模型本身也会面临很多安全问题,最受关注的就是对抗样本,它能欺骗深度模型。这对于很多场景都是毁灭性的,包括身份认证、城市大脑和医疗健康等。
大数据文摘作品,转载要求见文末 原作者 | Adam Geitgey 编译 | 吴双,大力,笪洁琼,Aileen 知己知彼,无论你是想成为黑客(最好不要!)或防范未来黑客的入侵,都有必要来了解一下如何骗过由海量数据训练出来的深度学习模型。 只要有程序员还在编程,黑客们就会不遗余力地找寻利用这些程序的方法。恶意黑客更是会利用程序中最为微小的漏洞来侵入系统,窃取数据,对系统造成严重破坏。 但由深度学习算法驱动的系统应该是能够避免人为干扰的,对吧? 一个黑客怎么能够突破被TB(兆兆字节)级数据训练的神经网络呢?
【新智元导读】这是一份生成对抗(神经)网络的重要论文以及其他资源的列表,由 Holger Caesar 整理,包括重要的 workshops,教程和博客,按主题分类的重要论文,视频,代码等,值得收藏学习。 目录 Workshops 教程 & 博客 论文 理论 & 机器学习 视觉应用 其他应用 幽默 视频 代码 Workshops NIP 2016 对抗训练 Workshop 【网页】https://sites.google.com/site/nips2016adversari
AI 研习社按:Nicolas Papernot 在 2017、2018 连续两年的 ICLR 上都发表了关于差分隐私方法 PATE 的论文。如今大家都意识到了隐私问题是模型设计中有必要考虑的因素,设计模型时也愿意考虑 PATE 这样的方法。不过在 cleverhans 博客近期的一篇博客中,Nicolas Papernot、Ian Goodfellow 两人揭示了一项意想不到的发现:对隐私问题的改善其实可以带来表现更好的机器学习模型,两者并不冲突,而是盟友。
AI 科技评论按:Nicolas Papernot 在 2017、2018 连续两年的 ICLR 上都发表了关于差分隐私方法 PATE 的论文。如今大家都意识到了隐私问题是模型设计中有必要考虑的因素,设计模型时也愿意考虑 PATE 这样的方法。不过在 cleverhans 博客近期的一篇博客中,Nicolas Papernot、Ian Goodfellow 两人揭示了一项意想不到的发现:对隐私问题的改善其实可以带来表现更好的机器学习模型,两者并不冲突,而是盟友。
近日,清华大学自然语言处理实验室(THUNLP)研发的文本对抗攻击工具包 OpenAttack 继相关论文在 ACL-IJCNLP 2021 Demo 发表后迎来大版本更新,不但重构了大量代码,完善了文档,更新增了多语言支持、多进程处理等重要功能。欢迎前往 GitHub 主页下载试用!
AI 科技评论按:随着人工智能研究的不断发展,由机器学习模型在背后提供支持的功能越来越多地开始商业化,最终用户的生活里机器学习能造成的影响也越来越大。这时候,机器学习的安全和隐私问题也就越来越明显,谁
【导读】当地时间 10月 22 日到10月29日,两年一度的计算机视觉国际顶级会议 International Conference on Computer Vision(ICCV 2017)在意大利威尼斯开幕。Google Brain 研究科学家 Ian Goodfellow 在会上作为主题为《生成对抗网络(Generative Adversarial Networks)》的Tutorial 最新演讲, 介绍了GAN的原理和最新的应用。昨天我们介绍了此内容,请查看 【干货】Google GAN之父Ian
选自Medium 作者:Alex Honchar 机器之心编译 参与:陈韵竹、刘晓坤 2017 年是机器学习领域最有成效、最具创意的一年。现在已经有很多博文以及官方报道总结了学界和业界的重大突破。本文略有不同,Alex Honchar在Medium发文,从研究者的角度分享机器学习明年发展的走向。机器之心对此行了编译和整理。 本文的预测基于 2012 年以来我关注的学术界和科技巨头实验室的研究思路演变。我所选择的领域,从我的观点来看,都多多少少尚处于发展的初级阶段,但是已经为研究做足了准备,且在 2018 年
生成对抗网络(GAN)专知荟萃 一、理论学习 二、报告 三、教程 四、综述 五、中文博客资料 六、Github资源以及模型 七、最新研究论文 一、理论学习 训练GANs的技巧 参考链接:[http://papers.nips.cc/paper/6124-improved-techniques-for-training-gans.pdf] Energy-Based GANs 以及Yann Le Cun 的相关研究 参考链接:[http://papers.nips.cc/paper/4824-imagenet
本文介绍了神经网络在计算机视觉领域的应用,包括卷积神经网络、生成对抗网络、循环神经网络等。文章还讨论了训练数据集的重要性、模型的可解释性以及神经网络在医疗、自动驾驶等领域的应用。最后,文章提醒读者,虽然神经网络具有强大的拟合能力,但它们也有许多挑战,如过拟合、训练数据集偏差等。
新开一个系列写写组合优化的相关内容,主要以分享看到的各种研究和思考为主,偏理论。
我们的大脑是个不断进化的物体,一直在持续不断修改自身的结构,以保留新的信息,并根据我们与环境的互动去掉旧的信息。正如我们所知,人工神经网络及其激活网最初是仿照大脑建立的。然而,大多数人工神经网络在结构上是静态的,依赖于批量学习,在训练时它们被输入很多批独立同分布(IID)数据,并且学习到的参数在部署时被固定,这与我们大脑的学习方式不一样: 我们不是通过一次性处理随机批量的数据来学习,而是通过处理我们从感官接收到的关于我们周围环境的连续的相关信息流。
解决此优化问题的一个挑战是,有许多“ 好的 ”解决方案,学习算法可能会反弹而无法稳定。
大模型的高效微调一直是业内关注的焦点,因为这将直接影响大模型在不同专业领域的应用。在广泛使用的参数高效微调(PEFT)方法中,LoRA 及其变体由于避免了额外的推理成本而获得了相当大的普及。然而,这些方法与完全微调(FT)之间仍然经常存在精度差距。
组合模型 下面简单的介绍下Bootstraping, Bagging, Boosting, AdaBoost, RandomForest 和Gradient boosting这些组合型算法. 1.Bootstraping Bootstraping: 名字来自成语“pull up by your own bootstraps”,意思就是依靠你自己的资源,称为自助法,它是一种有放回的抽样方法,它是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。其核心思想和基本步骤如下: (1)采用重抽样技术从原
之前在逻辑回归原理小结这篇文章中,对逻辑回归的原理做了小结。这里接着对scikit-learn中逻辑回归类库的我的使用经验做一个总结。重点讲述调参中要注意的事项。
近期,硅谷 AI 公司 OpenAI 可谓是话题度拉满,先是一出「宫斗戏」引起舆论哗然,后是公布 Sora 效果炸裂受到了全网的一致好评。在这期间,一桩诉讼案件同样引爆了热点 —— 因 ChatGPT 涉嫌侵犯纽约时报著作权,OpenAI 及微软被起诉并要求支付巨额版权费 [1]。一方是传统新闻行业的代表刊物,一方是新兴人工智能技术发展中的佼佼者。双方展开这场「里程碑式」拉锯战的同时,也将科研圈长期存在的问题再次拉上了台面:
首先,AdaBoost是Adaptive Boosting的缩写。基本上,Ada Boosting是第一个为二进制分类开发的真正成功的增强算法。此外,它是理解助推的最佳起点。此外,现代助推方法建立在AdaBoost上,最显著的是随机梯度增强机。
在二分类的情景中,Adaboost为了实现高精准的分类器,采取了集思广益,博取众长的集成的策略,集中群众智慧,成就英雄之举。实现了1+1大于2的分类效果。
本文介绍了集成学习中Boosting的代表算法Adaboost。首先介绍了Adaboost的Boosting思想:1)学习器的投票权重,2)更新样本权重,巧妙之处在于这两个权重的设计使得Adaboost如此优美。然后介绍了Adaboost的前向加法思想,即不断拟合上一次分类器的损失。最后以前向加法模型中的特例(二分类)导出Adaboost的指数损失理解,再次回归到Adaboost的学习器权重和样本更新权重为何如此设计。
当我们想要切入某个领域时,显然这个领域已经有大量前人的工作,包括大家常用的模型、数据集、评价指标等等,初出茅庐的你却不知道这些大家习以为常的背景知识,那么如何才能快速切入一个子领域呢?
之前做二分类预测的时候,遇到了正负样本比例严重不平衡的情况,甚至有些比例达到了50:1,如果直接在此基础上做预测,对于样本量较小的类的召回率会极低,这类不平衡数据该如何处理呢?
数据挖掘方法的提出,让人们有能力最终认识数据的真正价值,即蕴藏在数据中的信息和知识。数据挖掘 (DataMiriing),指的是从大型数据库或数据仓库中提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有用信息,数据挖掘是目前国际上,数据库和信息决策领域的最前沿研究方向之一。因此分享一下很久以前做的一个小研究成果。也算是一个简单的数据挖掘处理的例子。 1.数据挖掘与聚类分析概述 数据挖掘一般由以下几个步骤: (l)分析问题:源数据数据库必须经过评估确认其是否符合数据挖掘标准。以决定预期结果,也就选择
【导读】本文来自AI科学家Semih Akbayrak的一篇博文,文章主要讨论了广义的线性模型,包括:监督学习中的分类和回归两类问题。虽然关于该类问题的介绍文章已经很多,但是本文详细介绍了几种回归和分
.NET数据挖掘与机器学习 原文:http://www.cnblogs.com/asxinyu/archive/2013/08/29/3289682.html 数据挖掘方法的提出,让人们有能力最终认识数据的真正价值,即蕴藏在数据中的信息和知识。数据挖掘 (DataMiriing),指的是从大型数据库或数据仓库中提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有用信息,数据挖掘是目前国际上,数据库和信息决策领域的最前沿研究方向之一。因此分享一下很久以前做的一个小研究成果。也算是一个简单的数据挖掘处理的例
前到现在为止,我们通过大约1周的时间初步对机器学习是怎么一回事算是有一些基本的理解了,从最基本的线性回归入手,讨论了如何在拿到一堆数据时,先进行数据预处理(暂时未详细阐述,会在以后某个时间段详细论述)
我们都知道在人脸识别模型的学习过程中,模型会将数据集中每个人脸的特征映射到所谓的嵌入空间中,而在这个空间中,属于同一个人的特征被拉到一起,属于不同人的特征会被推开。同时也存在一个重要的法则是数据集提供的身份越多,模型的表征能力就越强。
这是Google在CVPR 2018上发表的一篇int8量化的论文,题目为《Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference》。也是入门量化最经典的论文之一。论文介绍了一种只使用整数运算的量化方式,相比于浮点数运算效率更高。一起先来看看这篇论文吧。论文的axriv地址可以在附录中找到。
1.数据挖掘与聚类分析概述 数据挖掘一般由以下几个步骤: (l)分析问题:源数据数据库必须经过评估确认其是否符合数据挖掘标准。以决定预期结果,也就选择了这项工作的最优算法。 (2)提取、清洗和校验数据:提取的数据放在一个结构上与数据模型兼容的数据库中。以统一的格式清洗那些不一致、不兼容的数据。一旦提取和清理数据后,浏览所创建的模型,以确保所有的数据都已经存在并且完整。 (3)创建和调试模型:将算法应用于模型后产生一个结构。浏览所产生的结构中数据,确认它对于源数据中“事实”的准确代表性,这是很重要的一点。虽然
翻译 | AI科技大本营(ID:rgznai100) 参与 | shawn,刘畅 今年10月,何恺明的论文“Mask R-CNN”摘下ICCV 2017的最佳论文奖(Best Paper Award),如今,何恺明团队在Mask R-CNN的基础上更近一步,推出了 (以下称Mask^X R-CNN)。 这篇论文的第一作者是伯克利大学的在读博士生胡戎航(清华大学毕业),标题非常霸气,叫是“Learning to Segment Every Thing”。从标题上可以看出,这是一篇在实例分割问题(
机器学习已经成为了当前互联网领域不可或缺的技术之一,前辈们对机器学习模型的研究已经给我们留下了一笔非常宝贵的财富,然而在工业界的应用中我们可以看到,应用场景千千万万,数据千千万万但是我们的模型却依然是那些,在机器学习的应用中对数据的处理与分析往往扮演着比模型更加重要的角色,本文针对机器学习应用数据处理的一个方面即“不平衡数据”下的机器学习方法进行了简单介绍。 引言 不管是在学术界还是工业界,不平衡学习已经吸引了越来越多的关注,不平衡数据的场景也出现在互联网应用的方方面面,如搜索引擎的点击预测(点击的网页往往
Boosting(提升,提高)是一种集成技术,它通过综合多个弱分类器来获得一个强的分类器。
顾名思义,就是将多个单一模型进行组合,最后形成一个更好的模型的过程。之所以组合多个单一学习器,是因为很多时候单一学习器的效果不够理想,多个模型组合可以互帮互助,各取所长,从而能够更好的完成任务。集成学习一般的结构是先学习单一的学习器,之后通过某种策略将其组合在一起。
当越不可能的事件或者相关程度越高的事件(今天中午总统吃什么,与我们相关程度低,信息量小;但是对于想应聘总统厨师的人来说,这件事的信息量就很大)发生了,我们获取到的信息量就越大,反之信息量越小。
领取专属 10元无门槛券
手把手带您无忧上云