今天笔者整理了一份自己最近用到的一些小技巧分享给大家,虽然都是基础技术,不过在某些特殊时刻还蛮有用的,不至于加载一堆体积庞大的第三方库,今天笔者用本文归纳一下分享给大家。本篇文章主要包含以下内容:
2014年Ian Goodfellow在研究使用生成模型自动生成图片的过程中,发现传统神经网络方法效果并不理想,随后缘于一个偶然的灵感,发明了生成对抗网络(GAN),在其实验数据的图片生成上取得了非常理想的效果。从此,这种全新的技术作为训练生成模型的新框架,迅速风靡人工智能各个领域并取得不少突破。
AUC 是 ROC (Receiver Operating Characteristic) 曲线以下的面积, 介于0.1和1之间。Auc作为数值可以直观的评价分类器的好坏,值越大越好。
很多场景需要考虑数据分布的相似度/距离:比如确定一个正态分布是否能够很好的描述一个群体的身高(正态分布生成的样本分布应当与实际的抽样分布接近),或者一个分类算法是否能够很好地区分样本的特征(在两个分类下的数据分布的差异应当比较大)。
解密prompt24. RLHF新方案之训练策略:SLIC-HF & DPO & RRHF & RSO
1、欠采样,减少数量较多那一类样本的数量,使得正负样本比例均衡。 2、过采样,增加数量较少那一类样本的数量,使得正负样本比例均衡。 3、不处理样本,样本分类阈值移动。
作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明。谢谢!
如果你是一位程序员,编程时就一定用过随机(random)函数。它的功能是在特定取值范围内随机生成一些数。这个函数在很多编程语言中是预置的,可以直接调用。
AUC 的全称是 AreaUnderRoc 即 Roc 曲线与坐标轴形成的面积,取值范围 [0, 1].
其实沙画的笔触模拟是非常复杂的,本篇我们来实现一个非常简单的笔触形式,也就是通过randomGaussian()来模拟沙子的笔触分布情况。
摘要:本篇主要从理论到实践解决文本分类中的样本不均衡问题。首先讲了下什么是样本不均衡现象以及可能带来的问题;然后重点从数据层面和模型层面讲解样本不均衡问题的解决策略。数据层面主要通过欠采样和过采样的方式来人为调节正负样本比例,模型层面主要是通过加权Loss,包括基于类别Loss、Focal Loss和GHM Loss三种加权Loss函数;最后讲了下其他解决样本不均衡的策略,可以通过调节阈值修改正负样本比例和利用半监督或自监督学习解决样本不均衡问题。需要说明下上面解决样本不均衡问题的策略不仅仅适用于文本分类任务,还可以扩展到其他的机器学习任务中。对于希望解决样本不均衡问题的小伙伴可能有所帮助。
依稀记得,n年前按键精灵等级考试时的题目:写一个四则运算的代码。当时其实离六级认证水平还有一定差距,愣是写了半个下午,才把不带括号的加减乘除给做出来(20分的题目得了10分,还是挺庆幸的),要知道当时压根不知道什么是正则表达式,识别加减号都是用字符查找一个个进行的。后来我还专门研究了一下,发现只这个识别拆分括号,就有一大套看着很牛逼的理论,吓得我这个题目就一直没敢继续下去
摘要:本篇从理论到实践介绍了NLP场景下常用的对比学习模型SimCSE。首先介绍了业务背景,经过一系列调研NLP场景中简单有效的对比学习模型是SimCSE;然后重点介绍了SimCSE模型,包括评估对比学习模型的两个指标alignment和uniformity、NLP场景中使用对比学习模型的难点、SimCSE提出了一种基于dropout mask的方法来构造正负例、dropout mask方式有效性原因分析、有监督和无监督的SimCSE模型以及BERT系列模型和SimCSE模型效果对比;最后项目实践了SimCSE模型。对于希望将对比学习模型SimCSE应用到NLP场景的小伙伴可能有所帮助。
导语:这几年来,机器学习和数据挖掘非常火热,它们逐渐为世界带来实际价值。与此同时,越来越多的机器学习算法从学术界走向工业界,而在这个过程中会有很多困难。数据不平衡问题虽然不是最难的,但绝对是最重要的问
摘要:本篇从理论到实践分享了当前NLP中对比学习SOTA模型ESimCSE。首先回顾了无监督SimCSE以及存在的两个问题;然后重点详解了ESimCSE,包括ESimCSE介绍、通过词重复优化正例构建、通过动量对比优化负例构建和模型实验效果展示;最后源码实践了ESimCSE。对于想将对比学习应用到NLP场景的小伙伴可能有帮助。
真正(True Positive , TP)被模型预测为正的正样本; 假负(False Negative , FN)被模型预测为负的正样本; 假正(False Positive , FP)被模型预测为正的负样本; 真负(True Negative , TN)被模型预测为负的负样本。
9. 工作中遇到过的最难的问题是什么?最后解决了吗?怎么解决的?现在觉得有没有更好的解决方案?
除了期望,方差(variance)是另一个常见的分布描述量。如果说期望表示的是分布的中心位置,那么方差就是分布的离散程度。方差越大,说明随机变量取值越离散。 比如射箭时,一个优秀的选手能保持自己的弓箭
算法工作中,经常要对模型进行评估,由此衍生出很多指标。比如Accuracy、Precision、Recall、F1-score、AUC等等。准确理解各指标的内涵、使用场景及局限,还挺有挑战。更佳阅读体验,请移步ROC分析。
工作 20x20 大小的人脸检测,为了获取尽可能多的负样本,拍摄一张 1000x1000 像素大小的车的图像,将其拆分为 20x20 大小的片段,⇒ 50x50 也可将 1000x1000 ⇒ 拆分为 10x10 大小,100x100 副负样本图像,为了保持大小的一致,还需进一步将其拉伸到 20x20 的大小;
每天给你送来NLP技术干货! ---- 写在前面 文本分类是NLP中一个非常重要的任务,也是非常适合入坑NLP的第一个完整项目。 文本分类看似简单,但实则里面有好多门道。作者水平有限,只能将平时用到的方法和trick在此做个记录和分享,并且尽可能提供给出简洁、清晰的代码实现。希望各位看官都能有所收获。 本文主要讨论文本分类中处理样本不均衡和提升模型鲁棒性的trick。文章内容是根据平时阅读论文、知乎、公众号和实践得到的,若有表述不够清楚、详尽的地方可参考文末相关链接。 1. 缓解样本不均衡 样本不均衡现象
论文: Cheaper Pre-training Lunch: An Efficient Paradigm for Object Detection
SHAP(SHapley Additive exPlanation)是解决模型可解释性的一种方法。SHAP基于Shapley值,该值是经济学家Lloyd Shapley提出的博弈论概念。“博弈”是指有多个个体,每个个体都想将自己的结果最大化的情况。该方法为通过计算在合作中个体的贡献来确定该个体的重要程度。
ROC的全名叫做Receiver Operating Characteristic(受试者工作特征曲线 ),又称为感受性曲线(sensitivity curve)。得此名的原因在于曲线上各点反映着相同的感受性,它们都是对同一信号刺激的反应,只不过是在几种不同的判定标准下所得的结果而已。其主要分析工具是一个画在二维平面上的曲线——ROC 曲线。ROC曲线以真正例率TPR为纵轴,以假正例率FPR为横轴,在不同的阈值下获得坐标点,并连接各个坐标点,得到ROC曲线。 对于一个分类任务的测试集,其本身有正负两类标签,我们对于这个测试集有一个预测标签,也是正负值。分类器开始对样本进行分类时,首先会计算该样本属于正确类别的概率,进而对样本的类别进行预测。比如说给出一组图片,让分类器判断该图片是否为汉堡,分类器在开始分类前会首先计算该图片为汉堡的概率,进而对该图片的类别进行预测,是汉堡或者不是汉堡。我们用概率来表示横坐标,真实类别表示纵坐标,分类器在测试集上的效果就可以用散点图来表示,如图所示
从论文标题中可以看出,应该是对4月份丹琦女神发表的新作SimCSE的增强版(Enhance),并且也用到了对比学习来构建正负样本,那么效果是否优于SimCSE呢?
【GiantPandaCV导语】本文主要介绍label assign问题在检测方向的具体应用和当前发展情况。
关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 计算机视觉研究院专栏 作者:Edison_G 本篇文章转自于知乎——qiuqiuqiu,主要设计了一个新颖的轻量级网络! 代码地址:https://github.com/dog-qiuqiu/FastestDet 01 概述 FastestDet是设计用来接替yolo-fastest系列算法,相比于业界已有的轻量级目标检测算法如yolov5n, yolox-nano, nanoD
假期,我尝试使用rust做一款命令行工具,来磨砺自己的rust技术熟练度。起初,面对各式各样的字符串格式化功能点,我傻乎乎地尝试自己造轮子。但,实在是遇到了太多技术难点(可难死我了)。后来,通过在论坛发贴请教,我才了解到【标准库 - format!语法扩展】已经90%地满足了我的需求。至于,剩余10%的功能,可通过实现不同的format trait来深度定制-达成。
Author:Gorit Date:2021/8/25 2021年发表博文:21/30
优化监督学习=优化模型的泛化误差,模型的泛化误差可分解为偏差、方差与噪声之和 Err = bias + var + irreducible error,以回归任务为例,其实更准确的公式为:Err = bias^2 + var + irreducible error^2符号的定义:一个真实的任务可以理解为 Y=f(x)+e,其中 f(x)为规律部分,e 为噪声部分
作为一个前端,说到可视化除了听过 D3.js 的大名,常见的可视化库还有 ECharts、Chart.js,这两个库功能也很强大,但是有一个共同特点是封装层次高,留给开发者可设计和控制的部分太少。和 EChart、Chart.js 等相比,D3.js** 的相对来说自由度会高很多,得益于 D3.js 中的 SVG 画图对事件处理器的支持**,D3.js 可将任意数据绑定到文档对象模型(DOM)上,也可以直接操作对象模型(DOM)完成 W3C DOM API 相关操作,对于想要展示自己设计图形的开发者,D3.js 绝对是一个不错的选择。
isNaN()函数是js自带的全局函数,isNaN() 函数用于检查其参数是否是非数字值。
「面试官们都怎么问」系列文章主旨是尽可能完整全面地整理ML/DL/NLP相关知识点,不管是刚入门的新手、准备面试的同学或是温故知新的前辈,我们希望都能通过这一系列的文章收获到或多或少的帮助
八月参加了一些提前批的面试,包括阿里、百度、头条、贝壳、一点资讯等。整理了一些面试题,分享给大家。
其中 表示 Target 的真实值,而 表示模型得出的 Taret 的预测值。
一直都在佛系更新,这次佛系时间有点长,很久没发文了,有很多小伙伴滴我,其实由于换工作以及搬家的原因,节奏以及时间上都在调整,甚至还有那么一小段时间有点焦虑,你懂的,现已逐渐稳定,接下来频率应该就会高了,奥利给~
一般模型训练包括小时级模型和天级别模型。选择过去7天、15天、过去30天、过去45天、过去60天、过去90天的数据去训练。
总第105篇 最近会开始一个新的系列,sklearn库中各模型的参数解释,本篇主要讲述最基础的LR模型。 模型参数详解 逻辑回归: sklearn.linear_model.LogisticRegression(penalty='l2', dual=False, tol=0.0001, C=1.0, fit_intercept=True, intercept_scaling=1, class_weight=None, random_state=None, solver
【JS】牛客专项练习01 1.getElementById 2. hasOwnProperty 3.系统方法 4.输出题 5.作用域内置变量 6.JS 7. document对象方法 8. 跨域问题 9. this指向 10.var 、局部变量问题 11. 闭包 12.短路或 13.静态方法&实例方法 14. 元素追加 1.getElementById 📷 代码测试👇 <body> </body> <script> console.log(type
深度神经网络已经在计算机视觉领域取得了巨大的成功,如 AlexNet、VGG 等。这些模型动辄就有上亿的参数,传统的 CPU 对如此庞大的网络一筹莫展,只有具有高计算能力的 GPU 才能相对快速的训练神经网络。如 2012 年 ImageNet 比赛中夺冠的 AlexNet 模型使用了 5 个卷积层和 3 个全连接层的 6000 万参数的网络,即使使用当时顶级的 K40 来训练整个模型,仍需要花费两到三天时间。卷积层的出现解决了全连接层的参数规模问题,但叠加若干个卷积层后,模型的训练开销仍然很大。
最近会开始一个新的系列,sklearn库中各模型的参数解释,本篇主要讲述最基础的LR模型。
在机器学习任务中,我们经常会遇到这种困扰:数据不平衡问题。 数据不平衡问题主要存在于有监督机器学习任务中。当遇到不平衡数据时,以总体分类准确率为学习目标的传统分类算法会过多地关注多数类,从而使得少数类样本的分类性能下降。绝大多数常见的机器学习算法对于不平衡数据集都不能很好地工作。 本文介绍几种有效的解决数据不平衡情况下有效训练有监督算法的思路: 1、重新采样训练集 可以使用不同的数据集。有两种方法使不平衡的数据集来建立一个平衡的数据集——欠采样和过采样。 1.1.
今天给大家总结了ACL2021中关于对比学习的论文,一共8篇,每篇都通过一句话进行了核心思想的介绍,希望对大家有所帮助。
前面一节提到了模型评估指标中 ROC 的详细概念和四个常见的问题,以后在遇到 ROC 想必再也不会发懵了:聊聊模型评估的事儿,附 roc 常见的四个灵魂发问
如果人工智能比作一块蛋糕,那么蛋糕的大部分是自监督学习,蛋糕上的糖衣是监督学习,蛋糕上的樱桃是强化学习。
论文: Dynamic Label Assignment for Object Detection by Combining Predicted and Anchor IoUs
DeepFake技术是可以生成换脸的视频。这些内容生成和修改的技术可能会影响公共话语的质量或者侵犯他人的权力,尤其是考虑到这种伪造的视频可能被而已用来误导、操纵、骚扰和诈骗。
浮点数精度问题是指在计算机中使用二进制表示浮点数时,由于二进制无法精确表示某些十进制小数,导致计算结果可能存在舍入误差或不精确的情况。
领取专属 10元无门槛券
手把手带您无忧上云