开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

对于一个有62个类的目标检测模型，我应该取多少个训练样本？

对于一个有62个类的目标检测模型，确定训练样本数量的最佳方法是根据每个类别的数据分布和模型的复杂性来决定。以下是一些常见的方法和考虑因素：

数据分布：每个类别的数据分布可能不均衡，某些类别可能具有更多的样本，而其他类别可能只有很少的样本。在确定训练样本数量时，应该考虑到每个类别的数据量，以确保模型能够充分学习到每个类别的特征。
模型复杂性：模型的复杂性也会影响所需的训练样本数量。较复杂的模型通常需要更多的样本来学习模型的参数和特征表示。简单的模型可能只需要较少的样本就能取得良好的效果。
数据增强：数据增强是一种常用的技术，通过对训练样本进行旋转、缩放、平移、翻转等操作，可以扩充训练数据的数量。通过数据增强，可以减少对大量训练样本的需求。

综合考虑以上因素，建议至少为每个类别准备几十到几百个训练样本。如果某些类别的数据分布较少，可以考虑使用数据增强技术来扩充样本数量。此外，还可以使用迁移学习等技术来利用已有的预训练模型，从而减少对大量训练样本的需求。

对于腾讯云相关产品，可以考虑使用腾讯云的机器学习平台AI Lab（https://cloud.tencent.com/product/ai-lab）来进行目标检测模型的训练和部署。AI Lab提供了丰富的机器学习工具和算法，可以帮助开发者快速构建和训练模型，并提供了高性能的推理服务，支持在云端进行实时的目标检测任务。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Improved Object Categorization and Detection Using Comparative Object Similarity

目录摘要1、简介2、相关工作3、具有比较相似性的学习目标模型3.1、结合比较目标相似性来训练内核机器进行分类3.2、结合比较目标相似性来训练基于部件的目标模型进行检测3.2.1、训练4、实验4.1、目标类的实验...为了利用这种依赖于类别的相似度正则化，我们开发了一个正则化的核机器算法来训练训练样本很少或没有训练样本的类别的核分类器。我们还采用了最先进的目标检测器来编码对象相似性约束。...由于目标模型的复杂性，训练一个目标检测系统需要大量的实例。为了在较少训练样本的情况下进行检测，我们采用了最先进的目标检测系统[10]来编码目标相似性约束。...属性的一个有趣属性是它们可以用来描述一个新的目标类。例如，“serval是毛茸茸的，有腿。“然而，腿有很多种，比如猫腿、豹腿，甚至桌子腿。这些腿可能很不一样。...另一个可能的解决方案是使用分类法[2]、[33]或使用场景来划分类别:对象是在厨房还是在公园中找到的?对于每个目标类，我们只需要训练一个与来自相同分区的类别相反的模型。

1.2K5 0

机器学习中的目标函数总结

几乎所有的机器学习算法最后都归结为求解最优化问题，以达到我们想让算法达到的目标。为了完成某一目标，需要构造出一个“目标函数”来，然后让该函数取极大值或极小值，从而得到机器学习算法的模型参数。...上面这些算法要完成的目标是一个抽象的概念，具体实现时，要通过一个“目标函数”来体现，算法要通过让目标函数取极大值或极小值来确定模型的参数。...一般来说，我们称有监督学习的目标函数为“损失函数”，它通过模型对每个训练样本x的预测值y与训练样本的真正标签值y来构造。...因此，训练样本的标签值为一个向量，如果样本属于某一类，该分量为1，其他分量为0。...例如对于目标检测问题，其目目标是检测出图像中各种大小、各种位置、各种类写的目标，即要同时判断出每个目标的类型（是人，是车，还是其他类型的东西）以及目标所在的位置、大小: image.png 目标的位置和大小一般用一个矩形框来定义目标

2.8K1 0

理解目标检测模型中的性能评估

我将在另一篇文章中介绍各种目标检测算法，方法和性能。现在，让我们假设我们有一个已经训练好的模型，我们正在验证集上评估它的结果。...我将以简短的方式解释IoU，对于那些真正想要详细解释的人，Adrian Rosebrock有一篇很好的文章，你可以参考。...这个平均值被称为该类的平均精度。 ? 一个类C的平均精度= 在验证集上所有图像对于类C的精度值的和 / 有类C这个目标的所有图像的数量现在，我们整个集合中有20个类。...为了用一个单一的数字来表示一个模型的表现（一个度量来统一它们），我们取所有类的平均精度值的平均值。这个新的价值，是我们的均值平均精度 - MAP！（非常有创意地命名，我必须说） ?...所以你的MAP可能是适中的，但是你的模型可能对某些类非常好，对某些类非常不好。因此，建议在分析模型结果的同时查看各个类的平均精度。这些值也可以作为我们是不是需要添加更多训练样本的一个依据。

3.1K5 0

机器学习与深度学习习题集答案-1

第一种方案是将α的取值离散化，即取典型值 ? ，分别计算取这些值的目标函数值然后确定最优值。或直接求解上面目标函数的驻点，对于有些情况可得到解析解。 28.解释坐标下降法的原理。...9.发生过拟合的原因有哪些，应该怎么解决？引起过拟合的可能原因有： 1.模型本身过于复杂，拟合了训练样本集中的噪声。此时需要选用更简单的模型，或者对模型进行裁剪。 2.训练样本太少或者缺乏代表性。...真阳率（TPR）即召回率，是正样本被分类器判定为正样本的比例 ? 在目标检测任务中正样本是要检测的目标，真阳率即检测率，即目标能够被检测出来的比例。...假设每个类的概率p（c）相等，则等价于求解该问题 ? 也就是计算每个类的p(x丨c)值然后取最大的那个。对p(x丨c)取对数，有 ? 进一步简化为 ? 其中 ? 是常数，对所有类都是相同。...如果k值等于训练样数，则对于任意的预测样本，都会将其预测为训练样本集中数量最大的类。 3.距离函数需要满足哪些数学条件？两个向量之间的距离为 ? ，这是一个将两个维数相同的向量映射为一个实数的函数。

2.8K1 1

K-means

聚类对于”监督学习”(supervised learning)，其训练样本是带有标记信息的，并且监督学习的目的是：对带有标记的数据集进行模型学习，从而便于对新的样本进行分类。...而在“无监督学习”(unsupervised learning)中，训练样本的标记信息是未知的，目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律，为进一步的数据分析提供基础。...K-means算法中的k表示的是聚类为k个簇，means代表取每一个聚类中数据值的均值作为该簇的中心，或者称为质心，即用每一个的类的质心对该簇进行描述。　　...很多时候，事先并不知道给定的数据集应该分成多少个类别才最合适； (3)、在 K-means 算法中，首先需要根据初始聚类中心来确定一个初始划分，然后对初始划分进行优化。...解决方法： 1.多设置一些不同的初值，对比最后的运算结果）一直到结果趋于稳定结束，比较耗时和浪费资源 2.很多时候，事先并不知道给定的数据集应该分成多少个类别才最合适。

7262 0

TTFNet | 提高训练效率的实时目标检测

作者：Edison_G 在目标检测模型的training time, inference speed, 和accuracy之间寻找trade off，重点关注如何在保持另外两个指标的情况下，减少模型的训练时间...历史回顾&背景目标检测器的精度，推理速度，训练时间等方面都得到了广泛关注和不断提高。然而，很少工作可以在它们之间取得良好的平衡。直观地说，推理速度较快的检测器应该有较短的训练时间。...回顾随机梯度下降(SGD)的公式，权重更新表达式可以描述为： ? 至于目标检测，图像x可以包含多个注释框，这些框将被编码到训练样本s∈Sx。...Mx=|Sx|表示图像x中所有框产生的样本数，因此上公式可以表述为： ? 为了简化，假设mx对于小批量B中的每个图像x是相同的。关注个体训练样本s，上式可以改写为： ?...根据上面的结论，我认为这是因为CenterNet在训练过程中只在目标中心编码一个单一的回归样本。这种设计使得CenterNet在很大程度上依赖于数据增强和较长的训练时间，导致不友好的训练时间。

1.1K3 0

稀疏&集成的卷积神经网络学习

对一个给定的图片进行目标识别，首先要判断目标有没有，如果目标没有，则检测和识别结束，如果有目标，就要进一步判断有几个目标，目标分别所在的位置，然后对目标进行分割，判断哪些像素点属于该目标。...目标比较盛行的有：Haar特征、LBP特征、HOG特征和Shif特征等；他们各有千秋，得视你要检测的目标情况而定。...对于物体识别这个特定课题，模型主要建模的对象是特征与特征之间的空间结构关系；主要的选择准则，一是模型的假设是否适用于当前问题；二是模型所需的计算复杂度是否能够承受，或者是否有尽可能高效精确或者近似的算法...一般当模型取定后，匹配算法也就自然而然地出现。...如何描述物体，物体不应该是独立的，物体与物体之间的交互应该考虑进来。物体不应该是一组独立的特征的集合，物体识别应该放在一个更大的上下文环境中来重新考察。

5852 0

综述总结：稀疏&集成的卷积神经网络学习

对一个给定的图片进行目标识别，首先要判断目标有没有，如果目标没有，则检测和识别结束，如果有目标，就要进一步判断有几个目标，目标分别所在的位置，然后对目标进行分割，判断哪些像素点属于该目标。...目标比较盛行的有：Haar特征、LBP特征、HOG特征和Shif特征等；他们各有千秋，得视你要检测的目标情况而定。...对于物体识别这个特定课题，模型主要建模的对象是特征与特征之间的空间结构关系；主要的选择准则，一是模型的假设是否适用于当前问题；二是模型所需的计算复杂度是否能够承受，或者是否有尽可能高效精确或者近似的算法...一般当模型取定后，匹配算法也就自然而然地出现。...目标的分割算法有很多。每个分割算法都要解决两个问题：分割准则和执行方法。（1）MeanShift聚类 Meanshift聚类也可以用在边缘检测、图像规则化、跟踪等方面。

5762 0

目标检测(object detection)系列（一） R-CNN：CNN目标检测的开山之作

(object detection)系列（九） YOLOv3：取百家所长成一家之言目标检测(object detection)系列（十） FPN：用特征金字塔引入多尺度目标检测(object detection...所以待检测物体有几类，那么就应该有几个二分类的SVM分类器，在上面的例子中，就需要两个二分类分类器了，分别是“猫-非猫”模型和“狗-非狗”模型，在R-CNN中，分类器有20个，它的输入特征是AlexNet...然后还是当做一个分类模型来训练，训练样本的构建使用ss生成的子图，当这些图与实际样本的框（Ground-truth）的IoU大于等于0.5时，认为是某一个类的正样本，这样的类一共有20个；IoU小于0.5...2.训练SVM 之前提到了，SVM的输入特征是AlexNet fc7的输出，然后SVM做二分类，一个有20个SVM模型。...用一句话总结Bounding box回归模型就是：对于某一个类的回归模型而言，用IoU>0.6的ss区域经过卷积后作为输入特征，用同一组特征分别训练4组权值与之对应，对边界框四个属性值分别做回归。

4923 0

稀疏&集成的卷积神经网络学习

对一个给定的图片进行目标识别，首先要判断目标有没有，如果目标没有，则检测和识别结束，如果有目标，就要进一步判断有几个目标，目标分别所在的位置，然后对目标进行分割，判断哪些像素点属于该目标。...目标比较盛行的有：Haar特征、LBP特征、HOG特征和Shif特征等；他们各有千秋，得视你要检测的目标情况而定。...对于物体识别这个特定课题，模型主要建模的对象是特征与特征之间的空间结构关系；主要的选择准则，一是模型的假设是否适用于当前问题；二是模型所需的计算复杂度是否能够承受，或者是否有尽可能高效精确或者近似的算法...一般当模型取定后，匹配算法也就自然而然地出现。...1.准确率提高，排除了高得分非目标窗口 2.重叠率提高，目标位置的偏移得到回归 LOC: 基于CNN聚类的目标定位 ? 将聚类后的类别作为一个大类训练Fast R-CNN模型得到定位结果 ?

8305 0

受限玻尔兹曼机（RBM）原理总结

01 RBM模型结构玻尔兹曼机是一大类的神经网络模型，但是在实际应用中使用最多的则是RBM。RBM本身模型很简单，只是一个两层的神经网络，因此严格意义上不能算深度学习的范畴。...对对比散度方法感兴趣的可以看参考文献中2的《A Practical Guide to Training Restricted Boltzmann Machines》，对于MCMC，后面我专门开篇来讲。...在推荐系统中，我们可以把每个用户对各个物品的评分做为可见层神经元的输入，然后有多少个用户就有了多少个训练样本。由于用户不是对所有的物品都有评分，所以任意样本有些可见层神经元没有值。...对于每个训练样本，我们期望编码解码后的可见层输出和我们的之前可见层输入的差距尽量的小，即上面的对数似然损失函数尽可能小。...按照这个损失函数，我们通过迭代优化得到W,a,b，然后对于某个用于那些没有评分的物品，我们用解码的过程可以得到一个预测评分，取最高的若干评分对应物品即可做用户物品推荐了。

1.6K2 0

【Dev Club 分享】深度学习在 OCR 中的应用

传统方法大都需要依靠手动提取特征来训练检测模型和识别模型，由于底层特征与高层语义之间特有的语义鸿沟，当应对多类字体变化以及复杂背景干扰的时候，单一的特征选择或分类器的调优就显得相形见绌了。...这表明文字检测并不能简单的借用人脸/行人检测等常用目标检测框架，一步到位的由图像得到文字区域标定的端到端方法很有压力。通常，一般的文字检测方法可以分为两类：基于滑动窗口全图扫描的自上而下的方式。...由于过检测模型是候选框数量很大，为了降低性能损耗需要把网络设计得尽可能简单，我们借鉴MNIST的LeNet-5网络来构建一个精简的CNN二分类检测模型。 ?...本次分享的这套OCR技术应该难以应对二维码的识别，可以旋转字体，加干扰，艺术字体，对抗性太强，识别和检测的压力都很大 Q7：识别网络的训练样本大概是多少量级？准确率如何？...训练样本在千万级别，业务场景的识别率在95%以上 Q8：看上面的那个图，对有地图，或者有背景水印的图片. OCR 还是很吃力。主要是文字检测阶段是不是？微信里面的街景扫描原理是怎样的？谢谢！

3.6K8 0

【无痛涨点】目标检测优化的实用Trick

我这里的经验就是，我发现有人问过我为啥我只训练一类的检测，然后重新计算的anchor6个或者9个anchor尺寸差的都不大，但是在实际检测的时候，却检测不到东西。...我的结论是：对anchor的设计应该是基于模型作者默认的anchor进行微调而不是完全的重新计算。原因：大家都知道，yolov3来说，输出是三个特征图，分别对应小目标，中目标和大目标。...（指的是直接多层的pooling转换到板子和训练时是一个大的pooling，到转换时候再改结构成几个小的pooling）还有一个就是nms部分，这部分也有同学问过我说因为我的数据集有遮挡，可能两个离的比较近的...3、大模型训练时的一个训练技巧有一位同学问过我，就是为啥同样的模型，用比较少的数据训练的时候很快到了97%的MAP，但是换300w的大数据集的训练以后，卡在93%上不去了。...这里面有一个技巧叫warm up，也就是说在大数据下训练模型的时候，可以先从大数据集上取一部分数据训练模型，然后以这个训练的模型为预训练模型，在大数据集上，增大batch_size再进行训练，至少没卡在

1.4K2 0

TTFNet | 最大程度提高训练效率的实时目标检测（附源码）

在目标检测模型的training time, inference speed, 和accuracy之间寻找trade off，重点关注如何在保持另外两个指标的情况下，减少模型的训练时间。...历史回顾&背景目标检测器的精度，推理速度，训练时间等方面都得到了广泛关注和不断提高。然而，很少工作可以在它们之间取得良好的平衡。直观地说，推理速度较快的检测器应该有较短的训练时间。...回顾随机梯度下降(SGD)的公式，权重更新表达式可以描述为： ? 至于目标检测，图像x可以包含多个注释框，这些框将被编码到训练样本s∈Sx。...根据上面的结论，我认为这是因为CenterNet在训练过程中只在目标中心编码一个单一的回归样本。这种设计使得CenterNet在很大程度上依赖于数据增强和较长的训练时间，导致不友好的训练时间。...新提出的方法有效地使用了大中型目标中包含的注释信息，但对于包含很少信息的小目标，推广是有限的。

8821 0

提高训练效率的实时目标检测（附源码）

作者：Edison_G 在目标检测模型的training time, inference speed, 和accuracy之间寻找trade off，重点关注如何在保持另外两个指标的情况下，减少模型的训练时间...历史回顾&背景目标检测器的精度，推理速度，训练时间等方面都得到了广泛关注和不断提高。然而，很少工作可以在它们之间取得良好的平衡。直观地说，推理速度较快的检测器应该有较短的训练时间。...回顾随机梯度下降(SGD)的公式，权重更新表达式可以描述为： ? 至于目标检测，图像x可以包含多个注释框，这些框将被编码到训练样本s∈Sx。...根据上面的结论，我认为这是因为CenterNet在训练过程中只在目标中心编码一个单一的回归样本。这种设计使得CenterNet在很大程度上依赖于数据增强和较长的训练时间，导致不友好的训练时间。...新提出的方法有效地使用了大中型目标中包含的注释信息，但对于包含很少信息的小目标，推广是有限的。

8672 0

经验分享 | 解决NN不work的37个方法

如果每个epoch有对训练样本打乱顺序，要确保打乱顺序后这种对应关系仍然是正确的。 5....确保 batch 中的样本不同属一个类别 Make sure your batches don’t contain a single label 这种情况对于有序的数据集很常见（比如前一万个样本都是同一类别的...尝试解决简化版的问题 Try solving a simpler version of the problem 比方说要做目标检测，网络要同时输出目标的类别和坐标，那么可以先试试解决一个简化的问题——...假如这是一个有10个类的分类任务，那么初始化之后训练之前，每个样本预测正确的可能性为10%，如果用 softmax 损失（概率取负对数）的话就应该是 -ln(0.1)，也即 2.302 左右。...- Deeplearning4j 指出了应该怎么去看权重和偏置的直方图： “对于权重，一段时间后，直方图应该接近高斯（正态）分布；对于偏置，直方图应该从0开始，并最终接近高斯分布（LSTM除外）。

1.3K2 0

scikit-learn工具包中分类模型predict_proba、predict、decision_function用法详解「建议收藏」

说明一下，在sklearn中，对于训练好的分类模型，模型都有一个classes_属性，classes_属性中按顺序保存着训练样本的类别标记。...意思就是使用样本到分隔超平面的有符号距离来度量预测结果的置信度，反正我是有点懵逼。放大招，灵魂三问。他是谁？他从哪里来？他到哪里去？他是谁？...这样对于一个输入样本就相当于要进行4个二分类，然后取输出结果最大的数值对应的classes_类别。 ‘ovo’：全称是One-vs-One。就是一个人分别和对面的每个人干一次架（单挑，车轮战术）。...那么问题来了，有多少个分类器是不是就得有多少个分隔超平面，有多少个分隔超平面是不是就得有多少个decision_function值。这也就对应了“他是谁？”...1、二分类的decison_function 二分类模型中，decision_function返回的数组形状等于样本个数，也就是一个样本返回一个decision_function值。

2.5K1 0

机器学习在web攻击检测中的应用实践

介绍了完了架构，回归机器学习本身，下面将介绍如何建立一个web攻击检测的机器学习模型。...而一般来讲，应用机器学习解决实际问题分为以下4个步骤：（1）定义目标问题（2）收集数据和特征工程（3）训练模型和评估模型效果（4）线上应用和持续优化三、定义目标问题核心的目标问题：（...一开始本地实验时，我是选用的python的sklearn库，训练样本黑白数据分别为10w+条数据，达到1比1的平衡占比。项目上线的时候，我们采用的是spark mllib来做的。...这样，一个请求就转换成一个1n的矩阵，m个训练样本就是mn的输入建模。...（1）特征提取有问题，这个没办法，完全基于个人特定范围的知识领域经验（2）训练样本有问题，错误标签较多，或者样本不平衡（3）算法和选取的训练参数需要优化前面2个都介绍过了，下面我们讲一下参数如何优化

1.7K5 0

干货 | 机器学习在web攻击检测中的应用实践

介绍了完了架构，回归机器学习本身，下面将介绍如何建立一个web攻击检测的机器学习模型。...而一般来讲，应用机器学习解决实际问题分为以下4个步骤：定义目标问题收集数据和特征工程训练模型和评估模型效果线上应用和持续优化三、定义目标问题核心的目标问题： 1....一开始本地实验时，我是选用的python的sklearn库，训练样本黑白数据分别为10w+条数据，达到1比1的平衡占比。项目上线的时候，我们采用的是spark mllib来做的。...这样，一个请求就转换成一个1*n的矩阵，m个训练样本就是m*n的输入建模。...1.特征提取有问题，这个没办法，完全基于个人特定范围的知识领域经验 2.训练样本有问题，错误标签较多，或者样本不平衡 3.算法和选取的训练参数需要优化前面2个都介绍过了，下面我们讲一下参数如何优化，这里我们介绍使用

8659 0

受限玻尔兹曼机（RBM）原理总结

在前面我们讲到了深度学习的两类神经网络模型的原理，第一类是前向的神经网络，即DNN和CNN。第二类是有反馈的神经网络，即RNN和LSTM。...今天我们就总结下深度学习里的第三类神经网络模型：玻尔兹曼机。...RBM模型结构　　　　玻尔兹曼机是一大类的神经网络模型，但是在实际应用中使用最多的则是RBM。RBM本身模型很简单，只是一个两层的神经网络，因此严格意义上不能算深度学习的范畴。...在推荐系统中，我们可以把每个用户对各个物品的评分做为可见层神经元的输入，然后有多少个用户就有了多少个训练样本。由于用户不是对所有的物品都有评分，所以任意样本有些可见层神经元没有值。...按照这个损失函数，我们通过迭代优化得到$W,a,b$，然后对于某个用于那些没有评分的物品，我们用解码的过程可以得到一个预测评分，取最高的若干评分对应物品即可做用户物品推荐了。

9523 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭