MMDetection 是一个由 OpenMMLab 开发的开源目标检测工具箱,基于 PyTorch 实现。该库提供了丰富的目标检测算法,包括经典的 Faster R-CNN、YOLO 和最新的一些研究成果,非常方便于研究者和工程师进行模型的训练和推理。具有高度模块化和可扩展性的设计,使得用户可以非常灵活地进行个性化配置和二次开发。这一工具箱已经成为目标检测领域的事实标准之一,被广泛应用于学术研究和产业界。
前面文章中,有介绍如何训练生成定制化需求的 CoreML 模型,以图像分类为例做了演示,文章地址:
在本系列的上一篇博客文章中,我们探索了将GPU用于数据科学工作流的好处,并演示了如何在Cloudera Machine Learning(CML)中设置会话以访问NVIDIA GPU来加速机器学习项目。尽管将GPU用于复杂和大型任务的省时潜力巨大,但设置这些环境和任务(例如整理NVIDIA驱动程序,管理CUDA版本以及为特定项目需求部署自定义引擎)可能既耗时又充满挑战。为了简化这些流程,并使数据科学家更快地在ML用例上工作,我们简化了在CML中本地配置和利用NVIDIA GPU的工作。在接下来的部分中,我们将为您提供三种简单的方法,使数据科学团队可以开始使用GPU来为CML中的深度学习模型提供支持。
和传统的软件开发操作(简称devOps)相比,机器学习操作(简称mlOps)。其中一个原因在于除了代码这种小型简单文件,机器学习实验需要大型数据库和模型组件。
对对象进行分类就是将其分配给特定的类别。这本质上是一个分类问题是什么,即将输入数据从一组这样的类别,也称为类分配到预定义的类别。
原文:https://www.raywenderlich.com/174-beginning-machine-learning-with-scikit-learn 作者: Mikael Konutgan 2018年2月12日·中级·文章·15分钟
我们将使用Tensorflow创建和开发一个简单的模型框架,以及提出一些对初步结果改进的意见。
https://github.com/davidsandberg/facenet
本文介绍.net中的机器学习技术实现,不涉及数学方面的内容。它将重点关注在.net中的基本工作流程及其数据处理结构,以及怎么样通过使用开源项目ML.Net 0.2来进行机器学习的实验。
一直想开发一个完整的机器学习应用程序,将有一个UI来输入一些输入和机器学习模型来预测这些值。上周做到了这一点。在这个过程中,在React和Flask中创建了一个易于使用的模板,任何人都可以在几分钟内修改创建自己的应用程序。
选自GitHub 作者:Andrew Gordon Wilson 机器之心编译 参与:路雪、刘晓坤 用生成模型学习高维自然信号(比如图像、视频和音频)长期以来一直是机器学习的重要发展方向之一。来自 Uber AI Lab 的 Yunus Saatchi 等人今年五月提出了 Bayesian GAN——利用一个简单的贝叶斯公式进行端到端无监督/半监督 GAN 学习。该研究的论文已被列入 NIPS 2017 大会 Spotlight。最近,这篇论文的另一作者 Andrew Gordon Wilson 在 Gi
本系列前面的文章详细的介绍了在iOS中与AI能力相关的API的使用,也介绍了如何使用训练好的CoreML模型来实现更强大的AI能力。然而,无论是成熟的API提供的能力,还是各种各样的三方模型,有时候都并不能满足某一领域内的定制化需求。当我们拥有很多的课训练数据,且需要定制化的AI能力时,其实就可以自己训练生成CoreML模型,将此定制化的模型应用到工程中去。
张量处理单元(TPU)是能够大大加快深度学习模型训练速度的硬件加速器。在斯坦福大学进行的独立测试中,在 TPU 上训练的 ResNet-50 模型能够在 ImageNet 数据集上以最快的速度(30 分钟)达到预期的准确率。
众所周知,传统标注方法在大规模数据处理中存在一些瓶颈。繁琐的手动标注,耗时耗力,效率低下,常常成为数据科学家们的心头之患。传统的方法需要人工集中注意力参与,长时间的重复劳动往往令标注人员感到疲惫和乏味,容易导致工作质量下降。最近 SAM(Segment Anything Model)的出现为我们带来了一种创新的解决方案。
AI 科技评论按:日前,2019 年 Kaggle Freesound 音频标注挑战赛宣告完结,比赛结果也终于出炉。参赛者之一 Eric BOUTEILLON 是全球无缝支付解决方案提供商银捷尼科集团(Ingenico Group)的一位产品负责人,他提交的解决方案在本次比赛中进入前 2% 排名,取得了第 8 名的成绩,日前,他将解决方案分享在了 Github 上,详细地介绍了该方案的复现步骤。
XTuner 是一个傻瓜式、轻量级的大语言模型微调工具箱,由MMRazor和MMDeploy联合开发。其以配置文件的形式封装了大部分微调场景,0基础的非专业人员也能一键开始微调;对于 7B 参数量的LLM,微调所需的最小显存仅为 8GB。
https://github.com/open-mmlab/mmdetection
我也忘了在哪里看过几篇类似的文章,为了让更多朋友知道这个好工具,我今天也作为一名合格的搬运工,希望大家努力传播正能量,和大家共同进步!谢谢! NVIDIA为了卖出更多的显卡,对深度学习的偏爱真是亮瞎了狗眼。除了CUDNN, 又出了DIGITS,真是希望小学生也能学会深度学习,然后去买他们的卡。NVIDIA DIGITS是一款web应用工具,在网页上对Caffe进行图形化操作和可视化,用于Caffe初学者来说,帮助非常大。不过有点遗憾的是,据NVIDIA官方文档称,DIGITS最佳支持系统是Ubuntu
NVIDIA为了卖出更多的显卡,对深度学习的偏爱真是亮瞎了狗眼。除了CUDNN, 又出了DIGITS,真是希望小学生也能学会深度学习,然后去买他们的卡。NVIDIA DIGITS是一款web应用工具,在网页上对Caffe进行图形化操作和可视化,用于Caffe初学者来说,帮助非常大。不过有点遗憾的是,据NVIDIA官方文档称,DIGITS最佳支持系统是Ubuntu 14.04,其它的系统效果如何,就不得而知了。
在计算机科学中,手势识别是通过数学算法来识别人类手势的一个议题。用户可以使用简单的手势来控制或与设备交互,让计算机理解人类的行为。 这篇文章将带领你实现在你自己的应用中使用深度学习来识别复杂的手势,比
到目前为止,我们已选择了预训练模型,找到了现成数据集,也创建了自己的数据集,并将其转换为TFRecord文件。 接下来,我们开始训练模型。
OpenMMLab 框架几乎全面覆盖了深度学习视觉任务的方方面面。针对每一个具体的任务,我们都提供了一个相应的算法库,如用于分类任务的 MMClassification,用于检测任务的 MMDetection 和用于分割任务的 MMSegmentation 等等。
大型语言模型(LLMs)如 GPT-4 已经展示了出色的文本理解和生成能力。但它们在处理领域特定信息方面面临挑战,比如当查询超出训练数据范围时,它们会产生错误的答案。LLMs 的推理过程也缺乏透明度,使用户难以理解达成结论的方式。
本章介绍如何使用PaddlePaddle实现简单的声纹识别模型,本项目参考了人脸识别项目的做法PaddlePaddle-MobileFaceNets ,使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对特征向量和权重归一化,对θ加上角度间隔m,角度间隔比余弦间隔在对角度的影响更加直接。
数据科学家Archy de Berker 在本文中详述了他和周围同伴在机器学习探索中踩过的坑,这也都是大家经常性遇到的问题。他 希望通过这一篇文章,带大家了解机器学习中一些有趣的错误——一些只有你深入了这个领域才能接触到的错误。
---- 新智元编译 编译:小潘 【新智元导读】医学图像数据很难处理,经常包含旋转倒置的图像。这篇文章介绍如何利用深度学习以最小的工作量来修复医疗影像数据集,缓解目前构建医疗 AI 系统中收集和清洗数据成本大的问题。 在医学成像中,数据存储档案是基于临床假设的。不幸的是,这意味着当你想要提取一个图像时,比如一个正面的胸部x光片,你通常会获得一个存储了许多其他图像的文件夹,并且没有简单的方法来对它们加以区分。 图1:这些图片来自于相同的文件夹是有道理的,因为在放射学中我们记录的是病例而非图像。这是病
你知道吗?在 iOS 设备上也可以直接训练 LeNet 卷积神经网络,而且性能一点也不差,iPhone 和 iPad 也能化为实实在在的生产力。
本文翻译自:《Optimizing AI models for Arm Ethos-U NPUs using the NVIDIA TAO Toolkit》
本章介绍如何使用Pytorch实现简单的声纹识别模型,本项目参考了人脸识别项目的做法Pytorch-MobileFaceNet ,使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对特征向量和权重归一化,对θ加上角度间隔m,角度间隔比余弦间隔在对角度的影响更加直接。
本教程将在 Azure 机器学习工作室中创建自动化 ML 试验运行。机器学习工作室是一个整合的 Web 界面,其中包含的机器学习工具可让各种技能水平的数据科学实践者执行数据科学方案。 Internet Explorer 浏览器不支持此工作室。
本节提供了不同的案例研究,显示了如何开发和部署深度学习 Web 应用(使用深度学习 API),并展示了使用深度学习保护 Web 应用安全的措施。
为什么用PaddlePaddle ?因为百度的AI Studio开发平台可以用免费GPU ~ AI Studio上只能用PaddlePaddle。
本项目可以方便地对模拟学习网络的培训进行训练和管理,并结合CARLA模拟器进行评估。目的是:
本项目说是使用Keras,但使用的都是Tensorflow下的keras接口,本项目主要是用于声纹识别,也有人称为说话人识别。本项目包括了自定义数据集的训练,声纹对比,和声纹识别。
本文中的所有代码都在GitHub Repository上。数据集已经在适当的文件夹中,并且代码可以运行(在安装PyTorch之后)。
对于给定的音频数据集,可以使用Spectrogram进行音频分类吗?尝试使用Google AutoML Vision。把音频文件转换成各自的频谱图,并使用频谱图作为分类问题的图像。
Open3D-ML是Open3D的一个扩展,用于3D机器学习任务。它建立在Open3D核心库之上,并通过机器学习工具对其进行扩展,以进行3D数据处理。此repo集中于语义点云分割等应用程序,并提供可应用于常见任务的预训练模型以及用于训练的流程。
本篇文章主要讲解自己的图像数据如何在TnesorFlow上训练,主要从数据准备、训练模型、验证准确率和导出模型并对图片分类。重点如下:
如果经常阅读我博客的读者,想必对YOLOv5并不陌生。在Pytorch:YOLO-v5目标检测(上)一文中,我使用了coco128数据集,非常轻松的跑通了。然而在使用VOC2007数据集时,却遇到重重阻碍。主要问题在数据标签转化这个阶段,VOC数据集标注形式是xml,需要将其转换为txt。很多博文并未把文件的放置位置交代清楚,导致走了不少弯路,本篇博文就记录如何不走弯路地跑通VOC数据集。
最近想跑一下旷世开源的YOLOX,本想着属于YOLO系列,代码大致都和YOLOv5差不多,没想到代码整体差异还是挺大的,跑通的过程中踩了不少坑,这篇就来记录一下整个流程。
本文使用Kaggle的Deepfake比赛数据集,使用CNN+LSTM架构,对视频帧做二分类,该项目部署在百度的aistudio上进行训练。
本章介绍如何使用Tensorflow实现简单的声纹识别模型,首先你需要熟悉音频分类,没有了解的可以查看这篇文章《基于Tensorflow实现声音分类》 。基于这个知识基础之上,我们训练一个声纹识别模型,通过这个模型我们可以识别说话的人是谁,可以应用在一些需要音频验证的项目。不同的是本项目使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对特征向量和权重归一化,对θ加上角度间隔m,角度间隔比余弦间隔在对角度的影响更加直接。
CVPR2022弱监督语义分割:https://blog.csdn.net/Sierkinhane/article/details/126228039
本文旨在介绍使用机器学习算法,来介绍Apache Spark数据处理引擎。我们一开始会先简单介绍一下Spark,然后我们将开始实践一个机器学习的例子。我们将使用Qualitative Bankruptcy数据集,来自UCI机器学习数据仓库。虽然Spark支持同时Java,Scala,Python和R,在本教程中我们将使用Scala作为编程语言。不用担心你没有使用Scala的经验。练习中的每个代码段,我们都会详细解释一遍。 APACHE SPARK Apache Spark是一个开源的集群计算框架,用Spa
AI 研习社按,机器学习研究者、Jetpac 的 CTO、《The Public Data Handbook》和《The Big Data Glossary for O’Reilly》两本书的作者 Pete Warden 最近在自己的个人博客上发表了一篇文章,讨论了机器学习领域令人头疼的模型的可重复性问题,广大研究人员们想必深有同感。AI 科技评论把文章编译如下。
领取专属 10元无门槛券
手把手带您无忧上云