机器学习炼丹之旅

代码在线跑，知识轻松学

Python精品学习库

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

博客搬家 | 分享价值百万资源包

往期视频·干货材料·成员作品 最新动态

技术创作特训营·精选知识专栏

【玩转 EdgeOne Pages】体验 MCP Server 和 DeepSeek 模板的百变玩法

技术创作特训营 | 33 天实现自己的 AI 进化论

新邀入驻腾讯云开发者社区，福利多多！

官网网址：https://www.nvidia.com/Download/index.aspx?lang=en-us

Ubuntu22安装N卡驱动以及CUDA

7天的Rebuttal终于结束了，高强度全力focus到一件事的时候，时间就过的飞快，这一周股市又是腥风血雨，但实属无暇顾及，每天就匆匆看一眼，连悲伤的情绪都没时间流露。好似“折跃”到了2月，在1号算是短暂的休息了一下（其实就是洗了堆了一周的衣物，去修了车），晚上开始回忆一周的经过，总结一周的收获和感受。这可能不是一篇专业度极高的文章，但一定是一个Research萌新的用心之作，如果对你也所帮助那就再好不过了。

CVPR2024 Rebuttal 收获

算是第一次正经的调研吧，之前就做过论文复现和 “不成功” 的调研。至于为什么不成功呢？主要因为我是0基础的科研小白，所以对调研目的的认知错误。其实在年前做过一次关于 Out-of-distribution 的调研了，但是为什么现在又花了差不多一周的时间重新做了一次呢？因为我一开始调研的目的是了解一下这个领域，看看有没有可以用于我当前方向的方法（我当前的方向比较新，只能从类似的任务中借鉴）。所以，我第一次调研的时候，就直接把OOD的方法和我当前的方向做比较，如果没有什么关联就跳过。实际上这是错误的一种调研。

Out-of-distribution Detection调研

DNN（deep neural networks）在计算机视觉任务中取得了很好的效果，比如图像分类、目标检测、实例分割等。不过，大量的参数和计算的复杂度带来的高存储和高计算性能的限制，使得DNN很难应用在一些低性能的设备上。为了解决这个问题，提出了很多压缩技术：network pruning，low-rank decomposition，efficient architecture design，network quantization。其中，network quantization将全精度（full-precision）网络中的权重和激活值转换成低精度的表达。其中一个极端的情况就是 binary neural network（BNN 二值神经网络），它将权重和激活值的数值限制在两个取值：+1和-1。如此，相比全精度的网络，BNN的大小可以缩小32倍（全精度网络中一个双精度数值用32bit表示，BNN中一个数值用1bit表示），并且使用乘法和加分的卷积运算可以使用更高效的 XNOR 和 bitcount 运算代替。

论文精读系列：rotated-binary-neural-network（RBNN）

PyTorch是一个很著名的支持GPU加速和自动求导的深度学习框架，在最近几年收到学术界的热捧，主要是因为其动态图机制符合思维逻辑，方便调试，适合于需要将想法迅速实现的研究者。PyTorch是Torch7团队开发的。Torch是一个开源科学计算框架，可以追溯到2002年纽约大学的项目。Torch的核心在于在构建深度神经网络及其优化和训练，为图像，语音，视频处理以及大规模机器学习问题提供快速高效的计算方案。为了追求更高的速度，灵活性和可扩展性，Torch采用Lua作为它的开发语言，但lua语言的受众比较局限。为了满足当今业界里Python先行(Python First)的原则，PyTorch应运而生，由Facebook人工智能研究员(FAIR)于2017年在GitHub上开源。顾名思义，PyTorch使用python作为开发语言，近年来和tensorflow, keras, caffe等热门框架一起，成为深度学习开发的主流平台之一。

Pytorch的基本介绍及模型训练流程

对于神经元的研究由来已久，1904年生物学家就已经知晓了神经元的组成结构。在人脑中有数以亿计的神经元，每个神经元最主要的部分就是树突和轴突，一个神经元通常有多个树突但是只有一个轴突。树突接收来自外界的电信号，电信号经过细胞体的处理后经由轴突发送出去。一个神经元通常有多个树突但是只有一个轴突，树突与其他神经元的轴突相连，神经元间通过这样的方式传递和处理信号，并控制着肌肉的收缩。神经元的结构如下图所示：

从M-P模型到神经网络

任务描述：将“course-6-vaccine”世界麻疹疫苗接种数据集划分为训练集和测试集（训练集和测试集比例分别为：8:2；7:3；6:4），利用训练集分别结合线性回归、多项式回归建立预测模型，再利用测试集来预测世界麻疹疫苗接种率并验证预测模型的拟合能力。
 具体任务要求如下：

scikit-learn实战1：回归问题

图像文字识别应用所作的事是，从一张给定的图片中识别文字。这比从一份扫描文档中识别文字要复杂的多。

机器学习：应用示例–图片OCR.md

如果我们有一个低方差的模型，增加数据集的规模可以帮助你获得更好的结果。但是大数据集意味着计算量的加大，以线性回归模型为例，每一次梯度下降迭代，我们都需要计算训练集的误差的平方和，当数据集达到上百万甚至上亿的规模时，就很难一次性使用全部的数据集进行训练了，因为内存中放不下那么多的数据，并且计算性能也达不到要求。

机器学习：大数据集下的机器学习

在接下来的一系列视频中，我将向大家介绍异常检测(Anomaly detection） 问题。这是机器学习算法的一个常见应用。这种算法的一个有趣之处在于：它虽然主要用于非监督学习问题，但从某些角度看，它又类似于一些监督学习问题。什么是异常检测呢？为了解释这个概念，让我举一个例子吧：
 假想你是一个飞机引擎制造商，当你生产的飞机引擎从生产线上流出时，你需要进行QA（质量控制测试），而作为这个测试的一部分，你测量了飞机引擎的一些特征变量，比如引擎运转时产生的热量，或者引擎的振动等等。这样一来，你就有了一个数据集，你将这些数据绘制成图表，如下图。

机器学习：异常检测和推荐系统

Tips：如果出现某个聚类中心没有分配到点的情况，一般是直接将这个中心去掉，如果规定必须要刚好 

机器学习：无监督学习

，代价图像如上图左所示，我们的优化目标是使得代价函数尽量的小，在图中可以看出，当 

机器学习：支持向量机SVM

Scikit-learn是基于NumPy、 SciPy和 Matplotlib的开源Python机器学习包,它封装了一系列数据预处理、机器学习算法、模型选择等工具,是数据分析师首选的机器学习工具包。自2007年发布以来，scikit-learn已经成为Python重要的机器学习库了，scikit-learn简称sklearn，在 Sklearn 里面有六大任务模块：分别是分类、回归、聚类、降维、模型选择和预处理，此外还有一个数据引入模块。

scikit-learn的核心用法

在训练数据的时候，可能会发现模型的效果不是很好，于是就需要对模型进行调整，一般有以下几种方式：

机器学习：应用和设计模型

虽然图片识别对于人来说是一件轻松的事情，但是对于计算机来说，由于接受的是一串数字，对于同一个物体，表示这个物体的数字可能会有很大的不同，所以使用算法来实现这一任务还是有很多挑战的，具体来说：

卷积神经网络及经典模型

由于单层的感知机模型的表达能力很差，只能表示线性模型，连最简单的 XOR 函数模型都无法表示，所以出现了多层感知机模型，加入了隐藏层，最简单的多层感知机模型有三层，分别为输入层、隐藏层、输出层，其中隐藏层的元素个数和层数是超参数（即自定义的），如下图所示：

深度学习前置知识

深度学习的调参就像炼丹，而我就是一位正尝试入坑的“炼丹学徒”，在收藏了几个链接后，看着臃肿的收藏夹，心血来潮，不如写篇博客，整理一下近期学习过程中遇到的好课程、好博客、好项目，会贴上链接，做个简短的评价，欢迎留言交流与评价，持续分享好的资源~

炼丹秘籍（ML指南）

需求开发阶段的主要任务就是分析问题，研究问题所发生的现实世界（即问题域），寻找实现软件系统与现实世界有效互动的办法，并严格描述该互动办法。而软件需求开发是一个连接现实世界与计算机世界的活动，是软件工程的起始阶段，设计、实现等后续阶段的正确性都以它的正确性为前提。如果需求开发过程中有错误未能解决，则其后的所有阶段都会受到影响，因此与需求有关的错误修复代价较高，需求问题对软件成败的影响较大。而我们之所以认识不到需求开发阶段的重要性主要是因为学校时间项目的特殊性，具体来说学校的课程设计或实训：

软件工程：需求开发阶段

近期由于一些原因接触到了并行计算，对于这个陌生的领域我最先接触到的是MPI框架。MPI（Message Passing Interface），可以理解为是一种独立于语言的信息传递标准。目前它有两种具体的实现OpenMPI和MPICH，也就是说如果我们要使用MPI标准进行并行计算，就需要安装OpenMPI或MPICH库。本文以MPICH为例，在ubantu中安装MPI的环境，并对vscode进行配置。

Linux下MPI的安装与vscode的配置

在认识 Anaconda 之前，先认识一下conda，Conda是在Windows、macOS和Linux上运行的开源软件包管理系统和环境管理系统。它可以快速安装、运行和更新软件包及其依赖项。那么既然都是用来安装包的，Conda和pip有啥区别呢？主要区别如下：

Anacoda的安装和使用

文章

问答

视频

学习中心

腾讯云实验室

直播

竞赛

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋 

腾讯云AI代码助手

CODING DevOps

Cloud Studio

SDK中心

API中心

命令行工具

文章&问答评论现已支持表情

全新交互，全新视觉，新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能，全面提升创作效率和体验

社区富文本编辑器全新改版！诚邀体验～ 

腾讯云开发者社区推出了机器学习炼丹之旅专栏，为你提供了机器学习炼丹之旅的相关文章，致力于帮助开发者快速成长与发展。

用户5915189的专栏

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐