首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何用点云对车辆和行人进行识别分类?这是MIT学生的总结

我的工作 这个夏天的实习中,我一直在研究计算机视觉相关的几个问题,阅读了很多论文并且训练了不少模型。大部分时候,我一直都是用公开数据集,对激光雷达(LiDAR)数据进行分类识别。...怎么能让无人车也做到这一点?过去几个月我的大部分工作,就是想办法让Voyage的自动驾驶出租车对车辆和行人进行分类。 我使用的工具是三维视图(LiDAR点云)+深度学习。...其中一个替代方案是手动挑选与物体类别高度相关的物理特征信息,也就是对我们的模型进行一些特征工程。 在这个过程中,我的导师教会了我一件事:实验、实验、实验。...我的成果 这个夏天我的收获之一,就是学会使用一个很棒的快速可视化工具。在Vispy的帮助下,我对大量的点云进行了有序的可视化,然后在类似真实世界的环境中对模型进行调试。...(插播一个量子位之前的报道:《PyTorch还是TensorFlow?》) 我搭建的模型之一,是一个编码解码器(Encoder-Decoder)网络,能够对多个通道的输入数据进行分类预测。

1.4K71

关于深度学习系列笔记五(层、网络、目标函数和优化器)

损失函数,即用于学习的反馈信号;损失函数将这些预测值与目标进行比较,得到损失值,用于衡量网络预测值与预期结果的匹配程度 优化器,决定学习过程如何进行;优化器使用损失值来更新网络的权重。...# 损失函数,即用于学习的反馈信号;损失函数将这些预测值与目标进行比较,得到损失值,用于衡量网络预测值与预期结果的匹配程度 # 优化器,决定学习过程如何进行;优化器使用损失值来更新网络的权重。...#层:深度学习的基础组件 # 神经网络的基本数据结构是层。层是一个数据处理模块,将一个或多个输入张量转换为一个或多个输出张量。 # 有些层是无状态的,但大多数的层是有状态的,即层的权重。...timesteps, features) 的3D 张量中,通常用循环层(recurrent layer,比如Keras 的LSTM 层)来处理。...# 因此,对于具有多个损失函数的网络,需要将所有损失函数取平均,变为一个标量值。 # 优化器——决定如何基于损失函数对网络进行更新。它执行的是随机梯度下降(SGD)的某个变体。

91430
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    深度学习-数学基础

    深度学习-数学基础 概述 对神经网络中出现的数学信息进行解释 正文 网络架构 类:分类问题中的某个类别 样本:数据点 标签:某个样本对应的类 损失函数(loss function):网络如何衡量在训练数据上的性能...,即网络如何朝着正确的方向前进。...,不是一维数组,也称为0D张量 向量:数字组成的数组叫作向量(vector)或一维张量(1D 张量) 矩阵:2维张量,也称为2D张量 3D张量:若干个2D张量组成3D张量 4D张量:若干个3D张量组成...点积运算 一般用.来表示,它和逐元素运算的不同在于点积运算在乘法之后还要进行加法运算,因此两个向量点积最终生成的是一个标量,而1个矩阵和1个向量点积,生成一个向量 张量变形 张量变形是指改变张量的行和列...此时的参数为初始化随机参数 计算y_pred 和y 之间的距离,衡量损失。 更新网络的所有权重,目标是使得目标函数损失减少。

    1.1K10

    关于深度学习系列笔记四(张量、批量、Dense)

    关于张量、张量运算、批量、梯度优化、随机梯度下降这几个概念和Dense的一些参数,简单而又难以理解的几个名词,花了几天时间才看了个七七八八,尤其是Dense的输入输出参数、权重和偏置向量是如何发挥作用的...张量 数据形状= (3, 3, 5) #张量是由以下三个关键属性来定义的。...#然后在测试集(test set,即test_images 和test_labels)上对模型进行测试。...# 将这一方法应用于神经网络,就是用解析法求出最小损失函数对应的所有权重值。 # 基于当前在随机数据批量上的损失,一点一点地对参数进行调节。...# 反向传播从最终损失值开始,从最顶层反向作用至最底层,利用链式法则计算每个参数对损失值的贡献大小。 #学习是指找到一组模型参数,使得在给定的训练数据样本和对应目标值上的损失函数最小化。

    75020

    PointPillar:利用伪图像高效实现3D目标检测

    3D点云检测的现状如何 最近几年点云的三维目标检测一直很火,从早期的PointNet、PointNet++,到体素网格的VoxelNet,后来大家觉得三维卷积过于耗时,又推出了Complex-yolo...接下来了解它的检测头选用的是什么? 模型搭建完毕后需要分析损失函数如何权衡? 最后当然是看看实验的仿真效果如何?...对每个样本的非空支柱数(P)和每个支柱中的点数(N)施加限制,来创建大小为(D,P,N)的张量张量。如柱状体中的数据太多,则进行随机采样,如数据太少,则用0进行填充。...简化版本的PointNet对张量化的点云数据进行处理和特征提取(即对每个点都运用线性层+BN层+ReLU层),来生成一个(C,P,N)的张量,再对于通道上使用最大池化操作,输出一个(C,P)的张量。...并对3个块进行上采样,最后将3个上采样的块进行通道拼接,可以为检测头提供6C维度的特征。

    3.7K30

    GPU在计算机架构的新黄金时代还会继续闪耀吗?

    我想再补充第四点,补全这个循环: 在竞争中胜出的架构促进了后续的软件进化。...原因是 AI DSA 需要加速张量运算,这在 AI 中是很常见的运算,但在 3D 世界中是没有的。同时,为 3D 用途准备的固定功能硬件对 AI 来说一般是不需要的。...在第一种方案下,对 3D 虚拟世界建模需要工程师和艺术家进行大量艰苦而富有创造性的工作,来描述每个对象及其与灯光交互方式的物理属性。...实际上,对 3D 虚拟世界建模与学习神经网络参数是一回事。这个过程要求我们在前向路径中包含一个 3D 渲染流水线,并在多个紧密循环中集成 3D 虚拟世界的建模和渲染。...通过对真实世界图像迭代多个渲染和测试,我们获得了可用于渲染虚拟世界新视图的所需模型和场景参数。

    29920

    使用单一卷积网实时进行端到端3D检测,跟踪和运动预测

    我们的方法是一个单级检测器,它以多个连续的时间帧生成的4D张量作为输入,在空间和时间上执行3D卷积以提取精确的3D边界盒。我们的模型不仅在当前帧生成边界框,而且在将来生成多个时间戳。...为了实现这一目标,我们开发了一种单级检测器,它以多帧为输入,对未来物体的运动轨迹进行检测、跟踪和短期运动预测。我们的输入表示是一个4D张量,它在多个时间帧上对3D空间的占用网格进行编码。...注意,如果我们的网格分辨率很高,我们的方法相当于在每个点上应用卷积而不丢失任何信息。我们让读者参考图2,了解如何从三维点云数据构造三维张量。 ?...对于时间信息,我们从过去的5个时间戳中获取所有3D点。因此,我们的输入是一个由时间,高度,X和Y组成的4维张量。...图7:不同数量的最小3D点上的mAP 我们也有兴趣知道模型如何作为车辆距离的函数。为实现这一目标,我们将预测范围扩展到100米之外。

    1K20

    . | PyUUL提供了生物结构和深度学习算法之间的接口

    在这篇论文中,作者提出PyUUL用于处理生物分子(蛋白质、药物、核酸)的3D结构,将它们转换为可微的、ML-ready的张量表示,例如体积网格或者点云。...用户可以在多种生物结构的张量表示(基于体素、表面点云、体积点云)中进行选择(如图1A所示)。基于体素的表示方法:每一个大分子表示为一个三维盒子,其中体素(3D像素)大小都是由用户进行定义(分辨率)。...同图片的红绿蓝类似,体素也包含多个通道,每个通道指定了一个特定原子类型的密度;表面点云表示方法:在大分子表面进行采样,用这些点来表示它的结构;体积点云表示方法:这种方法和表面点云类似,但除了对分子表面进行采样之外...用点云进行蛋白质特征编码 作者为每个GTP结合口袋生成固定长度的signature。这样的编码可以被用于,比如说,在线药物筛选,类似于对小分子的分子指纹所做的那样。...使用10个特征作为编码维度,基于signature和基于云点的配对距离矩阵之间的皮尔逊相关系数可以达到0.72。 GPU并行、稀疏张量和资源用途 PyUUL使用Pytorch中的稀疏张量进行计算。

    33410

    神经网络入手学习

    一个网络层把一个或多个数据输入张量进行数据处理过程得到一个或多个输出张量。...比如:2D张量,形状为(samples,features)存储简单的向量信息,通常是全连接层(FC 或 Dense)的输入格式要求;LSTM网络层通常处理3D张量,形状为(samples,timesteps...损失函数和优化算法:配置学习过程的关键 网络模型结构定义完成之后,仍然需要定义两件事: 损失函数:训练过程中最小化的函数值,一种评估网络模型的表现; 优化算法:决定基于损失函数如何更新权重系数;有常见的...多输出神经网络模型可能有多个损失函数(一个输出一个损失函数)。...Keras并不进行底层的操作比如张量操作和导数计算;相应地,Keras以来与特定的张量库进行这些操作,作为Keras的背后引擎。

    1.1K20

    Keras系列(二) 建模流程

    每一层只接受特定形状的输入张量,并返回特定形状的输,将一个或多个输入张量转换为一个或多个输出张量。有些层是无状态的,但大多数的层是有状态的,即层的权重。权重是利用随机梯度下降学到的一个或多个张量。...,铁柱使用lightgbm对未进行特征工程的气象数据进行风功率预测,预测结果非常糟糕,接近于一条直线,手动筛选特征后,预测效果才和LSTM的预测效果达到同一水平。...注意,能够自动提取特征并不代表特征工程不重要,原因有两点: 1良好的特征仍然可以让你用更少的资源更优雅地解决问题。 2 良好的特征可以让你用更少的数据解决问题。...序列数据保存在形状为(samples, timesteps, features) 的3D 张量中,通常用循环层(recurrent layer,比如Keras 的LSTM 层)来处理。...优化器 决定学习过程如何进行。你要使用哪种优化器?学习率是多少?当然 ,你也可以选择动态学习率。 ?

    1.4K20

    【星球知识卡片】模型量化的核心技术点有哪些,如何对其进行长期深入学习

    大家好,欢迎来到我们的星球知识小卡片专栏,本期给大家分享模型量化的核心技术点。 作者&编辑 | 言有三 ?...1 二值(1bit)量化 二值量化是最高效率的量化方式,也可以称之为1bit量化,即将32位浮点数量化为1bit整型,非常适合FPGA等平台进行并行运算。...2 8bit量化 8bit量化是当前工业界最常见的量化方法,也是当前精度保持最高的量化类型。...5 量化训练框架 目前前向传播中权重和激活的量化比较成熟,但是训练中大部分的计算在反向传播步骤,如果能够将量化技术应用在反向传播中,则可以加速卷积的反向梯度传播过程,不过这需要对梯度也进行量化操作,而梯度的分布比较复杂...6 其他 总的来说,模型量化有非常多的研究方向,包括: (1) 非均匀量化方案的设计。 (2) 基于重建与损失敏感的量化方法。 (3) 量化正则化方法。 (4) 网络结构的设计。

    97210

    神经网络的数学基础

    network.evaluate(test_images,test_labels) print('test accuracy:',test_acc) # test accuracy: 0.9727 由上面的程序,我们了解了如何构建网络以及如何进行网络训练来识别手写字体...此外,深度学习处理数据过程中并不一次性对整个数据集进行处理,通常会将数据集划分成若干个批量batches。...基于梯度的优化算法 神经网络层对输入进行的数学转换为: \(output = relu(dot(W, input) + b)\) 张量\(W\)和张量\(b\) 是网络层的参数,被称为网络层的权重系数或者可训练参数...训练过程通常需要反复进行: 获得训练数据X,y的一个batch 批量; 前向传播得到批量X上的预测值y_pred; 计算当前批量下的损失值:计算y_pred和y之间的差异度; 在损失函数减小的方向上更新权重系数...随机梯度下降 一个可微分函数,理论上能够找到它的最小值:最小值点导数为0,所以需要找到所有导数为0的点,然后相互比较找到最小值。 神经网络中,意味着找到一组权重值,使损失函数最小。

    1.3K50

    【星球知识卡片】模型蒸馏的核心技术点有哪些,如何对其进行长期深入学习

    2 优化目标驱动的知识蒸馏框架 Hinton等人提出的框架是在模型最后的预测端,让student模型学习到与teacher模型的知识,这可以称之为直接使用优化目标进行驱动的框架,也是最简单最直接的框架,...一种更直观的方式是将teacher模型和student模型的特征进行约束,从而保证student模型确实继承了teacher模型的知识,其中一个典型代表就是FitNets,FitNets将比较浅而宽的Teacher...4 没有教师模型的知识蒸馏 一般知识蒸馏框架都需要包括一个Teacher模型和一个Student模型,而Deep mutual learning则没有Teacher模型,它通过多个小模型进行协同训练,这也是非常有研究意义的方向...5 与其他框架的结合 在进行知识蒸馏时,我们通常假设teacher模型有更好的性能,而student模型是一个压缩版的模型,这不就是模型压缩吗?与模型剪枝,量化前后的模型对比是一样的。...所以知识蒸馏也被用于与相关技术进行结合,apprentice框架是一个代表。 ? 6 其他 总的来说,模型蒸馏有非常多的研究方向,包括: (1) 优化目标驱动的知识蒸馏框架拓展。

    62830

    DeepSeek开源周 Day04:从DualPipe聊聊大模型分布式训练的并行策略

    为避免显存溢出,必须通过分布式训练策略将模型状态和激活显存有效地分散到多个GPU设备上,这是实现大规模模型训练的关键。...如果我们以矩阵形式查看计算,很容易看出矩阵乘法如何在多个 GPU 之间分配: 如果我们将权重矩阵A按列拆分到N各个 GPU 并并行执行矩阵乘法XA_1,XA_n那么我们最终会得到可以独立输入的N...注意:TP 需要非常快的网络,因此不建议在多个节点上进行 TP。...数据并行-DP 数据集分为n块,每块随机分配到m个设备(worker)中,相当于m个batch并行训练n/m轮,模型也被复制为n块,每块模型均在每块数据上进行训练,各自完成前向和后向的计算得到梯度,对梯度进行更新...以确保每个worker具有相同的模型参数。 3D并行-DP+PP+TP 3D并行是由数据并行(DP)、张量并行(TP)和流水线并行(PP)组成。

    17710

    干货 | PRCV2018 美图短视频实时分类挑战赛第一名解决方案介绍

    视频解码 因为时间是一个很重要的因素,而视频解码又是一个很费时间的过程,所以如何设计解码模块是本次竞赛中的一个关键。我们采用了多线程软解提取关键帧的方法。...模型设计 解决了解码问题后,接下来的问题在于如何用所得的多帧来进行分类。 主流方法 目前主流的视频分类的方法有三大类:基于 LSTM 的方法,基于 3D 卷积的方法和基于双流的方法。...其中一支使用 2D 卷积网络来对稀疏采样的图片帧进行分类,另一支会提取采样点周围帧的光流场信息,然后使用一个光流网络来对其进行分类。两支网络的结果会进行融合从而得到最终的类标。...这样在张量间进行相乘运算时就可以先进行 int8 的计算,最后再统一乘上比例因子,从而加快运算。...那么接下来的问题在于如何确定比例因子,比例因子的作用是将原始张量的数值范围映射到-127 到 127(int8 的数值范围)。由于大多数情况数据并不是完全的均匀分布,所以直接映射会造成精度损失。 ?

    86520

    单阶段6D对象姿势估计

    在这项工作中,本文介绍了一种直接从对应关系中回归6D姿势的深度架构。它为每个3D关键点输入一组候选对应关系,并说明每个组内对应关系的顺序无关紧要的事实,而各组(即3D关键点)的顺序是固定的。...在本节中,本文首先对6D姿态估计问题进行形式化,假设对目标对象上的每个3D关键点都给予2D对应关系优先级,并提出一种从此类输入中产生6D姿态的网络体系结构。该网络如图3所示。...这意味着3D关键点坐标是由簇的顺序隐式给出的,不需要明确指定为网络输入。因此,本文对每个输入对应项使用4D表示,其中不包括3D坐标。...本文的体系结构同时为一组预定义的3D关键点输出分割蒙版和潜在的2D位置。更具体地说,对于具有S个对象类和大小为h×w×3的输入图像I的数据集,它输出大小为H×W×C的3D张量。...但是,本文不使用剪切粘贴技术来生成具有多个实例的图像,因为在原始的YCB视频图像中已经使用多个对象进行了注释,因此本文直接使用它。 训练步骤。

    75220

    HybridPose:混合表示下的6D对象姿势估计

    在这项工作中,本文介绍了一种直接从对应关系中回归6D姿势的深度架构。它为每个3D关键点输入一组候选对应关系,并说明每个组内对应关系的顺序无关紧要的事实,而各组(即3D关键点)的顺序是固定的。...在本节中,本文首先对6D姿态估计问题进行形式化,假设对目标对象上的每个3D关键点都给予2D对应关系优先级,并提出一种从此类输入中产生6D姿态的网络体系结构。该网络如图3所示。...这意味着3D关键点坐标是由簇的顺序隐式给出的,不需要明确指定为网络输入。因此,本文对每个输入对应项使用4D表示,其中不包括3D坐标。...本文的体系结构同时为一组预定义的3D关键点输出分割蒙版和潜在的2D位置。更具体地说,对于具有S个对象类和大小为h×w×3的输入图像I的数据集,它输出大小为H×W×C的3D张量。...但是,本文不使用剪切粘贴技术来生成具有多个实例的图像,因为在原始的YCB视频图像中已经使用多个对象进行了注释,因此本文直接使用它。 训练步骤。

    51110

    干货 | PRCV2018 美图短视频实时分类挑战赛第一名解决方案介绍

    视频解码 因为时间是一个很重要的因素,而视频解码又是一个很费时间的过程,所以如何设计解码模块是本次竞赛中的一个关键。我们采用了多线程软解提取关键帧的方法。...模型设计 解决了解码问题后,接下来的问题在于如何用所得的多帧来进行分类。 主流方法 目前主流的视频分类的方法有三大类:基于 LSTM 的方法,基于 3D 卷积的方法和基于双流的方法。...其中一支使用 2D 卷积网络来对稀疏采样的图片帧进行分类,另一支会提取采样点周围帧的光流场信息,然后使用一个光流网络来对其进行分类。两支网络的结果会进行融合从而得到最终的类标。...这样在张量间进行相乘运算时就可以先进行 int8 的计算,最后再统一乘上比例因子,从而加快运算。...那么接下来的问题在于如何确定比例因子,比例因子的作用是将原始张量的数值范围映射到-127 到 127(int8 的数值范围)。由于大多数情况数据并不是完全的均匀分布,所以直接映射会造成精度损失。 ?

    1.4K10
    领券