首页
学习
活动
专区
工具
TVP
发布

贾志刚-OpenCV学堂

三本书《Java数字图像处理-编程技巧与应用实践》、《OpenCV Android开发实战》、《OpenCV4应用开发-入门、进阶与工程化实践》作者。OpenCV实验大师平台 软件作者
专栏作者
861
文章
1424506
阅读量
422
订阅数
推理加速GPT-3超越英伟达方案50%!最新大模型推理系统Energon-AI开源,来自Colossal-AI团队
在前沿AI大模型规模呈指数级增长的趋势下,仅凭单卡已经很难满足当下的推理需求。 就拿拥有1750亿参数的GPT-3来说。 仅仅是加载模型参数就需要数百GB的存储空间,远超单个GPU的容纳能力。 因此,多卡并行被视为AI大模型推理的必然选择。 但现有的推理系统仍旧存在不少弊端。 比如需要用户对通信、内存等各部分协作进行手动管理,需要额外编译等……导致用户使用门槛居高不下。 为此,大规模并行AI训练系统Colossal-AI团队提出了大模型推理系统Energon-AI。 以“高性能、高可用、可伸缩”的理念,深
OpenCV学堂
2022-06-02
1.4K0
PyTorch官方教程大更新:增加标签索引,更加新手友好
如果你是PyTorch 24K纯萌新,PyTorch官方一如既往地向你推荐他们最受欢迎的教程之一:60分钟入门PyTorch(Start 60-min blitz)。
OpenCV学堂
2020-05-26
1K0
15分钟完成Kinetics视频识别训练,除了超级计算机你还需要TSM
深度视频识别的计算成本比图像识别更高,尤其是在 Kinetics 等大规模数据集上。因此,为了处理大量视频,可扩展性训练是至关重要的。这篇论文研究了影响视频网络的可扩展性的因素。研究者认定了三个瓶颈,包括数据加载(从磁盘向 GPU 移动数据)、通信(在网络中移动数据)和计算速度(FLOPs)。
OpenCV学堂
2019-10-11
5990
90秒训练AlexNet!商汤刷新纪录
扩展深度神经网络(DNN)训练对于减少模型训练时间非常重要。高通信消耗是在多个 GPU 上进行分布式 DNN 训练的主要性能瓶颈。商汤的这项研究表明流行的开源 DNN 系统在以 56 Gbps 网络连接的 64 个 GPU 上仅能实现 2.5 倍的加速比。为解决该问题,这项研究提出了通信后端 GradientFlow 用于分布式 DNN 训练,并使用了一系列网络优化技术。
OpenCV学堂
2019-04-29
6600
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档