首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

阿姆达尔定律和古斯塔夫森定律摘要背景建议使用指南更多资源

摘要 构建软件的并行版本可使应用在更短的时间内运行指定的数据集,在固定时间内运行多个数据集,或运行非线程软件禁止运行的大型数据集。 并行化的成功通常通过测量并行版本的加速(相对于串行版本)来进行量化。 除了上述比较之外,将并行版本加速与可能加速的上限进行比较也十分有用。 通过阿姆达尔定律和古斯塔夫森定律可以解决这一问题。 本文是“英特尔多线程应用开发指南”系列的一部分,该系列介绍了针对英特尔® 平台开发高效多线程应用的指导原则。 背景 应用运行的速度越快,用户等待结果所需的时间越短。 此外,执行时间的缩短使

06

如何从Wall/CPU time理解多线程程序的并行效率?有利于理解跑WRF时候如何选择合适的核数

作为高性能计算软件的用户,我们经常可以在软件的输出文件中看到各种时间统计。最常见的就是计算使用的时间,也就是wall-clock time或者wall time。这个很好理解,它就是我们从计算开始到计算结束等待的时间。除此之外,CPU time也是一个常见的时间数据。CPU time衡量的是CPU用来执行程序的时间。当软件使用一个线程时,由于需要等待IO完成或者用户输入等原因,CPU并不总是100%被使用,这导致CPU time一般比wall time小。当我们使用多线程的时候,程序的CPU time是各个线程的CPU time之和。那么如何从wall time 和CPU time这两个数据理解多线程程序的并行效率呢?

01

COLING24|自适应剪枝让多模态大模型加速2-3倍,哈工大等推出SmartTrim

基于 Transformer 结构的视觉语言大模型(VLM)在各种下游的视觉语言任务上取得了巨大成功,但由于其较长的输入序列和较多的参数,导致其相应的计算开销地提升,阻碍了在实际环境中进一步部署。为了追求更为高效的推理速度,前人提出了一些针对 VLM 的加速方法,包括剪枝和蒸馏等,但是现有的这些方法大都采用静态架构,其针对不同输入实例采用同样的计算图进行推理,忽略了不同实例之间具有不同计算复杂性的事实:针对复杂的跨模态交互实例,自然需要更多计算才能完全理解图像和相关问题的复杂细节;相反,简单的实例则可以用更少的计算量解决。这也导致较高加速比下的 VLM 的性能严重下降。

01

加速2-3倍,哈工大|提出多模态大模型自适应剪枝算法:SmartTrim

基于 Transformer 结构的视觉语言大模型(VLM)在各种下游的视觉语言任务上取得了巨大成功,但由于其较长的输入序列和较多的参数,导致其相应的计算开销地提升,阻碍了在实际环境中进一步部署。为了追求更为高效的推理速度,前人提出了一些针对 VLM 的加速方法,包括剪枝和蒸馏等,但是现有的这些方法大都采用静态架构,其针对不同输入实例采用同样的计算图进行推理,忽略了不同实例之间具有不同计算复杂性的事实:针对复杂的跨模态交互实例,自然需要更多计算才能完全理解图像和相关问题的复杂细节;相反,简单的实例则可以用更少的计算量解决。这也导致较高加速比下的 VLM 的性能严重下降。

01

【压缩率3000%】上交大ICCV:精度保证下的新型深度网络压缩框架

【新智元导读】上海交通大学人工智能实验室的研究人员提出了一种新的方法,能够在保证网络模型精度的前提下对深度网络进行压缩。相关论文已被ICCV 2017接收,由上海交通大学人工智能实验室李泽凡博士实现,倪冰冰教授,张文军教授,杨小康教授,高文院士指导。 随着人工智能在各个领域的应用中大放异彩,深度学习已经成为街头巷尾都能听到的词汇。然而,网络越来越深,数据越来越大,训练越来越久,如何在保证准确率的情况下加速网络,甚至让网络在CPU或者移动设备上进行训练与测试,就变成了迫在眉睫的问题。 上海交通大学人工智能实验

06
领券