首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

memcpy速度太慢?掌握这个技术让内存拷贝效率成倍提升

memcpy是C/C++的一个标准函数,原型void *memcpy(void *dest, const void *src, size_t n),用于从源src所指的内存地址的起始位置开始拷贝n个字节到目标dest所指的内存地址的起始位置中。 neon是适用于ARM Cortex-A系列处理器的一种128位SIMD(Single Instruction, Multiple Data,单指令、多数据)扩展结构。neon支持一次指令处理多个数据,比如处理8个8-bit、4个16-bit、2个32-bit或1个64-bit。正是这个特性可以用于加速内存拷贝。   在正常情况下memcpy的性能已经足够使用了,但是当我们因为某些原因在拷贝大内存遇到瓶颈的时候,可以考虑使用neon来加速内存拷贝。比如我在使用glMapBufferRange把PBO从GPU内存映射到CPU内存的时候遇到了耗时问题,拷贝921600字节的数据需要30ms,在使用neon后,内存拷贝耗时直接降低到了4ms,相差将近8倍。事实上,在arm平台上使用neon指令可以高效提升数据并行处理性能,而不仅仅局限于内存拷贝。google开源的libyuv内部也使用了neon指令来并行处理数据。

04
您找到你想要的搜索结果了吗?
是的
没有找到

ARM的体系结构。

1.1 Application Cortex Processors (ARM Cortex 应用处理器 )  • Cortex™-A 系列 - 开放式操作系统的高性能处理器  Cortex 应用处理器在先进工艺节点中可实现高达 2GHz+ 标准频率的卓越性能,从而可支持下一代的移动 Internet 设备。这些处理器具有单核和多核种类,最多提供四个具有可选 NEON™ 多媒体处理模块和先进浮点执行单元的处理单元。  所有 Cortex-A 处理器都共享共同的体系结构和功能集。 这使其成为开放式平台设计的最佳解决方案,因为此时不同设计之间软件的兼容性和可移植性最重要:  ARMv7-A 体系结构  对所有操作系统的支持  Linux 完整分配 - Android、Chrome、Ubuntu 和 Debian  Linux 第三方 - MontaVista、QNX、Wind River  Symbian  Windows CE  需要使用内存管理单元的其他操作系统支持  指令集支持 - ARM、Thumb-2、Thumb、Jazelle®、DSP  TrustZone® 安全扩展  高级单精度和双精度浮点支持  NEON™ 媒体处理引擎

03
领券