RISC-V 软件移植及优化锦标赛 S2311 个人总结

原创

TomoriNao

发布于 2024-03-08 23:03:18

3560

文章被收录于专栏：每月技术成长每月技术成长

赛题解读

在 Milk-v duo上运行 Baby LLaMA 2 并实现文本转语音功能

在未进行任何优化的情况下，Baby LLaMA 2 在运行15M参数的模型时，仅占用了部分CPU和内存资源（资源占用率均低于30%），但生成 token 的速度极慢，无法达到流畅生成故事的需求，本题需要采取各种手段优化其运行速度

思路

提高CPU利用率得知 Milk-v duo 实际上具有双核，但官方镜像仅在大核上运行linux, 若能启用小核将能够通过多线程提高程序运行速度。原本以为仅需要修改 linux kernel 配置，启用 SMP 即可顺利启用小核，但实际上，还需要修改对应的设备树才可能启用小核，但设备树涉及知识盲区，故采取其他措施
优化矩阵乘法程序在运行时，涉及大量矩阵运算，消耗资源最多的是矩阵乘法，可以通过将大矩阵分解为小矩阵再进行运算的方式，提高 cache 命中率从而提高程序效率（后来了解到可以通过激光法或 Strassen算法来减少矩阵乘次数），但实际效果有限
使用 vector 指令集通过 vector 指令集，实现同时进行多个浮点数的计算，极大地减少运算时间。查阅资料可知，C906 有 32 个 128 位向量寄存器，每个向量寄存器可储存四位浮点数，且提供了 intrinsic 来避免手工编写大量汇编指令，可以通过 vector 指令集使用向量乘和向量加来提高程序运行效率
提高内存使用率最开始不理解为什么程序内存使用率这么低（模型文件大小甚至超过总内存大小），在阅读其他人提交的 PR 后，发现是由于程序使用mmap进行内存映射，而不是将文件一次性加载到内存中，导致运行时需要进行频繁的文件IO,极大地拖慢了整体运行速度，可以通过设置 swap 分区，一次性加载文件等方式缓解 io 导致的性能问题。猜想：可以启用 kernel 的 zram 特性，将文件一次性全部加载到内存中（甚至不需要设置 swap）
优化模型浮点数的运算显著慢于整数，只要将模型量化为 int8 即可大幅提高程序运行速度，同时因为程序无法一次性加载导致的文件 IO 也可以同时解决猜想：是否能够以半精度浮点数的形式表示权重？这将在提高程序运行效率的同时，保持较好的精度，得到更合理的输出。（C/C++ 23 已经支持半精度浮点数，但编译器的适配显然不可能如此迅速，因此，即使 CPU 支持半精度浮点，也无法通过程序使用该特性来优化）