我目前正在教自己SIMD,并正在编写一个相当简单的字符串处理子例程。但是,仅限于SSE2,这使我无法利用ptest找到空终端。我目前试图寻找空终端的方式使我的SIMD循环有>16条指令,这就违背了使用SIMD的目的--或者至少使它变得不那么值得。LsimdLoop //No terminal was found, keep loo
考虑下面的玩具示例,其中A是一个按列-主要顺序存储的n x 2矩阵,我想计算它的列和。sum_0只计算第一列的和,而sum_1也计算第二列的和。这实际上是一个人为的例子,因为基本上不需要为这个任务定义两个函数(我可以用一个双循环嵌套编写一个函数,其中外部循环从0迭代到j)。它的构造是为了演示我在现实中遇到的模板问题。通过编写单个模板函数并传递不同的配置参数,<em