#include"ap_int.h"
#define DATAW 8
#define CTRLW 1
#define N 4
#define M 2
typedef ap_int<DATAW> data_t;
void for_merge(data_t a[N],data_t b[N],data_t c[N],data_t d[M]);
#include"for_merge.h"
void for_merge(data_t a[N],data_t b[N],data_t c[N],data_t d[M])
{
int i=0;
loop_region:
{
add:
for(i=0;i<N;i++)
{
c[i]=a[i]+b[i];
}
sub:
for(i=0;i<N;i++)
{
d[i]=a[i]+b[i];
}
}
}
for循环是串行执行的,所以add和sub的latency都是8。可以将两个for循环进行loop merge。
循环的合并可以降低latency,这是因为for循环会在设计中创建额外的状态机,这些状态机会占用额外的时钟周期和额外的资源,所以会导致整个的latency会非常大
两个循环变量不一样的情况下,以循环最大为trip count
如果有一个循环变量是变量而不是常量,则会以循环变量最大值作为trip count。
#include"for_merge.h"
void for_merge(data_t a[N],data_t b[N],data_t c[N],data_t d[M],ctrl_t K)
{
int i=0;
loop_region:
{
add:
for(i=0;i<N;i++)
{
c[i]=a[i]+b[i]; //N=4 constant
}
sub:
for(i=0;i<K;i++) //M=variable
{
d[i]=a[i]+b[i];
}
}
}
解决方式: