关于cuda拷贝的速度测试

由于没有使用profiler,仅仅通过简单的传输函数测试,如下测试了10000个点,1000000个点,100000000个点的速度:

均按时钟周期来计时,通过MAX调整数据

int main(){
    clock_t start,finish;

    int *d_data,*h_data;
    h_data = (int *)calloc(MAX, sizeof(int));
    memset(h_data,0,MAX*sizeof(int));
    cudaMalloc((void **) &d_data,MAX*sizeof(int));


    start = clock();
    cudaMemcpy(d_data,h_data,MAX*sizeof(int),cudaMemcpyHostToDevice);
    cudaMemcpy(h_data,d_data,MAX*sizeof(int),cudaMemcpyDeviceToHost);
    finish = clock();


    cudaFree(d_data);
    free(h_data);
    cout<<"time is "<<finish-start<<endl;
    getchar();
return 0;
}

测试结果

测试结果

10,000个节点

1,000,000个节点

100,000,000个节点

第一次测试

0

7

822

第二次测试

0

8

715

第三次测试

1

7

696

测试图表如下:

所以在小批量数组的情况下,完全可以在cpu中完成数据操作,然后device上面做简单的加和或者乘积运算。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • (递归版)合并排序

    递归版的合并排序,时间复杂度为O(nlogn),空间复杂度为O(n+logn); 算法思想: 利用分而自治的思想,把排序分成两块,每块内部排序,再进行一次遍历...

    用户1154259
  • cuda测试二维block的使用

    #include "cuda_runtime.h" #include <stdio.h> #include <stdlib.h> #include <math....

    用户1154259
  • 图m着色问题

    1 问题描述:   给定无向图,m种不同的颜色。使每一种着色法使G中每条边的2个顶点不同颜色,若一个图最少需要m种颜色才能使图中每条边连接的2个顶点着不同颜色,...

    用户1154259
  • 数据挖掘之聚类算法K-Means总结

    序   由于项目需要,需要对数据进行处理,故而又要滚回来看看paper,做点小功课,这篇文章只是简单的总结一下基础的Kmeans算法思想以及实现; 正文:   ...

    Gxjun
  • 【go】剑指offer:3种方法寻找二进制1的个数

    对于该题很容易有思路,我们将整数进行二进制的转换的过程中记录余数为1的个数即可。需要注意的是传入的负数和循环的终止条件,代码如下,因为循环的终止条件为商为0时停...

    陌无崖
  • CCF考试——201503-2数字排序

      输入的第一行包含一个整数n,表示给定数字的个数。   第二行包含n个整数,相邻的整数之间用一个空格分隔,表示所给定的整数。

    AI那点小事
  • (27) 剖析包装类 (中) / 计算机程序的思维逻辑

    本节继续探讨包装类,主要介绍Integer类,下节介绍Character类,Long与Integer类似,就不再单独介绍了,其他类基本已经介绍完了,不再赘述。 ...

    swiftma
  • 微信小程序 计算器

    text-shadow:0 1px 1px rgba(255,255,255,.3);

    用户5760343
  • C#学习之路(1)--数据库技术

    用户2032165
  • 2017 五一 清北学堂 Day1模拟考试结题报告

    预计分数:100+50+50 实际分数:5+50+100 =.= 多重背包 (backpack.cpp/c/pas) (1s/256M) 题目描述 提供一个背包...

    attack

扫码关注云+社区

领取腾讯云代金券