如何記錄kernel啓動時間

原創

2020-06-16 10:29

    <pre class="cpp" name="code">    sdkStartTimer(&timer);
    cudaEventRecord(start, 0);
    cudaMemcpyAsync(d_a, a, nbytes, cudaMemcpyHostToDevice, 0);
    increment_kernel<<<blocks, threads, 0, 0>>>(d_a, value);
    cudaMemcpyAsync(a, d_a, nbytes, cudaMemcpyDeviceToHost, 0);
    cudaEventRecord(stop, 0);
    sdkStopTimer(&timer);

上面這個例子，可以利用sdkGetTimerValue(&timer)來計算kernel call的時間。因爲cudaMemcpyAsync是異步的拷貝。checkCudaErrors(cudaEventElapsedTime(&gpu_time, start, stop));可以用來計算GPU計算的時間。

這裏a是pinnedmemory。

如果把上面代碼改爲：

    sdkStartTimer(&timer);
    cudaEventRecord(start, 0);
    cudaMemcpy(d_a, a, nbytes, cudaMemcpyHostToDevice, 0);
    increment_kernel<<<blocks, threads, 0, 0>>>(d_a, value);
    cudaMemcpy(a, d_a, nbytes, cudaMemcpyDeviceToHost, 0);
    cudaEventRecord(stop, 0);
    sdkStopTimer(&timer);

這時，timer計算的時間不再是kernel啓動的時間了。一會去測試下。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

解決cuda10.0 gcc versions later than 7 are not supported的方法

操作方法： sudo apt-get install gcc-7 g++-7 sudo mkdir /usr/local/gcc7 cd /usr/local/gcc7 ln -sf /usr/bin/gcc-7 cc ln -sf /us

2021-05-22 09:21:17

CUDA3.1 X32 + Windows 7 32bit + Visual Studio 2005 + Visual assist安裝指南

1. 安裝CUDA Driver，toolkit，SDK a) 建議driver，toolkit，SDK的順序，默認路徑安裝 b) 如果筆記本用戶，可以選擇強行安裝3.1的驅動包（選擇對應臺式機的型號），但是會有部分遊戲隨機花屏等問題。可

2020-07-08 02:16:14

Installing CUDA Toolkit 5.0 on CentOS 6.4

1、Verify You Have a CUDA-Capable GPU lspci | grep -i nvidia 2、Verify Yo

2020-07-08 01:36:18

“no cuda-capable device is detected”問題解決方法

僅供本人蔘考！原因：安裝好cuda5.0的centOS6.4系統重啓以後，執行原來的cuda代碼，提示找不到cuda-device。經過度娘、谷哥，stack overflow一陣查找，大致知道問題出在哪裏？但是好像百分百安裝別人的提供

2020-07-08 01:36:18

基於細胞自動機Cellular Automata(CA)的區域生長

本來沒想研究這個，但Nvidia NPP的《NVIDIA 2D Image And Signal Performance Primitives》這個模塊的NPP Image Processing部分的Filtering Functions

元气少女缘结神

2020-07-08 01:22:24

Docker部署yolact中編譯DCNv2的問題

yolact部署到Docker中，需要單獨編譯DCNv2 cd external/DCNv2 python setup.py build develop 但是這個DCNv2的編譯需要依賴GPU，總是編不過。失敗1：使用python

2020-07-07 17:43:03

來自GPU的Hello World-基於Win10+VS2019+CUDA 11.0搭建CUDA編程環境

序 CPU和GPU 當代計算機的兩個核心，GPU計算與CPU計算的結合，使得原本的計算性能得到大幅度的提高，兩者功能的互補性使得CPU+GPU的異構並行計算得到快速發展。爲了支持使用CPU+GPU異構架構來執行應用程序，核廠設

2020-07-06 15:23:51

【CUDA】CUDA編譯

一、引言 1、GPU架構特點 CUDA（Compute Unified Device Architecture）：是NVIDIA推出的用於自家GPU的並行計算框架。只有安裝這個框架才能夠進行復雜的並行計算。主流的深度學習框架也都是基於CU

通信程序猿

2020-07-05 23:41:21

【CUDA】BGR2GRAY

最近剛接觸CUDA，先寫一些簡單的示例練習下。在圖像處理中，三通道彩色圖像BGR到灰度圖Gray，常見的一般有兩種計算方式，一種是基於浮點數計算，一種是基於性能優化的通過移位的整數計算。浮點數計算公式爲： gray = 0.1140

通信程序猿

2020-07-05 23:41:21

win10下搭建Anaconda+CUDA9.0+cnDNN7.0.5+tensorflow-gpu+kerasGPU（詳細圖文教程）

最近需要在win10下搭環境跑GPU運算程序，之前在linux搭建過類似環境，現在將這個環境再搭建到win10系統下。爲了以後方便查閱，也給自己搭建這個環境做一個總結吧。我的電腦配置如下圖：首先安裝Anaconda 安裝之前先去

野原新之助007

2020-07-05 21:50:15

規約算法

規約算法0.引言1.reduction_12.reduction_23.reduction_34.result 0.引言有的地方也稱之爲歸約算法. /* asum: sum of all entries of a vector.

2020-07-05 13:44:48

掃描算法

掃描算法0.引言1.code2.result 0.引言 1.code #include <stdio.h> __global__ void global_scan(float* d_out,float* d_in){ int

2020-07-05 13:44:48

GPU直方圖統計

GPU直方圖統計0.引言1.code2.result 0.引言 1.code #include <stdio.h> #include <cuda_runtime.h> __global__ void histo(int *d

2020-07-05 13:44:48

規約算法.求內積

規約算法.求內積0.引言1.code2.result 0.引言有的地方也稱之爲歸約算法. 內積：d=⟨x,y⟩d=\langle x, y\rangled=⟨x,y⟩ v1=(a1,a2,a3,…,an) \mathrm{v}_

2020-07-05 13:44:37

CUDA CMakeLists

CUDA CMakeLists0.引言1.CMakeLists.txt 0.引言 gcc:編譯c文件 g++:編譯cpp文件 nvcc:編譯cu文件如何編譯帶有CUDA程序的*.cpp文件？ 1.CMakeLists.txt

2020-07-05 13:44:37

24小時熱門文章

最新文章

最新評論文章