[CUDA學習筆記]從Hello Cuda開始

原創

2020-02-21 06:14

1. Cuda 編程環境的搭建：

網上針對不同的操作系統和cuda版本有很多詳細的安裝說明，推薦使用安裝Cuda VS Wizard，下載地址http://sourceforge.net/projects/cudavswizard/。

2. 第一個Cuda程序：

新建項目，選擇CUDA—CUDAWinAPP—輸入項目名稱—確定。

其中一個自動生成的文件叫sample.cu，這是環境自帶的demo.

運行程序，Hello Cuda就出來啦！

程序說明：

__global__staticvoidHelloCUDA(char*result,intnum)

{

inti =0;

charp_HelloCUDA[] ="HelloCUDA!";

for(i = 0;i <num;i++) {

result[i] =p_HelloCUDA[i];

}

}

其中，__global__爲內核函數類型限定符，其他語法跟C相同，HelloCUDA爲函數名，result爲返回結果。

主程序中函數調用語句爲：

HelloCUDA<<<1,1,0>>>(device_result,11);

其中，<<<>>>爲內核函數的執行參數，用於說明內核函數中的線程數量，以及線程是如何組織的。<<<1,1,0>>>代表一個kernel的grid中只有1個block，每個block中有1個thread。小括號內的參數爲函數的參數。

以下語句將設備(GPU)數據拷貝回主機(CPU)並輸出：

cutilSafeCall(cudaMemcpy(host_result,device_result,sizeof(char) *11,cudaMemcpyDeviceToHost));

printf("%s\n",host_result);

Hello Cuda的程序到此結束，以後新建自己的函數並在主程序中調用就可以開發自己的cuda程序啦~

發佈了24 篇原創文章 · 獲贊 7 · 訪問量 5萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

CUDA編程之入門

CUDA代碼中的函數 CUDA程序文件後綴爲.cu。一個.cu文件內既包含CPU程序（稱爲主機程序），也包含GPU程序（稱爲設備程序）。凡是掛有“__global__”或者“__device__”前綴的函數，都是在GPU上運行的設備程序

2020-07-04 09:33:33

cublasSgemmBatched使用說明

背景在GPU進行計算的時候，很多時候都需要利用cublas的API, 常用的API有兩個：cublasSgemm 和cublasSgemmBatched, 使用過MKL的可能覺得很熟悉，連參數都是一樣的，但是這裏有一比較坑的地方

2020-07-03 05:06:04

斯坦福、伯克利及MIT聯合打造-2020年DL/RL必學6門經典課程

本資源整理了6門由斯坦福大學、加州大學伯克利分校、麻省理工學院講授的深度學習經典課程，分別是深度學習入門、深度強化學習、深度學習與計算機視覺、無監督學習、多任務與元學習、深度學習與NLP。本資源將六門課程最新的視頻完整課程視頻整

2020-07-02 00:55:08

【代碼閱讀】詳解在Pytorch中定義自己寫的CUDA編程函數

文章目錄pytorch接口設置編譯的方式在運行是調用的形式要點如何自己編寫使用CUDA的函數PointNet++Faster-RCNNPVCNN 目前，3D的網絡，尤其時point-based的網絡，很多模塊在pytorch中都沒

2020-06-29 15:49:07

【轉載】cuda編程入門

目錄 1.什麼是CUDA 2.爲什麼要用到CUDA 3.CUDA環境搭建 4.第一個CUDA程序 5. CUDA編程 5.1. 基本概念 5.2. 線程層次結構 5.3. 存儲器層次結構 5.4. 運行時API 5.4.1. 初始化 5.

疯狂的兔子Philip

2020-06-27 18:23:16

Nvidia顯卡硬件與軟件

硬件下面這張圖是GPU的硬件結構，這個圖有點大，放大看可以看到很多細節，我們可以看到有各種硬件組成單元，比如GPC,TPC,SM, L2Cache，綠色小塊就是cuda core也叫sp,後面這些都有專門對應的軟件信息。再往

2020-06-26 07:38:35

CUDA之三種訪存模式與代碼測試

相關概念 GPU 硬件架構具有三層的存儲結構，分別是：線程私有存儲、線程塊共享存儲、全局存儲。訪問速度自然是由快到慢。CUDA 程序編寫的一個重要理念也是儘可能少的訪問全局緩存。如下圖所示：下面我們對這三種訪存模式進行一一的代

2020-06-24 08:24:14

CUDA 並行加速基礎之 Reduce 和 Scan 的實現

前言我們知道硬件擁有其獨特的並行性，爲了發揮這一特色。我們要將平時串行執行的程序用並行性算法重新改寫才能充分發揮 GPU 的優勢。實例：做求和：1+2+3+4+··· 爲了做這樣一個累加和的加速，有兩種簡單的實現方法，分別

2020-06-24 08:24:12

Next-Gen cuda debuger 不停在覈函數斷點的問題

最近換了一塊2080ti,圖靈架構，查表之後發現圖靈架構的cuda debuger只支持Next-Gen，我顯卡驅動型號是430.86（他要求），cuda版本9.2，現在是插着兩塊卡，都是WDDM模式。問題是：在調試的時候就是不能

2020-06-22 06:04:46

cuda編程之atomicAdd

以下內容來源於cuda c programming guide 注意：函數運算完之後，會將運算結果保存在第一個參數指針指定的空間位置，返回的是old值。 B.12.1.1. atomicAdd() int atom

2020-06-21 04:24:15

CUDA的Global memory和Shared memory的區別

Global memory: large, on-board memory and characterized by relatively high latencies. Shared memory; smaller, low-late

2020-06-21 02:16:41

cuSPARSE庫：（三）Thread Safety(線程安全)

cuSPARSE庫是線程安全的，其函數可以從多個主機線程調用。但是，同時讀/寫相同對象（或同一句柄）是不安全的。因此，每個線程的句柄必須是私有的，即每個線程只有一個句柄是安全的。這在寫MPI+CUDA程序的時候一定要注意。

2020-06-21 02:16:41

英偉達顯卡

架構排序（時間順序）： Tesla: 市面已經沒有相關顯卡 Fermi：GeForce 400, 500, 600, GT-630 Kepler：Tesla K40/K80, GeForce 700, GT-730 Maxwel

2020-06-16 16:10:25

cblas_sgemm和cublasSgemm參數詳解

機器學習最核心的底層運算肯定是矩陣乘法無疑了，爲了讓矩陣乘法執行更快，大家也是絞盡腦汁。從算法層面，stranssen算法將矩陣乘法複雜度由O(n3)O(n^3)O(n3)降到O(n2.81)O(n^{2.81})O(n2.81)

2020-06-16 14:32:13

GPU編程筆記1-----認識GPU

GPU參數解釋 GPU 能幹什麼？上圖可見GPU在很多領域的應用。總結一句話GPU就是用來“計算”的,高性能的”計算“。 2004-2006 Geforce 6 and 7 series Example:7900 GTX

the_kite_runner___

2020-06-14 04:10:19

24小時熱門文章

python gdal 安裝使用（Windows， python 3.6.8）

最新文章

最新評論文章