原创 雙精度,單精度和半精度

浮點數是計算機上最常用的數據類型之一,有些語言甚至數值只有浮點型(Perl,Lua同學別跑,說的就是你)。 常用的浮點數有雙精度和單精度。除此之外,還有一種叫半精度的東東。 雙精度64位,單精度32位,半精度自然是16位了。 半精度是英偉

原创 文獻檢索

文獻檢索 寫在最前 文獻檢索課,學習使用ei和sci數據庫檢索文獻 SCI:http://apps.webofknowledge.com EI:https://www.engineeringvillage.com 另外還有一個專門的計算機

原创 Ubuntu\Win導入CUDA項目

Ubuntu 使用的是 Ubuntu16.04,CUDA 9.0,導入項目位AXBench的srad,這是鏈接 下載好的項目源碼如圖所示: 如果直接將代碼全部複製到nsight的項目裏,會報錯無法編譯(當然也可以直接在文件夾裏make)

原创 在docker裏跑gpgpusim

1. Introduction gpgpusim在虛擬機裏跑起來非常慢,而自己配機器的環境又可能會出現這樣那樣的問題。本文給出了一種使用gpgpusim提供的vbox虛擬機進行編譯,在host的docker環境下運行的方法。 2. 使用g

原创 Netty中ctx.writeAndFlush與ctx.channel().writeAndFlush的區別

最近在寫netty相關代碼,發現writeAndFlush這個方法既可以在ctx上調用,也可以在channel上調用,這兩者有什麼區別呢,於是就做了一個小實驗。具體的代碼在最後 Client端 client的handler 這次我們主要在

原创 Git使用

寫在最前 簡要介紹在win環境下Git的日常使用。 開始使用 主要的願望是這樣的,項目A需要多人開發,因此使用了git進行管理,現在需要將以前的項目先放到碼雲上,然後再進行開發。主要步驟是這樣的: 安裝git 這裏是網址 。我用的是這

原创 Parboil使用說明

寫在最前 Parboil是一個多平臺的Benchmark,官網在這裏,這篇博文對如何編譯該benchmark做簡要描述 下載 從上面官網,需要把benchmark源碼,driver,還有datasets都下載下來,然後解壓driver文件

原创 使用virtualenv轉移python項目

吃一發安利 在python開發中,我們可能會遇到一種情況,就是當前的項目依賴的是某一個版本,但是另一個項目依賴的是另一個版本,這樣就會造成依賴衝突,而virtualenv就是解決這種情況的,virtualenv通過創建一個虛擬化的pyth

原创 百度網盤下載加速

寫在最前 就是用chrome的插件和IDM讓您的百度網盤下載變得很快(嗯,好像是快了點) 下載插件 這個是某個大神寫的:baiduexporter-master 你把這個下載下來,然後打開Chrome的擴展程序界面,把crx文件拖進去,就

原创 剖析NVIDIA Volta架構之指令篇

寫在最前 由於實驗結果不太好,現在已經開始往最底層的sass修改上努力了,鑑於nvidia官方出於大概是商業目的,關於sass的內容少之又少,因此只能零星地從各種paper或者之類的東西里尋找。前兩天發現了一個文檔,是關於Volta架構的

原创 CUDA C最佳實踐-CUDA Best Practices(二)

9. 內存優化 看頁數也知道,內存優化是性能提升最重要的途徑。目標在於通過最大化帶寬獲得對硬件的最大使用率。最好使用快速內存而減少慢速內存的訪問。這章就是各種討論內存優化。 9.1. 主機和設備之間的數據傳輸 設備內存的帶寬是上百G而PC

原创 TX2運行ImageNet

寫在最前 先上jetson官方教程,英文的:Building from Source on Jetson 基本上按照這個教程來可以完成所有工作,前提是,你生活在沒有牆的世界裏。因爲如果被q的話,會在cmake ../這一步的時候卡住,

原创 CUDA C最佳實踐-CUDA Best Practices(三)

10. 運行配置優化 10.1. 佔用 10.1.1. 計算佔用 10.2. 同步Kernel執行 10.3. 多上下文 10.4. 隱藏寄存器依賴 10.5. 線程和線程塊啓發 10.6. 共享內存的效果 11. 指令優化 知道底層命令