原创 如何確定棧的增長方向地址是遞增還是遞減

#include<stdio.h> static int stack_dir; static void find_stack_direction (void) { static char *addr =

原创 GPU初始化和啓動流程(r600)

本文是分析了顯卡初始化和啓動的函數調用以及每個函數的功能。 初始化顯卡 int r600_init(struct radeon_device *rdev) //debuffs r600_debugf

原创 深入理解Linux內核之內存管理

我們的物理內存中的某些部分永久的分配給內核,並用來存放內核代碼以及靜態的內核數據結構。其餘的部分我們稱爲動態內存,這不僅是進程所需要的寶貴資源,也是內核本身所需要的寶貴資源。下面通過三部分來描述內核如何給自己分配動態內存,儘可能做

原创 單鏈表是否有環,環的大小,第一個連接點,有環的單鏈表長度

給定一個單鏈表,只給出頭指針h: 1、如何判斷是否存在環? 2、如何知道環的長度? 3、如何找出環的連接點在哪裏? 4、帶環鏈表的長度是多少? 下面是實現,可以相互檢查一下是否不正確。 /* 2 Here w

原创 TensorFlow計算圖優化代碼剖析

代碼路徑:tensorflow/core/grappler/optimizers 其中meta_optimizer.cc中的RunMetaOptimizer方法的調用觸發對圖的不同類型的優化操作. 優化操作分爲一下幾類: 1. pru

原创 Swig實現將C、C++編譯成Python動態鏈接庫

轉載:http://cering.github.io/2015/12/08/%E4%BD%BF%E7%94%A8SWIG%E5%AE%9E%E7%8E%B0Python%E8%B0%83%E7%94%A8C-C-%E4%BB%A3%E7%

原创 TensorFlow 1.0源碼編譯安裝

CUDA/cudnn安裝 python TF源碼下載 bazel安裝 bazel是通過自行在github上下載release的zip源碼包然後編譯,將生成的二進制文件拷貝到PATH路徑上即可。 注意:tensorflow配置時會提示找不

原创 OpenCV 2.4.13.16 + cuda 9 + centos7 編譯

OpenCV 2.4.13.16 + cuda 9 + centos7 編譯 獲取源碼 wget https://github.com/opencv/opencv/archive/2.4.13.6.tar.gz 解壓 tar xvf

原创 深度學習caffe編譯安裝記錄

大致過程如下: 從官方GitHub中下載Caffe源碼。 提前安裝Caffe的相關依賴。大部分都能夠通過yum安裝。 blas,cblas需要下載源碼進行編譯安裝。 修改Makefile.in文件中的選項 進入build,執行cmake

原创 Cudnn v5.1與V 6.0的特性

V5.1 新增特性 針對3*3以及5*5de 卷積核,添加了新的Winograd卷積算法,提供前向和後向計算。可以通過使用CUDNN_CONVOLUTION_FWD_ALGO_WINOGRAD_NONFUSED,CUDNN_CONVOL

原创 基於CuDNN如何實現自動選取最優卷積算法?

何爲最優 最優並不是絕對的,而是需要針對具體的應用場景而言.在深度學習應用中,訓練時我們往往對訓練速度有要求,希望越快越好,也就意味着能夠在更短的時間訓練完我們的模型,更小的調整參數的成本;而對於隨着網絡模型的深度加大,模型本身訓練時所

原创 slurm提交Tensorflow任務實現

主要目的 目前tensorflow單機多卡模式可以參考tutorial很容易使用,但是如果想在集羣多節點搭建分佈式tensorflow訓練任務部署,官方沒有一個很好的示例代碼,只能通過很naive的方法,指定ps node/worker

原创 GPU以及CUDA的幾個基本概念理解

參考:blog.sina.com.cn/s/blog_80ce3a550101lntp.html GPU的硬件結構中與CUDA相關的幾個概念:thread block grid warp sp sm streaming processo

原创 Mixed-precision(混合精度訓練)

混合精度訓練 最近剛好在做相關工作,所以花點時間對混合精度進行模型訓練進行一下理解與總結.詳細數據請參考百度與nvidia聯合放在arxiv上的論文:https://arxiv.org/pdf/1710.03740.pdf 概述 深度學

原创 tensorflow分佈式運行時組件剖析

本節主要研讀core/distributed_runtime目錄.集中爲分佈式多節點之間通信,全局資源分配/管理,資源調度等問題. mgr: base_rendezvous_mgr: rendezvous_mgr_interface.