原创 GEMS_Ultrasound_MovieGroup_001(python下進行private tag data(private creator)數據提取)

主要是通過查看pydicom讀取dicom文件的輸出查找存儲視頻的array和圖片的長和寬 try: dataset = pydicom.dcmread(dicom_file_path) except: print

原创 Counting Out Time: Class Agnostic Video Repetition Counting in the Wild個人筆記

參考https://mp.weixin.qq.com/s/olVWrq0Dca2Kulbc8xwplA 由於上述公衆號文章寫的有些部分不夠詳細,比如repnet的transformer是什麼,這裏寫一個自己讀repnet和tran

原创 cnpy: c++中讀取npy文件數組

參考: https://github.com/rogersce/cnpy git clone https://github.com/rogersce/cnpy.git 然後使用cmake-gui+visual studio生成

原创 SlowFastNet(SlowFast) finetune(微調)

SlowFastNet github(最近放出來的): https://github.com/facebookresearch/SlowFast 配置環境要求: https://github.com/facebookresearc

原创 opencv編譯筆記(opencv 4.1.0 編譯失敗缺少opencv_world410d.lib)

問題: https://blog.csdn.net/ezhchai/article/details/80557936 https://zhuanlan.zhihu.com/p/62416504 按照以上網址使用cmake-gui和

原创 json文件提取圖片(使用多個座標畫閉合區域)

主要參考:https://www.geeksforgeeks.org/python-pil-imagedraw-draw-polygon-method/ 主要是通過img1 = ImageDraw.Draw(img)使用Image

原创 3D CNN(視頻分類網絡)無預訓練權重訓練難以收斂問題在各視頻分類網絡論文中的解決綜合(train from scratch)(更新中)

問題: 視頻分類網絡像two stream i3d等都是直接在作者給的預訓練權重上finetune自己的數據,然後在訓練集上訓練至過擬合。基本隨便一個圖像分類網絡在任意一個數據集的訓練集上都能收斂,但自己直接使用一個恆定的學習率來

原创 Default process group has not been initialized, please make sure to call init_process_group.

在查看SlowFastNet源代碼https://github.com/facebookresearch/SlowFast中的model_builder時,想要採用多GPU訓練;GPU大於1的話,代碼自動調用torch.nn.pa

原创 指定多個GPU訓練,GPU Memory Usage除了一個是滿的其他都很低

https://github.com/keras-team/keras/issues/13057 tensorflow 1.14.0有bug,使用其他版本的tensorflow

原创 caffe2 ubuntu環境配置(不需要make編譯)(CSN, Channel-Separated Convolutional Networks)(更新中)

Video Classification with Channel-Separated Convolutional Networks 1.先是根據下面網址安裝caffe2的第一步安裝依賴和項目所需要的其他library https

原创 SystemError: built-in function imread returned NULL without setting an error

背景: 將含有字符串的list存入txt, ‘wb’和’rb’均爲以二進制的方法寫入和讀取,所以在讀取後的這個list中的元素都是爲二進制的, 如b’/data/…/Out_0043.bmp’,前面有個b;這種目錄給cv2.imr

原创 EfficientNAS論文筆記

大致流程:使用RNN產生一定數目的候選網絡(子網絡)-訓練候選網絡至收斂然後得到一個性能指標-RNN使用性能指標通過policy gradient更新自己的RNN網絡參數 與NASNet比較:EfficentNas的訓練只用了一塊

原创 VidSage: Unsupervised Video Representational Learning with Graph Convolutional Networks個人論文筆記

模型主要從視覺和語義上編碼一個視頻:通過預訓練的圖像特徵提取器提取視覺特徵,再通過GCN變體來傳播背景信息,獲取視頻語義 3D CNN, LSTM, GCN(提取每幀人的關節作爲關鍵點後產生的圖像來預測動作) 1.介紹 通過GCN

原创 GeneticNas代碼理解

總體結構:神經網絡-Cell(每個NN含有3個Cell)-DAG(每個Cell含有一個DAG)-block(每個DAG含有5個block) Individual:儲存一個DAG中的5個np.asarray([input1index

原创 cyclegan(pix2pix)訓練測試

github: https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix 在網站中有以下一段話,原來以爲使用自己的圖片集需要改pytorch-CycleGAN-and-pix2