原创 生物信息數據存放類型之——FASTQ

FASTQ 簡介 FASTQ用於保存生物序列(通常是核酸序列)和其測序質量信息的標準格式。 其序列以及質量信息都是使用一個ASCII字符標示,最初由Sanger開發。 目的是將FASTA序列與質量數據放到一起,目前已經成爲高通量測序結果的

原创 使用conda安裝和卸載各種包

直接使用下面的命令安裝 conda install xxx //安裝xxx包 卸載 conda uninstall xxx //卸載xxx包 安裝指定版本的包,以tensorflow-gpu1.4.0爲例 anaconda

原创 GBT/Xgboost/Lightgbm

三大集成學習優秀博客彙總 GBT XGboost Lgbm

原创 神經網絡訓練結束後,重新指定輸入輸出進行預測keras

目錄   寫在前面 多輸入輸出模型 重新定義輸入輸出進行預測 完整代碼 寫在前面 這幾年,深度學習推動了人工智能領域快速的向前發展,神經網絡架構也是演變的越來越複雜,經常會有多輸入,多輸出的情況,然而,我們在使用訓練後的模型進行預測的時候

原创 深入理解過擬合與欠擬合

偏差是指我們忽略了多少數據,而方差是指我們的模型對數據的依賴程度。   說你想學英語。你沒有先前的語言知識,但你聽說最偉大的英國作家是莎士比亞。一個自然的行動方式當然必須是將自己鎖定在圖書館並記住他的作品。經過一年的學習,你從學業中走出

原创 以XGBoost爲代表的集成算法體現的哲學思想與數學技巧

目錄   哲學思想一:抓住主要矛盾 爲什麼AdaBoost要增加前一次錯分樣本的權重? 爲什麼lightGBM可以忽略梯度小的樣本? 哲學思想二: 矛盾在一定條件下是可以相互轉化的。 爲什麼隨機森林比單一決策樹更好? 爲什麼要用弱學習器?

原创 單樣本學習(One shot learning)和孿生網絡(Siamese Network)簡介

背景 傳統觀點一般認爲深度神經網絡通常比較擅長從高維數據中學習,例如圖像或者語言,但這是建立在它們有大量標記的樣本來訓練的情況下。然而,人類卻擁有單樣本學習的能力--如果你找一個從來沒有見過小鏟刀的人,給它們一張小鏟刀的圖片,他們應該就能

原创 conda環境管理

conda update -n base conda //update最新版本的conda conda create -n xxxx python=3.5 //創建python3.5的xxxx虛擬環境 conda ac

原创 conda升級命令-升級conda、anaconda及各種包

升級Anaconda需要先升級conda conda update conda conda update anaconda conda update anaconda-navigator //update最新版本的anaconda

原创 anaconda卸載

anaconda  windows版,直接在控制面板的程序與功能下 卸載即可 linux版,直接刪除安裝的文件夾即可,使用 rm -rf file //ubuntu,file 爲anaconda安裝目錄,例/home/anaconda3

原创 透徹理解深度學習背後的各種思想和思維

深度神經網絡在2012年興起,當時深度學習模型能夠在傳統機器學習問題,例如圖像分類和語音識別,擊敗最先進的傳統方法。這要歸功於支撐深度學習的各種哲學思想和各種思維。 抓住主要矛盾,忽略次要矛盾--池化 神經網絡中經過池化後,得到的是突出化

原创 conda清理沒用的安裝包

conda clean -p //刪除沒有用的包 conda clean -t //tar打包 conda clean -y -all //刪除所有的安裝包及cache  

原创 奇異值分解SVD講解

奇異值分解技術(簡稱SVD)具有長期且有些令人驚訝的歷史。它開始於社會科學與智力測試。早期的情報研究人員指出,用於衡量智力的不同方面的測試,例如口頭和空間,通常是密切相關的。 因此,他們假設有一個共同的智力的一般衡量標準,他們稱之爲“g”

原创 python的列表中存在兩個冒號

有不少的人在剛接觸python的時候,會遇到列表中存在兩個冒號的問題,搞得一頭霧水,今天爲大家解釋一下 #創建一個列表lis=[0,1,2,3,4,5,6,7,8,9] lis=[i for i in range(10)] #取後4個數

原创 數據挖掘中的一些概率論知識

目錄   介紹 隨機變量 概率分佈函數 期望值 協方差 預定義的概率分佈 分佈混合(Distribution Mixtures) 應用 介紹 爲什麼我們需要概率論基礎才能理解機器/深度學習算法? 上述問題的答案是本文背後的主要動機。機器學