原创 分類過程中類別不平衡問題解決方法

第一種情況 以二分類爲例,若兩種類別數量都很大。對大樣本採用欠採樣。 第二種情況 以二分類爲例,若兩種類別數量不大。 1. 擴大數據集 在增加小樣本數據時,又增加大樣本數據。 2. 小樣本通過SMOTE算法過採樣,大樣本通過Easy

原创 Mac下Homebrew安裝的軟件放在什麼地方

一般情況是這麼操作的: 1、通過brew install安裝應用最先是放在/usr/local/Cellar/目錄下。 2、有些應用會自動創建軟鏈接放在/usr/bin或者/usr/sbin,同時也會將整個文件夾放在/usr/local

原创 Python中常見的面試題

1. 到底什麼是Python? Python是一種解釋性語言。Python代碼在運行之前不需要編譯。其它解釋性語言還包括PHP和Ruby。 Python是動態類型語言,指的是在聲明變量時,不需要說明變量的類型。 Python非常適合面向

原创 機器學習評價指標

分類模型的評價標準 混淆矩陣 混淆矩陣是除了ROC曲線和AUC之外的另一個判斷分類好壞程度的方法。下面給出二分類的混淆矩陣 Predicted as Positive Predicted as Negative Labele

原创 使用awk求指定列的最大值最小值

需求:一文件內容如下,求第一列的最大值和最小值 1 1220 2 1221 3 1222 3 1223 4 1224 5 1225 12 1226 12 1227 12 1228 12 1229 12 1230 命令如下 求最小值: se

原创 求數組中最長遞增子序列

寫一個時間複雜度儘可能低的程序,求一個一維數組(N個元素)中最長遞增子序列的長度。 例如: arr[] = {1, -1, 2, -3, 4, -5, 6, -7},其最長遞增子序列的長度爲4 如(1, 2, 4, 6)其中最長遞增子序列

原创 皮爾森相關性的相似度

基於皮爾森相關性的相似度 —— Pearson correlation-based similarity 皮爾森相關係數反應了兩個變量之間的線性相關程度,它的取值在[-1, 1]之間。當兩個變量的線性關係增強時,相關係數趨於1或-1;當一

原创 [特徵工程]--缺失值處理

目前常用的三類處理方法: 1. 用平均值、中值、分位數、衆數、隨機值等替代。效果一般,因爲等於人爲增加了噪聲。 2. 先根據歐式距離或Pearson相似度,來確定和缺失數據樣本最近的K個樣本,將這K個樣本的相關feature加權平均來

原创 Linux source命令

Linux source命令: 通常用法:source filepath 或 . filepath 功能:使當前shell讀入路徑爲filepath的shell文件並依次執行文件中的所有語句,通常用於重新執行剛修改的初始化文件,使之立即生

原创 ssh登錄一段時間後斷開的解決方案

Method 1: 修改/etc/ssh/sshd_config配置文件,設置ClientAliveCountMax值大一點,單位是分鐘。然後重啓ssh服務使生效:service sshd reload Method 2: 找到所在用戶

原创 leetcode 248 有一個數組arr[n-1]存儲了1~n中的n-1個數,問arr中缺少的數字是多少

思路: 首先,這個題使用異或(^)來解決。首先了解幾個公式: a ^ a = 0, a ^ b ^ a = b, a ^ b ^ c = a ^ c ^ b 由此,我們可以概括出以下幾個結論: 1. 若兩個元

原创 旋轉有序數組的二分查找

比如,數組爲: int[] arr = {15, 16, 19, 20,25, 1, 3, 4,5, 7, 10, 14} 查找key = 7 主要思想 每次根據left和right求出mid後,mid的左邊爲[left, mid]

原创 Python管理內存

Python對內存的管理要從三個方面來說:1.對象的引用計數機制、2.垃圾回收機制、 3.內存池機制 1. 對象的引用機制 Pyhton的內部使用引用計數,來保持內存中的對象,所有對象都有引用計數。 (1) 引用計數增加: 一個對象分配

原创 求兩個已排序數組的交集

問題描述 求兩個已排序數組的交集,要求時間複雜度爲O(m + n) 解題思路 求兩個數組的交集 使用兩個指針分別指向數組A和數組B,指向數字較小的指針向前移動,若遇到兩個數組具有相同的數字,則進行保存,直到其中任何一個數組遍歷完

原创 返回亂序數組中第k大的數

類似於快速排序,執行一次快速排序之後,每次只選擇一部分繼續執行快速排序,直到找到第K大個元素爲止,這個元素在數組位置後面的元素即爲所求。 利用快速排序子過程的返回哨兵的位置,將哨兵的序號和k - 1進行比較 時間複雜度:O(n) pu