原创 理解K折交叉驗證

k 折交叉驗證 第一步,不重複抽樣將原始數據隨機分爲 k 份。 第二步,每一次挑選其中 1 份作爲測試集,剩餘 k-1 份作爲訓練集用於模型訓練。 第三步,重複第二步 k 次,這樣每個子集都有一次機會作爲測試集,其餘機會作爲訓練集

原创 聚類分析(二)——二分K均值

一般的K均值,所分成的簇往往是局部最優,而不是全局最優,比如下圖,簇也不會再更新了,但顯然沒達到我們的要求。 算法思想: 顧名思義,二分k均值就是每次將數據集一分爲二,即k均值算法中的k值爲2,第一次是在整個數據集上劃分,這裏沒

原创 社交網絡中影響力傳播模型

1.獨立級聯模型 獨立級聯模型(Independent Cascade Mode,IC模型)是一種概率模型,當一個節點v被激活時,它會以概率p[v,w]對它未激活的出邊鄰居節點w嘗試激活,這種嘗試僅僅進行一次,而且這些嘗試之間是互

原创 二叉樹的前中後序遍歷 遞歸/非遞歸(python版)

中序遍歷(非遞歸): def inorderTraversal(self, root: TreeNode) -> List[int]: res=[] stack=[] if not root:

原创 聚類分析(三)——DBSCAN算法

一.簡介 DBSCAN算法是一種基於密度的聚類算法。 基於密度的聚類算法會尋找被低密度區域分離的高密度區域。 . 該算法我們首先需要將所有的點分爲:核心點,邊界點,噪聲點。 區分這些點的依據是根據我們提前給出的MinPts和Eps

原创 關聯分析(一)基本概念和內容簡介

數據挖掘--關聯分析(一)一.基本概念二.問題定義 一.基本概念 1.非對稱的二元變量:通常認爲項在事務中出現比不出現重要 2.支持度計數:包含某個項集的事務的個數 3.支持度和置信度: 支持度: 置信度: 二.問題定義 1.

原创 一文理清楚,準確率,精度,召回率,真正率,假正率,ROC/AUC

一.混淆矩陣 如上圖爲一個混淆矩陣, True Positive (真正, TP)被模型預測爲正的正樣本; True Negative(真負 , TN)被模型預測爲負的負樣本 ; False Positive (假正, FP)被

原创 關聯分析(二)Apriori算法理解與介紹

Apriori算法理解與介紹 一.基本概念 1.基於先驗原理的剪枝 先驗原理:如果一個項集是頻繁的,則它的所有子集一定也是頻繁的。相反,如果一個項集是非頻繁的,則他的所有超集也是非頻繁的。 先驗原理的理解也很簡單,將支持度的公式列

原创 有效的數獨(python)---leetcode36

判斷一個 9x9 的數獨是否有效。只需要根據以下規則,驗證已經填入的數字是否有效即可。 數字 1-9 在每一行只能出現一次。 數字 1-9 在每一列只能出現一次。 數字 1-9 在每一個以粗實線分隔的 3x3 宮內只能出現一次。 數獨部分

原创 二叉樹的層次遍歷(python的遞歸與非遞歸)----leetcode 102

非遞歸 class Solution: def levelOrder(self, root: TreeNode) -> List[List[int]]: if not root: retu

原创 在排序數組中查找元素的第一個和最後一個位置 (python)----leetcode34

給定一個按照升序排列的整數數組 nums,和一個目標值 target。找出給定目標值在數組中的開始位置和結束位置。 你的算法時間複雜度必須是 O(log n) 級別。 如果數組中不存在目標值,返回 [-1, -1]。 示例 1: 輸入: