原创 科學計算庫BLAS LAPACK ATLAS OpenBLAS MKL EIGEN等之間的關係

1.BLAS(Basic Linear Algebra Subprograms)與LAPACK (Linear Algebra PACKage) Blas是Netlib基於Fortran實現的基本向量乘法,矩陣乘法的一種科學計算函

原创 Java Byte數組與Long的相互轉化

1.java.nio中的Buffer java.nio(NEW IO)是JDK 1.4版本開始引入的一個新的IO API,可以替代標準的Java IO API。NIO與原來的IO有同樣的作用和目的,但是使用的方式完全不同, NIO

原创 pandas讀取與存儲操作詳解

1.前言 pandas可以將讀取到的數據(不一定是csv或者txt)轉換成dataframe,然後後面可以方便地對dataframe進行操作,進行各種數據分析工作。下面我們對pandas裏常用的一些IO操作進行詳細的分析。 2.r

原创 item2vec詳解

1.item2vec的興起 自從word2vec被證明效果不錯以後,掀起了一股embedding的熱潮。item2vec, doc2vec,總結起來就是everything2vec。在實際工作中,embedding的使用也非常廣泛

原创 hive窗口函數實戰(2)

1.什麼是窗口函數 在明白窗口函數的用途之前,我們先稍微提一下聚合函數,比如sum, count等常用的聚合函數,作用是將一列中多行的值合併爲一行。與之對應的是,窗口函數完成的功能是本行內運算,從而多行的運算結果,即每一行的結果對

原创 小白都能瞭解的聚類算法之四(譜聚類)

1.譜聚類概述 譜聚類(Spectral clustering)是利用矩陣的特徵向量進行聚類的一種方法,其本質上是矩陣特徵分解進行降維的一種方法。它一般由兩部分組成,第一部分是對數據進行變換,第二部分再使用傳統的kmeans等方法

原创 小白都能瞭解的聚類算法之一(Kmeans與GMM)

1.標準Kmeans 經典的標準kmeans算法無需多言,每個無監督學習的開場白一般都是標準kmeans算法。具體的原理不再多言,可以參考之前的文章: https://blog.csdn.net/bitcarmanlee/arti

原创 小白都能理解的ROC曲線與AUC值

1.ROC曲線 在信號檢測理論中,接收者操作特徵曲線(receiver operating characteristic curve,或者叫ROC曲線)是一種座標圖式的分析工具,用於 (1) 選擇最佳的信號偵測模型、捨棄次佳的模型

原创 小白都能瞭解的聚類算法之二(DBSCAN)

1.簡介 DBSCAN(Density-Based Spatial Clustering of Application with Noise)是一種基於密度的經典聚類算法,出現的時間大概是1996年前後。 2.DBSCAN的一些基

原创 小白都能瞭解的聚類算法之三(層次聚類)

1.簡介 層次聚類(Hierarchical Clustering)通過計算各類別中數據之間的相似度,最終創建一棵有層次的嵌套聚類樹。起核心思想是基於各"簇"之間的相似度,在不同層次上分析數據,得到最終的樹形聚類結構。 2.agg

原创 redis緩存命中率計算

登錄到Redis服務器上以後,輸入info命令,在Stats部分會看到如下數據 # Stats total_connections_received:7429663 total_commands_processed:5927397

原创 BloomFilter, Count-Min Sketch算法

1.bloom filter 布隆過濾器(英語:Bloom Filter)是1970年由布隆提出的。它實際上是一個很長的二進制向量和一系列隨機映射函數。布隆過濾器可以用於檢索一個元素是否在一個集合中。它的優點是空間效率和查詢時間都

原创 HyperLogLog淺析

1.伯努利實驗 如果我們不斷投擲一個硬幣,而且該硬幣是均勻的,每次投擲出現正反面的概率相等都爲0.5,知道我們得到第一個正面,假設這個過程爲一次伯努利過程。那麼,投擲一次硬幣就得到正面的概率爲1/2,投擲兩次硬幣得到正面的概率爲1

原创 緩存穿透,緩存擊穿,緩存雪崩以及解決方案

1.緩存穿透 一個緩存系統,正常情況下我們去查詢的時候大部分key都是存在的。 如果去請求一個緩存系統中沒有的數據,此時系統如果沒有經過優化,會將請求繼續打到數據庫上,但其實數據庫上也沒有這條數據。上面這種情況就叫緩存穿透。 如果

原创 調和平均數

調和平均數(Harmonic mean),是求一組數值的平均數的方法中的一種,一般是在計算平均速率時使用。 計算方法爲: nHn=1a1+1a2+⋯+1an\frac{n}{H_n} = \frac{1}{a_1} + \frac