原创 qq表情是否可以貼入博客

貼一個試試  

原创 大數據分析平臺的演進之路

1、石器時代 大數據技術剛起步時平臺架構很簡單,數據流從日誌通過RSYNC(linux系統下的數據鏡像備份工具)流入到Hive,然後通過Hive SQL語句統計分析,結果導入到MySQL,最後形成報表展示。整個流程的驅動基於Shell腳本

原创 sklearn機器學習:K-Means

K-Means類的格式 sklearn.cluster.KMeans (n_clusters=8, init=’k-means++’, n_init=10, max_iter=300, tol=0.0001, precompute

原创 sklearn機器學習:K-Means之提前停止迭代

重要參數max_iter & tol:讓迭代停下來 之前描述K-Means的基本流程時我們提到過,當質心不再移動,K-Means算法就會停下來。但在完全收斂之前,我們也可以使用max_iter,最大迭代次數,或者tol,兩次迭代間

原创 機器學習:聚類算法的模型評估指標:輪廓係數

不同於分類模型和迴歸,聚類算法的模型評估不是一件簡單的事。 在分類中,有直接結果(標籤)的輸出,並且分類的結果有正誤之分,所以使用預測的準確度,混淆矩陣,ROC曲線等指標來進行評估。但無論如何評估,都是在”模型找到正確答案“的能力

原创 深度學習基礎算法-神經網絡之激活函數

神經網絡算法 神經網絡算法試圖模擬生物神經系統的學習過程,以此實現強大的預測性能。不過由於是模仿人類大腦,所以神經網絡的模型複雜度很高也是衆所周知。在現實應用中,神經網絡可以說是解釋性最差的模型之一,商業環境中很少使用神經網絡。然

原创 Python-Numpy語法總結-數組的排序及重塑

一維數組排序 np.random.seed(2) a=np.random.randn(5) print(a) np.argsort(a) #返回一個索引的排序(默認升序) [-0.41675785 -0.05626683 -2.

原创 非線性SVM-重要參數kernel

非線性SVM的決策函數: 將數據從原始的空間投射到新空間中,這種變換非常巧妙,但也帶有一些實現問題。 首先,我們可能不清楚應該什麼樣的數據應該使用什麼類型的映射函數來確保可以在變換空間中找出線性決策邊界。極端情況下,數據可能會被

原创 sklearn機器學習:K-Means初始質心怎麼放

重要參數init & random_state & n_init 在K-Means中有一個重要的環節,就是放置初始質心。 init 如果有足夠的時間,K-means一定會收斂,但Inertia可能收斂到局部最小值。是否能夠收斂到真

原创 機器學習-二分類SVC中的樣本不均衡問題:重要參數class_weight

樣本不均衡問題 對於分類問題,永遠都逃不過的一個痛點就是樣本不均衡問題。樣本不均衡是指在一組數據集中,標籤的一類天生佔有很大的比例,但我們有着捕捉出某種特定的分類的需求的狀況。比如,我們現在要對潛在犯罪者和普通人進行分類,潛在犯罪

原创 機器學習:SVM核函數的優勢和缺陷

看起來,除了Sigmoid核函數,其他核函數效果都還不錯。但其實rbf和poly都有自己的弊端,我們使用乳腺癌數據集作爲例子來展示一下: from sklearn.datasets import load_breast_cance

原创 機器學習-推薦系統之基於用戶的協同過濾

人以羣分 – 基於用戶的協同過濾(User Collaborative Filtering,簡稱User CF) 生活中可能有這樣的朋友:他喜歡的書、電影,你也喜歡; 他喜歡的衣服款式、美食餐廳你也十分推崇; …… 基本原理:

原创 Spark Yarn Cluster模式運行流程

以wordCount功能實現爲例: 命令行: bin/spark-submit –class WordCount –master yarn –deploy-mode cluster ./WordCount.jar ./i

原创 Spark 內核

Spark內核 Spark內核泛指Spark的核心運行機制,包括Spark核心組件的運行機制、Spark任務調度機制、Spark內存管理機制、Spark核心功能的運行原理等。 Spark核心組件 Driver Spark驅動器節點

原创 Python-Numpy語法總結-數組的索引和切片

普通索引和切片 像列表一樣的索引和切片 a=np.arange(15).reshape(3,5) a array([[ 0, 1, 2, 3, 4], [ 5, 6, 7, 8, 9],