原创 Spark MLlib分佈式機器學習源碼分析:奇異值分解(SVD)與主成分分析(PCA)

原理    Spark是一個極爲優秀的大數據框架,在大數據批處理上基本無人能敵,流處理上也有一席之地,機器學習則是當前正火熱AI人工智能的驅動引擎,在大數據場景下如何發揮AI技術成爲優秀的大數據挖掘工程師必備技能。本文結合機器學習思想與

原创 Spark MLlib分佈式機器學習源碼分析:頻繁模式挖掘

 Spark是一個極爲優秀的大數據框架,在大數據批處理上基本無人能敵,流處理上也有一席之地,機器學習則是當前正火熱AI人工智能的驅動引擎,在大數據場景下如何發揮AI技術成爲優秀的大數據挖掘工程師必備技能。本文結合機器學習思想與Spark

原创 一文帶你get七種常用特徵工程方案

當在做數據挖掘和數據分析時,數據是所有問題的基礎,並且會影響整個工程的流程。相比一些複雜的算法,如何靈活的處理好數據經常會取到意想不到的效益。而處理數據不可或缺的需要使用到特徵工程。 目錄 一、什麼是特徵工程 二、常用方法 1. 時間

原创 pip升級出錯 ModuleNotFoundError: No module named pip的解決辦法

Traceback (most recent call last): File "d:\python375\lib\runpy.py", line 193, in _run_module_as_main "__main__"

原创 牛客SQL題解 - 獲取所有部門當前manager的當前薪水情況

題目描述 獲取所有部門當前manager的當前薪水情況,給出dept_no, emp_no以及salary,當前表示to_date='9999-01-01' CREATE TABLE `dept_manager` ( `dept_no`

原创 【一分鐘知識】七種損失函數

主要內容:0-1, Hinge, Logistic, Cross Entropy, Square, Absolute, Huber簡述:損失函數刻畫了模型與訓練樣本的匹配程度。分類損失分類Loss.png1. 對於二分類問題,Y={1,

原创 牛客SQL題解 - 獲取當前薪水第二多的員工的emp_no以及其對應的薪水salary,不準使用order by

題目描述 查找當前薪水(to_date='9999-01-01')排名第二多的員工編號emp_no、薪水salary、last_name以及first_name,不準使用order by CREATE TABLE `employees`

原创 Spark機器學習不想跟你說話並向你扔了一個kaggle小例子

在前文中分別就Spark機器學習中的各個模塊進行逐個描述,本文將Kaggle中Flights and Airports Data數據集作爲研究對象,使用Spark對其進行簡單的pipline建模、指標評估和交叉驗證調參,構建一個較爲完整

原创 Spark MLlib分佈式機器學習源碼分析:隱式狄利克雷分佈(LDA)

原理    Spark是一個極爲優秀的大數據框架,在大數據批處理上基本無人能敵,流處理上也有一席之地,機器學習則是當前正火熱AI人工智能的驅動引擎,在大數據場景下如何發揮AI技術成爲優秀的大數據挖掘工程師必備技能。本文結合機器學習思想與

原创 牛客SQL題解 - 統計出當前各個title類型對應的員工當前薪水對應的平均工資

題目描述 統計出當前各個title類型對應的員工當前(to_date='9999-01-01')薪水對應的平均工資。結果給出title以及平均工資avg。 CREATE TABLE `salaries` ( `emp_no` int(11

原创 【圖文並茂】通過實例理解word2vec之Skip-gram

作者: 貓貓     CSDN: 貓貓玩機器學習導讀word2vec主要實現方法是Skip-gram和CBOW,CBOW的目標是根據上下文來預測當前詞的概率,且上下文所有的詞對當前詞出現概率的影響的權重是一樣的,因此叫做continuo

原创 Spark分佈式機器學習源碼分析:模型評估指標

 Spark是一個極爲優秀的大數據框架,在大數據批處理上基本無人能敵,流處理上也有一席之地,機器學習則是當前正火熱AI人工智能的驅動引擎,在大數據場景下如何發揮AI技術成爲優秀的大數據挖掘工程師必備技能。本文結合機器學習思想與Spark

原创 Spark分佈式機器學習源碼分析:特徵提取與轉換

 Spark是一個極爲優秀的大數據框架,在大數據批處理上基本無人能敵,流處理上也有一席之地,機器學習則是當前正火熱AI人工智能的驅動引擎,在大數據場景下如何發揮AI技術成爲優秀的大數據挖掘工程師必備技能。本文結合機器學習思想與Spark

原创 牛客SQL題解 - 從titles表獲取按照title進行分組,注意對於重複的emp_no進行忽略。

題目描述 從titles表獲取按照title進行分組,每組個數大於等於2,給出title以及對應的數目t。 注意對於重複的emp_no進行忽略。 CREATE TABLE IF NOT EXISTS `titles` ( `emp_no`

原创 Spark MLlib分佈式機器學習源碼分析:K-means聚類

​    Spark是一個極爲優秀的大數據框架,在大數據批處理上基本無人能敵,流處理上也有一席之地,機器學習則是當前正火熱AI人工智能的驅動引擎,在大數據場景下如何發揮AI技術成爲優秀的大數據挖掘工程師必備技能。本文結合機器學習思想與S