原创 【算法3】 KNN

    最簡單的機器學習算法——K-近鄰算法(K-Nearest Neighbor),縮寫KNN,通過計算距離來判定樣本是否所屬同一類。 K-NN的算法思想 算距離     給定測試對象 ????, 計算它與訓練集中每個對象的距離

原创 【算法1】多元線性迴歸

    計劃在國慶期間推出一些挖掘算法,是不是心血來潮?絕對不是。應一小粉絲私信提出小要求,推一些挖掘算法的文章。只是寫博文真的巨費時間,所以我會按自己的理解把算法的框架推出來,其中的一些細節推導我會在後期抽時間補充。     

原创 【Python】信用評級項目——個人評分A卡製作

序言     評分卡模型通常有四個類型:     A 卡, 又稱爲申請者評級模型,主要應用於相關融資類業務中新客戶的主體評級,適用於個人 和機構融資主體。     B 卡,又稱爲行爲評級模型,主要應用於相關融資類業務中存量客戶在存

原创 【Spark】GraphFrame

     Spark 的 GraphX組件用於圖並行性和數據並行計算,它建立在一個稱爲"圖論" 的數學分支上。它是位於Spark核心之上的分佈式圖處理框架。GraphX爲大型數據集的圖帶來並行、迭代處理的速度和可伸縮性。 Grap

原创 【HBase】分佈式儲存系統

什麼是HBase?     HBase是一個高可靠性、高性能、可伸縮的分佈式存儲系統: • 一個構建在HDFS上的分佈式NoSQL數據庫; • 基於Google BigTable模型開發的,典型的key/value系統; • 具有

原创 【統計調查分析報告】2018 年貴州省食品安全滿意度影響因素的研究

查看作品內容請點百度鏈接: 複製這段內容後打開百度網盤手機App,操作更方便哦 鏈接:https://pan.baidu.com/s/1YMntP9ljWLMitTCWihyDuw 提取碼:fvi9 謝謝喲!

原创 【模型選擇】從0到1的數據價值實現需要數據分析師做些什麼?

    將Boss的需求放在左肩,把業務理解穩在右肩。然後?等等~~,鄭重聲明一下,數據價值就是用數據來生“¥”“¥”“¥”…越多越好,願多不許少。。。那麼Boss的需求、業務的理解就是數據分析師要接的“聖旨”了。     很遺

原创 【Python】爬蟲案例——租房網站房間信息的全量抓取

  這裏對爬蟲的基礎知識就不過多的闡述了,直接上案例。當數據需求被激發後,怎樣利用爬蟲技術區獲取數據?那麼,順藤摸瓜是最好的方法。所需數據是互聯網數據嗎?該數據是公開的嗎?數據是什麼格式?數據的位置有什麼規則?簡單說,把目標網站的

原创 【Python-爬蟲】某城租房數據全量採集項目

    互聯網時代,很多人迷戀網絡數據的採集,比如那堆擁有不同技術水平的爬蟲愛好者,或者是技術達到雲端的大咖。不管是自己需要用到該數據,還是僅僅是爲了淬鍊爬蟲技術,只要實施爬蟲行爲,都需要本着對自己負責且避免給目標站點施以強載荷的

原创 【Python】數據清洗之黑白雙俠——numpy&pandas庫

  我們分別看看numpy和pandas在數據處理中都有哪些突出的優缺點,不過大部分內容我會直接插入代碼塊,在代碼塊中進行解釋。 Numpy   numpy庫有比python基礎函數更高級的多維數組數值計算與處理的方法及函數。 #

原创 【Hive】基於hadoop的大數據倉庫

     Hive被稱爲是”Hadoop的數據倉庫框架”。 Hive定義了類SQL查詢語言Hive SQL,學習成本低。可通過類SQL語句快速實現簡單的MR統計 ,可被用來執行專門的海量數據 集查詢和數據彙總,以及執行海量數據分析

原创 【算法5】樸素貝葉斯

點擊:樸素貝葉斯,初步瞭解樸素貝葉斯     貝葉斯是基於概率類的模型,根據屬性獨立性條件假設的強弱不同有樸素貝葉斯算法和半樸素貝葉斯算法,由屬性間依賴性的較好的表達有貝葉斯網絡算法,當我們的訓練樣本不完整時有

原创 【MYSQL】簡介

   在數據分析師看來,MYSQL就是一個簡單而又必不可少的工具。只要能精準按業務需求在數據庫裏存數據、提取數據,爲業務數據分析提供源數據就足矣! 什麼是數據庫    在認識MYSQL之前,必須瞭解數據庫是什麼?答案是肯定的。我們

原创 【算法8】BP神經網絡

單層感知機 多重感知機 BP神經網絡 注意 自定義BP代碼 import numpy as np import matplotlib.pyplot as plt def sigmoid(x): return 1/