原创 編程基礎---不同編程語言學習---python使用(雜)

Python中參數配置 Python中參數獲取: sys.argv[]的用法 來源 Sys.argv[ ]其實就是一個列表,裏邊的項爲用戶輸入的參數,關鍵就是要明白這參數是從程序外部輸入的,而非代碼本身的什麼地方,要想看到它的效果

原创 項目實例---金融---用機器學習構建模型,進行信用卡反欺詐預測

來源: 用機器學習構建模型,進行信用卡反欺詐預測 反欺詐中所用到的機器學習模型有哪些? Credit card fraud detection 構建信用卡反欺詐預測模型——機器學習 信用卡交易數據相關知識收集 交易渠道、

原创 平臺搭建---大數據框架---分佈式搜索引擎與面向文檔數據庫(lucene、elasticsearch、Nutch、Solr)

文檔相似性 文本相似度計算-JaccardSimilarity和哈希簽名函數 https://blog.csdn.net/ygrx/article/details/12748857 lucene學習 來源:孔浩Lucene視頻教程

原创 數據挖掘工具---流式處理---storm 教程

批處理和流式處理的應用程序對比 解決方案 Storm Spark Streaming Flink S4 Hadoop 開發者 Twitter UC Berkeley AMPLab Apache Yahoo! Apac

原创 數據基礎---postgresql和greenplum的使用

PostgreSQL連接和登錄 PostgreSQL登錄及修改密碼 PostgreSQL 連接問題 FATAL: no pg_hba.conf entry for host 命令行方式登錄PostgreSQL 理解PostgreS

原创 編程基礎---shell編程

內容來源:shell編程其實真的很簡單(一) 幾個面試官常問的Shell腳本編寫 基礎概念 什麼是shell編程? 用該作者的話講:shell編程就是對一堆linux命令的邏輯化處理。 shell編程的好處: 我們完成一項任務的時

原创 編程基礎---不同編程語言學習---讓程序跑起來

內容比較亂 helloworld:Java版 讓程序跑起來 通過Eclipse運行程序 如下創建java項目 如果不勾選”use default location”,則需要在對應目錄下創建與項目名稱同名的文件。 如下創建j

原创 算法模型---樹相關---Boosting 相關知識

1、基本知識 來源 1.1、名詞解釋 Boosting (提升)是一種將弱分類器h(x)h(x)h(x)組合起來形成強分類器F(x)F(x)F(x)的算法框架。 **參數估計:**在參數空間內進行數值優化(以參數作爲變量) **函

原创 編程基礎---程序運行中的異常處理

1、python程序的異常處理 Python 異常處理 1.1、python程序內部處理 資料來源1,資料來源2 對於pyhton程序中可能出現的異常問題,可用如下的結構來處理 try: 語句1 語句2 .

原创 算法模型---聚類分析之DBSCAN密度聚類算法

來源 DBSCAN(Density-Based Spatial Clustering of Applications with Noise,基於密度的抗噪聚類方法)。和K-Means,BIRCH這些一般只適用於凸樣本集的聚類相比

原创 平臺搭建---大數據框架---大數據組件的安裝及部署

大數據組件圖解 所有組件的安裝最好都在自己操作的用戶下,以免影響root用戶下的文件,因爲安裝如果出錯,可能無法還原這些文件,而且存在安全隱患;但有些組件如mysql必須用root用戶來安裝,因爲涉及到修改root用戶權限的問題

原创 平臺搭建---數據治理

美團酒旅起源數據治理平臺的建設與實踐 數據治理理念 數據治理的坑你遇到過幾個? 數據治理成功的六大要素,你做到了幾個? DataOps崛起:數據治理需要重建! 數據治理的三種落地措施 數據治理怎麼做?這篇萬字長文終於講清楚了!

原创 平臺搭建---電腦系統---ubuntu16.04下hadoop-2.7.4搭建

Hadoop基本介紹 我準備在同一臺電腦上搭建hadoop系統,電腦內存8G,一個物理機的ubuntu系統,一個虛擬機的ubuntu系統。在每臺電腦進行如下配置。 準備好ubuntu系統 方法參照我之前的《windows系統下安裝ub

原创 編程基礎---linux命令集(二)

ubuntu查看系統信息命令 查看處理核信息 cat /proc/cpuinfo |grep “model name” && cat /proc/cpuinfo |grep “physical id” Linu

原创 算法模型---聚類分析

筆記︱多種常見聚類模型以及分羣質量評估(聚類注意事項、使用技巧) 聚類︱python實現 六大 分羣質量評估指標(蘭德係數、互信息、輪廓係數) 算法模型—聚類分析之kmeans FCM(Fuzzy C-Means)模糊C聚類 機器學習