原创 python分佈式計算dispy簡單使用

dispy,是用asyncoro實現的分佈式並行計算框架。 框架也是非常精簡,只有4個組件,在其源碼文件夾下可以找到: dispy.py (client) provides two ways of creating “cluste

原创 Pycharm開發spark程序

Pycharm開發spark程序 使用pycharm連接spark開發python程序。 1.Pycharm本地開發spark程序 1.安裝Java 安裝Java8 64bit,安裝目錄是 C:\Java,注意,安裝目錄不要有空格

原创 ubuntu16配置ftp

下面講講怎麼在Ubuntu中配置FTP,都是從網上找來的,就當是做個筆記吧。 1.有問題時完全卸載vsftpd sudo apt-get purge vsftpd 發現鎖錯誤E: 無法獲得鎖 /var/lib/dpkg/lock

原创 修復python的Visual C++ 14環境錯誤

1.背景 有些第三方python模塊編譯安裝的時候需要依賴C/C++編譯環境,如果電腦沒有編譯環境的話就會報error: Microsoft Visual C++ 14.0 is required. Get it with "Micr

原创 spark-python版本依賴與三方模塊方案

spark-python版本依賴與三方模塊方案 1. 背景 公司有統一的spark大數據集羣,但spark用的python版本是python2.7,項目組這邊都是用python3.5,甚至有些項目用的是python3.6,對某些第三方包,

原创 機器學習-增量訓練方法

機器學習-增量訓練方法 1. 爲什麼要增量訓練 做過機器學習的同學都知道,有時候訓練數據是很多的,幾十萬幾百萬也是常有的事。雖然幾十萬幾百萬只看記錄數不算多,但是如果有幾百個特徵呢,那數據集是很恐怖的,如果存成numpy.float類型,

原创 數據統計基礎之F分佈及其應用

大數據統計基礎之F分佈及其應用 1. F分佈 1.1. Z檢驗和t檢驗的侷限性 1.2. 方差分析的含義與假設 1.3. 方差分析的過程 2. F分佈的應用——方差的同質性檢驗 2.1. 方差分析的基本原理 2.2. 方差分析的基

原创 python爬蟲基礎

1. 前言 我不是專業爬蟲工程師,只是業餘爬點數據做做分析和挖掘工作,所以沒有使用到複雜的反爬蟲和線程池等技術,也沒有用到beautifulSoup這樣的神庫。但是並不影響我輕鬆爬取網頁數據。 這裏簡單記錄下瀏覽器操作,源碼讀取,以及數

原创 SQL-On-Pandas加速數據科學

SQL-On-Pandas加速數據科學 1. 背景 2. 現狀 3. 實現過程 3.1. 基本假設和約定 3.2. 實現方法 3.3. globals()的使用 3.4. exec的使用 4. 使用方法 1. 背景 Pytho

原创 pyspark系列--統計基礎

統計基礎 1. 簡單統計 2. 隨機數 3. 四捨五入 4. 抽樣 5. 描述性統計 6. 最大值最小值 7. 均值方差 8. 協方差與相關係數 9. 交叉表(列聯表) 10. 頻繁項目元素 11. 其他數學函數 11.1. 數學

原创 win10右鍵菜單增加複製路徑快捷鍵

win10右鍵菜單增加複製路徑快捷鍵 自換win10以來,很奇怪有時候shift+右鍵能看到複製路徑,有時候不能,很煩惱。想到將其添加到右鍵菜單的註冊表修改法。 下面說說如何做。 首先新建一個文本文檔,輸入如下內容: Windows R

原创 python自動化單元測試

python自動化單元測試 1. 前言 2. 原理 3. 單元測試的簡單類型 4. 一個簡單的例子 5. 函數文檔格式要求 6. 生成測試用例 7. 參考 1. 前言 說實話,除了測試要求,我實在不知道寫單元測試有什麼意義,一個函

原创 pyspark系列--集合操作

彙總函數 1. 創建map 2. 創建列表 3. 元素存在判斷 4. 數據拉直 5. posexplode 6. json操作 6.1. get_json_object 6.2. json_tuple 6.3. from_json

原创 pyspark系列--datafrane進階

datafrane進階 1. 分組統計 2. join 操作 3. 缺失值處理 4. 空值判斷 5. 缺失值處理 6. 離羣點 7. 重複值 8. 生成新列 9. 類eval操作 10. 行的最大最小值 11. when操作 12.

原创 pyspark系列--讀寫dataframe

目錄 1. 連接spark 2. 創建dataframe 2.1. 從變量創建 2.2. 從變量創建 2.3. 讀取json 2.4. 讀取csv 2.5. 讀取MySQL 2.6. 從pandas.dataframe創建 2.7