原创 pandas2libFFM

import numpy as np # linear algebra import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv) from sklear

原创 None vs NaN要點總結

在pandas中, 如果其他的數據都是數值類型, pandas會把None自動替換成NaN, 甚至能將s[s.isnull()]= None,和s.replace(NaN, None)操作的效果無效化。 這時需要用where函數才能進行替

原创 Levenshtein萊文斯坦計算相似度距離

https://github.com/ztane/python-Levenshtein/ https://pypi.org/project/python-Levenshtein/ Levenshtein.distance(str1,str

原创 jetbrains官網不能訪問

登陸不上http://www.jetbrains.com/ 可能是由於以前修改過 C:\Windows\System32\drivers\etc 下的hosts文件 可用notepad++將這兩行註釋掉  

原创 使用pandas如何進行速度提升

前言 當大家談到數據分析時,提及最多的語言就是Python和SQL。Python之所以適合數據分析,是因爲它有很多第三方強大的庫來協助,pandas就是其中之一。pandas的文檔中是這樣描述的: “快速,靈活,富有表現力的數據結構,旨在

原创 Spark集羣安裝和部署(二)-----Ubuntu16.0.4安裝jdk8

Spark集羣安裝和部署(一)-----Ubuntu16.0.4創建hadoop用戶 Spark集羣安裝和部署(二)-----Ubuntu16.0.4安裝jdk8 Spark集羣安裝和部署(三)-----ubuntu16.0.4安裝had

原创 python編譯、運行、反編譯pyc文件

編譯生成 pyc: 單個文件 代碼: import py_compile py_compile.compile("test.py") 命令行下: python -m py_compile test.py 多個文件 impor

原创 度量學習中的馬氏距離(Mahalanobis Distance)

對馬氏距離的定義: 馬氏距離是由印度統計學家馬哈拉諾比斯(P. C. Mahalanobis)提出的,表示數據的協方差距離。它是一種有效的計算兩個未知樣本集的相似度的方法。與歐氏距離不同的是它考慮到各種特性之間的聯繫(例如:一條關於身高的

原创 定序迴歸實戰

藍精靈村子新開了一家火鍋店,原來格格巫在自動售貨機上掙了一筆之後,又有了開餐館的想法了,他把村子外面流行的火鍋引入藍精靈村子,沒想到生意很火爆,藍精靈們經常要排很長的隊才能喫上格格巫家的火鍋。看着自家餐館門口長長的隊伍,隊伍裏藍精靈喫貨們

原创 sklearn分類評估參數 average

參數解釋  average: string, [None, ‘micro’, ‘macro’(default), ‘samples’, ‘weighted’] 將一個二分類matrics拓展到多分類或多標籤問題時,我們可以將數據看成多個二

原创 變量選擇之VARCLUS

1 變量選擇過程介紹   對於數據挖掘來說,變量選擇是一個很重要的過程,使用維歸約來進行變量選擇的好處是在能不降低預測能力的前提下,減少侯選變量的個數。本文將講一下維歸約的過程、維歸約的方法以及實現這些方法的SAS過程步,主要包括VARC

原创 Numpy clip函數

numpy.clip(a, a_min, a_max, out=None)[source] 其中a是一個數組,後面兩個參數分別表示最小和最大值,怎麼用呢,老規矩,我們看代碼: import numpy as np x=np.array(

原创 orc格式和parquet格式對比

相比傳統的方式存儲引擎,列式存儲引擎具有更高的壓縮比,更少的IO操作而備受青睞,尤其是在數據列column數很多,單詞操作僅針對若干列的情景,列式存儲引擎的性價比更高. 在互聯網數據應用場景下,大部分情況下,數據很大且數據字段很多,但每次

原创 11種離散型變量編碼方式及效果對比

首先介紹一個關於離散型編碼的Python庫,裏面封裝了十幾種(包括文中的所有方法)對於離散型特徵的編碼方法,接口接近於Sklearn通用接口,非常實用。下面是這個庫的鏈接:Category Encoders 1. Label Encode

原创 平均數編碼:針對高基數定性特徵(類別特徵)的數據預處理/特徵工程

平均數編碼:針對高基數定性特徵(類別特徵)的數據預處理 Mean Encoding: A Preprocessing Scheme for High-Cardinality Categorical Features 論文原文下載: htt