原创 Python3——異常

來介紹下簡單的異常處理,語法如下 try:  需要檢查異常的代碼 except 異常名稱:  異常處理 else:  沒有異常則執行此代碼塊裏的內容 finally:  不論有沒有異常,都會執行此代碼塊裏的內容 用一個讀寫文件的實例測

原创 Kettle簡介

Kettle簡介 Kettle是進行數據處理的ETL工具,能夠在Window、Linux、Unix上運行,Kettle可以用來處理轉換來自不同數據庫的數據。 Kettle中有兩種腳本文件,transformation和job,tran

原创 機器學習——聚類算法(一)

文章目錄聚類(Clusting)算法——概述一、聚類分析的八類方法1. 劃分方法1)K-Means聚類2)K-Medoid聚類二、聚類評估1. K-means聚類評估指標 聚類(Clusting)算法——概述 聚類算法 是機器學習(M

原创 kettle 轉換中的位置變量和環境變量

在kettle中寫SQL語句讀表的時候,往往會有通過一個變量過濾不同數據的需求,在kettle中我們可以通過兩種方法實現可變參數,一種是位置變量,另一種是環境變量。 1.位置變量: step1:選擇輸入-->表輸入-->用SQL獲得變

原创 Jupyter的使用及快捷鍵

jupyter  notebook是一個在線編輯器,可以在網頁上編輯程序,在編輯的過程中,每次編輯一行代碼就可以運行一行代碼,運行的結果、圖表可以顯示在代碼的下方,非常適合做筆記或教學,避免出現拿出寫了好久的程序再看時兩眼黑的窘境。 1、

原创 Oracle中delete 和 truncate的區別

一個Oracle服務器是由一個Oracle數據庫(物理概念,二進制文件)和多個Oracle實例(文件在內存中的鏡像)組成的 SQL的類型: 1. DML(Data Manipulation Language 數據操作語言): in

原创 Python3——matplotlib畫圖顯示中文

matplotlib畫圖簡直強大的不要不要的,但在默認情況下不支持中文字符,所以要通過以下設置字體來實現中文顯示。 方法一:使用matplotlib.rc設置字體 font = {'family': 'FangSong',

原创 Python3——列表推導式,字典推導式,集合推導式

# 1. 列表推導式 print('*'*10, '列表推導式', '*'*10) # 使用[]生成list multiples = [i for i in range(30) if i % 3 is 0] print(multiple

原创 Python3——sklearn中迴歸模型的六種評估規則

評價迴歸模型的好壞需要計算真實值與預測值之間的誤差關係,sklearn爲我們提供了6種迴歸模型的評估規則,分別是 1.可釋方差分數(explain variance score) 2.平均絕對誤差(mean absolute error

原创 Python3——文章標題關鍵字提取

思路:1.讀取所有文章標題;2.用“結巴分詞”的工具包進行文章標題的詞語分割;3.用“sklearn”的工具包計算Tf-idf(詞頻-逆文檔率);4.得到滿足關鍵詞權重閾值的詞 結巴分詞詳見:結巴分詞Github sklearn詳見:文本

原创 Python3中str和byte需要顯示轉換

Python2.x中str和byte之間沒有明顯區別,如果不指定編碼格式,默認的編碼是ascii,不進行轉換會出現“UnicodeDecodeError: 'ascii' codec can't decode byte ”的錯誤,因此經常

原创 Python3——文本標題關鍵字提取_jieba分詞+sklearn計算tf-idf詞語權重

功能: 實現文本標題關鍵字的提取 由於jieba自身的jieba.analyse.set_idf_path方法依賴於idf.txt.big的逆文檔率語料庫,因此本例採用sklearn轉換詞向量的方法,依靠包含的文檔來計算TF-IDF的值。

原创 Python3—— 字典(Dictionary) get()方法

 get() 函數返回指定鍵的值,如果值不在字典中返回默認值。 下例實現字典中的鍵值加1,若不存在則添加鍵值計數爲1 freq = {'你好':8, '早上':3} freq['你好'] = freq.get('你好', 0.0)+1.

原创 關鍵詞提取——TF-IDF

詞頻-逆文檔率TF-IDF(Term Frequency-Iverse Document Frequency)是一種依賴語料庫的關鍵詞提取方法。 該方法主要分爲三步: Step1: 計算詞頻(考慮文章長短不同,需要進行標準化)      

原创 Python3——賦值_可迭代

如果賦值對象是可迭代的,那麼賦值給一個變量則結果是整個可迭代對象,賦值給多個變量則結果是該迭代對象對應位置的值。 line = '你好 8' wordslist = line.split(' ') word, freq = line.s