原创 個人機器學習筆記==》常見術語

基本術語: 西瓜樣例數據: ID 色澤 根蒂 敲聲 酸甜程度 銷量 1 紅色 蜷縮 濁響 60 100 2 綠色 蜷縮 清脆 80 150 3 紅色 硬挺 清脆 90 300   數據集(dataset):一組數據的集合,如:這裏的3組數

原创 僞漫迷用數據假裝看了一遍《復聯4》

寫在前面的話:因爲本人在職,所以沒有充分的時間寫博客,所以經常是寫好整個框架,再陸陸續續的補充修改。所以如果發現什麼錯誤請留言。 這是一個心情愉悅的週六下午,在免費給公司加了幾個小時班後,突然想看電影了,但是作爲一個junior

原创 個人機器學習筆記==》如何正確進行模型評估

一、誤差: 經驗誤差: 在訓練集樣本中分類錯誤的樣本佔總訓練樣本集的比例,也稱爲訓練誤差 泛化誤差: 在新樣本上的誤差比例。通常用它進行評估模型的好壞。 精度,錯誤率: 錯誤率是指錯誤的樣本數佔樣本總數的比例。 1-錯誤率,精度爲100

原创 Hive官方使用手冊——數據類型

本文爲自己翻譯的譯文,原文地址:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+TypesHive官方使用手冊——數據類型概述這裏列出了Hive中所有支持的數

原创 Spark SQL 基本概念

寫在前面的話:因爲本人在職,所以沒有充分的時間寫博客,所以經常是寫好整個框架,再陸陸續續的補充修改。所以如果發現什麼錯誤請留言。 本文主要目的是記錄在閱讀Spark源碼時發現的SQL基本概念的知識遺漏,這樣可以更加快速的閱讀源碼的

原创 Hive 和Spark 中時間,時區轉換方法

hive : hive> select unix_timestamp('2018-11-07T17:24:09.313-05:00')     > ; OK _c0 NULL Time taken: 1.061 seconds, Fetc

原创 Spark-SQL常用調優參數彙總

本文主要是日常工作的積累,主要是簡單羅列了常見的spark SQL的參數及其含義。 #Job ID /Name spark.app.name=xxx #yarn 進行調度,也可以是mesos,yarn,以及standalone

原创 Python 數據可視化,常用看這一篇就夠了

文章目錄前言可視化視圖分爲 4 類,散點圖折線圖直方圖條形圖箱線圖餅圖熱力圖蜘蛛圖二元變量分佈成對關係總結 前言 如果你想要用 Python 進行數據分析,就需要在項目初期開始進行探索性的數據分析,這樣方便你對數據有一定的瞭解。其

原创 利用數據可視化技術來學習鑽石鑑別

文章目錄數據背景初(粗)看數據數據簡單清理數據可視化總結: 數據背景 A data frame with 53940 rows and 10 variables: 這是一個10列53940行的數據集。下面是它每個屬性的介紹:

原创 參數估計與假設檢驗的通俗理解

文章目錄參數估計假設檢驗 參數估計 For 高手: 參數估計(parameter estimation),統計推斷的一種。根據從總體中抽取的隨機樣本來估計總體分佈中未知參數的過程。從估計形式看,區分爲點估計與區間估計:從構造估計量