台部落金戈拉斯

基本術語：西瓜樣例數據： ID 色澤根蒂敲聲酸甜程度銷量 1 紅色蜷縮濁響 60 100 2 綠色蜷縮清脆 80 150 3 紅色硬挺清脆 90 300 數據集(dataset)：一組數據的集合，如：這裏的3組數

2020-07-03 16:19:34

寫在前面的話：因爲本人在職，所以沒有充分的時間寫博客，所以經常是寫好整個框架，再陸陸續續的補充修改。所以如果發現什麼錯誤請留言。這是一個心情愉悅的週六下午，在免費給公司加了幾個小時班後，突然想看電影了，但是作爲一個junior

2020-07-03 16:19:34

一、誤差：經驗誤差：在訓練集樣本中分類錯誤的樣本佔總訓練樣本集的比例，也稱爲訓練誤差泛化誤差：在新樣本上的誤差比例。通常用它進行評估模型的好壞。精度，錯誤率：錯誤率是指錯誤的樣本數佔樣本總數的比例。 1-錯誤率，精度爲100

2020-07-03 16:19:34

本文爲自己翻譯的譯文，原文地址：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+TypesHive官方使用手冊——數據類型概述這裏列出了Hive中所有支持的數

2020-07-03 16:19:34

寫在前面的話：因爲本人在職，所以沒有充分的時間寫博客，所以經常是寫好整個框架，再陸陸續續的補充修改。所以如果發現什麼錯誤請留言。本文主要目的是記錄在閱讀Spark源碼時發現的SQL基本概念的知識遺漏，這樣可以更加快速的閱讀源碼的

2020-07-03 16:19:34

hive : hive> select unix_timestamp('2018-11-07T17:24:09.313-05:00') > ; OK _c0 NULL Time taken: 1.061 seconds, Fetc

2020-07-03 16:19:34

本文主要是日常工作的積累，主要是簡單羅列了常見的spark SQL的參數及其含義。 #Job ID /Name spark.app.name=xxx #yarn 進行調度，也可以是mesos，yarn，以及standalone

2020-07-03 16:19:34

文章目錄前言可視化視圖分爲 4 類，散點圖折線圖直方圖條形圖箱線圖餅圖熱力圖蜘蛛圖二元變量分佈成對關係總結前言如果你想要用 Python 進行數據分析，就需要在項目初期開始進行探索性的數據分析，這樣方便你對數據有一定的瞭解。其

2020-05-21 19:16:13

文章目錄數據背景初（粗）看數據數據簡單清理數據可視化總結：數據背景 A data frame with 53940 rows and 10 variables: 這是一個10列53940行的數據集。下面是它每個屬性的介紹：

2020-05-21 19:16:13

文章目錄參數估計假設檢驗參數估計 For 高手：參數估計（parameter estimation），統計推斷的一種。根據從總體中抽取的隨機樣本來估計總體分佈中未知參數的過程。從估計形式看，區分爲點估計與區間估計：從構造估計量

2020-05-21 19:16:13