原创 TF-IDF(term frequency-inverse document frequency,詞頻-逆文檔頻率)計算及Python部分代碼

  一、基本定義及公式 TF-IDF用來評估一個字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨着它在文件中出現的次數成正比增加,但同時會隨着它在語料庫中出現的頻率反比下降。如果某個單詞在一篇文章中出現的頻率TF高

原创 Spark原理與機制初探

1.Spark     作爲Spark生態系統的核心,Spark主要提供基於內存計算的功能,不僅包含Hadoop的計算模型MapReduce,還包含很多其他的API,如reduceByKey、groupByKey、foreach、join

原创 華爲雲MapReduce服務-創建簡記

    近日想要對MapReduce服務探討一下,來搭建Spark的分析集羣,故此記下具體實施的步驟: 一、創建對象存儲obs(桶服務)         ① 登陸華爲賬號,在控制檯內選擇存儲服務,找到對象存儲obs         ② 

原创 Python基礎學習一:輸入輸出,標識符,字符串

這個Python基礎學習序列是基於北風網視頻教程所記的筆記,權當是一種學習記錄,只有參考價值,轉載須經過本人同意方可。 ①輸入輸出     print(‘請輸入你的名字’)     name = input()     print(‘我的

原创 Python基礎學習二:列表,字典,深拷貝與淺拷貝

④使用pop()方法刪除元素:pop方法用於移出列表中的一個元素(默認是最後一個元素),可以指定元素索引,並且返回該元素的值。     使用del語句刪除元素:如果知道要刪除的元素在列表中的位置,可使用del語句刪除元素,元素一旦被刪除之

原创 解決Hive: java.lang.ClassNotFoundException Class org.apache.hive.hcatalog.data.JsonSerDe not found

在啓動Hive時,創建一個表並對其添加一個JSON格式匹配 ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe': 問題出現原因如下圖的問題:  出現該問題的原因主要在於

原创 Spark編程模型(二):RDD簡介

    RDD是Spark應用開發過程中最爲基本也是最爲重要的一類數據結構,RDD被定義爲只讀、分區化的記錄集合,更爲通俗來講,RDD是對原始數據的進一步封裝,封裝導致兩個結果:第一個結果是數據訪問權限被限制,數據只能被讀,而無法被修改;

原创 Spark編程模型(一):SparkContext的作用

    開發人員根據自己的需求,在main函數中調用Spark提供的數據操縱接口,利用集羣來對數據執行並操作。Spark爲開發人員提供了兩類抽象接口。第一類抽象接口是彈性分佈式數據集RDD,其是對數據集的抽象封裝,開發人員可以通過RDD提

原创 一、Spark原理與機制初探

1.Spark     作爲Spark生態系統的核心,Spark主要提供基於內存計算的功能,不僅包含Hadoop的計算模型MapReduce,還包含很多其他的API,如reduceByKey、groupByKey、foreach、join