原创 ValueError: Unicode strings with encoding declaration are not supported.

在寫爬蟲爬取網頁時遇到題目中的問題,完整錯誤如下: def getXpath(req, xpath):     sourcehtml = etree.HTML(req.text)     print(sourcehtml)     n

原创 Type Error:an integer is required的解決方法

在執行open函數操作文件時,會出現題目中的錯誤。 看其他博客說由於從os模塊引入了所有的函數導致的! 我之所以造成這樣的原因是因爲在執行open函數時,在參數操作模式後直接傳入了“utf-8”。 具體解決方法: 在“utf-8”

原创 簡單聊聊HDFS的federation

HDFS 的federation: 兩個或者多個HDFS集羣對外提供統一服務成爲federation 有多個namenode,每個datanode中有屬於每個namenode的數據。 HDFS Federation設計可解決單

原创 聊聊spark這個大數據計算框架

Spark是基於內存計算的大數據並行計算框架。Spark基於內存計算,提高了其在大數據環境下數據處理的實時性,同時保證了高容錯性和高可伸縮性。 Spark項目包含多個緊密集成的組件。Spark的核心是一個對由很多計算任務組成的、運行在

原创 簡單聊聊HDFS的HA

HDFS 的HA 原理: HDFS的HA,指的是在一個集羣中存在兩個NameNode,分別運行在獨立的物理節點上。在任何時間點, 只有一個NameNode是處於Active狀態,另一種是在Standby狀態。 Active Na

原创 HDFS的數據寫入過程

HDFS寫文件流程: 1.客戶端通過調用DistributedFileSystem的create方法創建新文件 2.DistributedFileSystem通過RPC調用namenode去創建一個沒有blocks關聯的新文

原创 spark的架構

在分佈式環境下,Spark 集羣採用的是master/slave結構。Master是對應集羣中的含有master進程的節點,slave是集羣中含有worker進程的節點。Master作爲整個集羣的控制器,負責整個集羣的正常運行;work

原创 Hadoop的簡單介紹

在現在大數據計算領域,開始普及使用spark,但是spark是爲了能獲取比Hadoop更高性能發展起來的。在spark的生態圈裏其中底部存儲可以利用Hadoop的底層存儲部件HDFS,在資源調度方面也可以使用Hadoop的資源調用部件YA

原创 談談Hadoop框架的底層存儲組件HDFS

對於大數據來說,數據量是巨大的,多樣性的,而且後期是要進行本地計算的,這樣的話數據的存儲要求是可靠的來保證數據的不丟失,HDFS就實現了這樣的一個功能。 在處理大數據的過程中,一個數據文件會相應存儲在hdfs上不同節點的不同文件中,

原创 參考書籍

對於博客中的內容,參考了以下書籍的內容,感謝這些作者將自己的知識和經驗拿出來讓我們學習。 spark高級數據分析 spark快速大數據分析 Spark大數據處理:技術、應用與性能優化(全) Spark快速數據處理 點贊

原创 spark與Hadoop的比較

Spark是一個計算框架,而Hadoop中包含計算框架MR和分佈式文件存儲系統HDFS以及資源調度系統YARN。Hadoop還包括在其生態系統上的其他系統,如HBase、Hive等。 1、spark與Hadoop的聯繫 1)sp

原创 HDFS的數據讀取過程

HDFS數據的讀取流程: 1.首先調用FileSystem對象的open方法,其實是一個DistributedFileSystem的實例 2.DistributedFileSystem通過rpc獲得文件的第一個block的l

原创 spark的Driver節點和Executor節點

1.驅動器節點(Driver) Spark的驅動器是執行開發程序中的 main方法的進程。它負責開發人員編寫的用來創建SparkContext、創建 RDD,以及進行 RDD 的轉化操作和行動操作代碼的執行。如果你是用spark sh

原创 spark的集羣管理器

上篇文章談到Driver節點和Executor節點,但是如果想要運行Driver節點和Executor節點,就不能不說spark的集羣管理器。spark的集羣管理器大致有三種,一種是自帶的standalone獨立集羣管理器,一種是依賴於H

原创 對於jsp操作mysql數據庫在頁面不顯示的問題

今天在參照李興華老師的Javaweb開發實戰經典一書時,在使用jsp編寫代碼讀取mysql數據庫中的內容在頁面顯示的時候出現的問題,如下: 這是結果,數據庫的設置如下: 編寫的代碼如下: 這只是出現問題的一部分代碼。 經過排查,發現