原创 Spark1.6基礎知識筆記(含安裝配置流程)

1.Spark是用於大數據處理的集羣計算框架,它不以MapReduce作爲執行引擎,而是使用自己的分佈式運行環境在集羣上工作,可以在YARN上運行並與HDFS配合。Spark最突出的特點是能將作業與作業之間產生的大規模中間工作數據集存儲在

原创 大數據算法基礎筆記

一、分類算法:對數據分類和預測 1. KNN算法即K近鄰(K Nearest Neighbour)算法,是一種基本的分類算法,其主要原理是:對於一個需要分類的數據,將其和一組已經分類標註好的樣本集合進行比較,得到距離最近的K個樣本,K個樣

原创 網絡通信協議綜述筆記

一、網絡協議與網絡分層 1. 當想要買一個商品,常規的做法就是打開瀏覽器,輸入購物網站的地址。瀏覽器就會顯示一個頁面,它之所以能夠顯示這個頁面,是因爲它收到了一段來自HTTP協議的響應。拿考拉海購來舉例,格式就像下面這樣: HTTP/1

原创 Linux容器化原理筆記

一、容器 1. 從一臺物理機虛擬化出很多虛擬機這種方式,一定程度上實現了資源創建的靈活性。但是同時會發現,虛擬化的方式還是非常複雜的, CPU、內存、網絡、硬盤全部需要虛擬化,還有性能損失。那有沒有一種更加靈活的方式,既可以隔離出一部分資

原创 Spark高級分析與機器學習筆記

一、高級分析和機器學習概覽 1. 高級分析是指各種旨在發現數據規律,或根據數據做出預測和推薦等核心問題的技術。機器學習最佳的模型結構要根據要執行的任務制定,最常見的任務包括: (1)監督學習,包括分類和迴歸,其目標是根據數據項的各種特徵預

原创 Spark常見報錯與問題解決方法

1. org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow 原因:kryo序列化緩存空間不足。 解決方法:增加參數,--conf spark

原创 Linux進程間通信原理筆記

一、進程間通信 1. 在講進程間通信之前,先來講講管道模式。記得最初學Linux命令的時候,有下面這樣一行命令: ps -ef | grep 關鍵字 | awk '{print $2}' | xargs kill -9 這裏面的豎線“|

原创 Spark結構化API—DataFrame,SQL和Dataset筆記

一、結構化API概述 1. 結構化API是處理各種數據類型的工具,可處理非結構化的日誌文件、半結構化的CSV文件以及高度結構化的Parquet文件。結構化API指以下三種核心分佈式集合類型的API:Dataset類型、DataFrame類

原创 Linux輸入輸出系統原理筆記

一、輸入與輸出 1. 對於操作系統來講,控制各種輸入輸出設備是一件複雜的事情,因爲這麼多設備,形狀、用法、功能都不一樣。因此,CPU並不直接和設備打交道,它們中間有一個叫作設備控制器(Device Control Unit)的組件,例如硬

原创 Linux內存管理原理筆記

一、內存管理 1. 每個進程應該有自己的內存空間。內存空間都是獨立的、相互隔離的。對於每個進程來講,看起來應該都是獨佔的。進程不能直接訪問物理內存地址,因爲假如三個程序同時訪問或寫入同一個物理內存地址,就會產生衝突或數據安全問題。 爲了解

原创 Linux系統初始化基礎原理筆記

一、x86架構 1. x86架構奠定了當今計算機開放平臺的標準和基礎,其中最經典的一款處理器是8086處理器。雖然它已經很老了,但是現在操作系統中的很多特性都和它有關,並且一直保持兼容。它的結構示意圖如下所示: 8086處理器內部有8個

原创 計算機處理器基礎原理筆記

一、CPU指令電路 1. 計算機每執行一條指令的過程,可以分解成這樣幾個步驟。 (1)Fetch(取得指令),也就是從PC寄存器裏找到對應的指令地址,根據指令地址從內存裏把具體的指令,加載到指令寄存器中,然後把PC寄存器自增,在未來執行下

原创 Ubuntu18.04更新後secure boot被改動導致無法進入win10系統

之前更新Ubuntu18.04上的軟件,安裝更新時跳出來一個對話框提示設置secure boot密碼,沒細看就寫了開機密碼點了next,更新完使用Linux一切正常,但是第二天開機想要通過grub進入win10時,一直進不去提示“正在準備

原创 計算機組成原理入門知識概念

一、馮·諾伊曼結構 1.撰寫的程序、打開的瀏覽器、運行的遊戲,都要加載到內存裏才能運行。程序讀取的數據、計算得到的結果,也都要放到內存裏。存放在內存裏的程序和數據,需要被 CPU 讀取,CPU 計算完成之後,還要把數據寫回內存。而主板的芯

原创 圖論基礎知識與常見圖處理算法

本筆記涉及代碼:https://github.com/hackeryang/Algorithms-Fourth-Edition-Exercises 1.圖論應用廣泛,例如地圖中規劃最短路線、搜索引擎中的網頁鏈接(結點爲網頁)、電路板上元件