原创 編譯型語言和解釋型語言

前言 旁邊一小夥問:python爲什麼比c運行效率低? 我說:python是解釋型語言 小夥問:啥是解釋型語言? … 概念 編譯型語言 解釋型語言 一定要詳細閱讀 簡單概括 兩個語言最終都必須轉換爲二進制代碼(機器語言) 編譯型語言在

原创 Python的安裝

前言 很早之前寫過Python基於Windows系統的安裝,寫的比較簡單,現在重新整理一下基於Windows和Linux系統安裝Python。現在Python已經到3.7.4版本,但是一般不要輕易使用最新版本作爲生產環境,不然可能會浪

原创 Anaconda不同平臺的安裝方式

前面已經寫過關於Anaconda的簡介和基於Windows的安裝,接下來將三個平臺安裝的的方式都做個簡單總結 簡介 Anoconda是不錯的選擇,專門用於科學計算的Python發行版,支持Windows、Linux和Mac系統,可以很

原创 大數據分析項目生命週期

前言 這裏說的分析是狹義上的數據分析,並不包含數據挖掘,它們之間具體的區別後續文章會詳細描述 這裏只做一個簡單的總結如下表: 差異角度 數據分析 數據挖掘 定義 描述和探索性分析,評估現狀和修正不足 技術性的“採礦”,發

原创 Spark將數據寫入Mysql

前言 我在很早之前用spark讀取本地文件然後使用如下代碼將數據寫入到mysql df.write.format("jdbc") .mode(SaveMode.Append) .option("url", "j

原创 如何在Windows環境下使用PyCharm開發PySpark

1.安裝Python環境 Windows搭建python環境請參考 2.安裝Spark環境 官網下載spark並解壓 3.配置Windows環境 HADOOP_HOME:D:\bigdata\hadoop-2.8.4 SPARK_HO

原创 計算機考研信息彙總

北郵考研信息 北理考研信息

原创 Hive開窗函數

轉載

原创 Hadoop集羣常用命令

hadoop 上傳文件 hadoop fs -put a.txt /a/b 下載文件 hadoop fs -get /a/b/* ./ 查看文件 hadoop fs -ls /a/b 遞歸刪除文件夾 hadoop

原创 Linux用戶管理和文件權限

Linux是一個多用戶多任務的系統,可以支持多個用戶接入使用,如果給你一個Linux系統,你創建了很多用戶,意義並不大,一般是一些文件需要給幾個用戶使用,但其他用戶無法使用的時候會創建多個用戶,然後給用戶賦予不同的訪問次文件的權限。

原创 Python爬蟲之(九)數據提取-XPath

介紹 之前 BeautifulSoup 的用法,這個已經是非常強大的庫了,不過還有一些比較流行的解析庫,例如 lxml,使用的是 Xpath 語法,同樣是效率比較高的解析方法。如果大家對 BeautifulSoup 使用不太習慣的話,

原创 Python爬蟲之(七)數據提取-正則表達式

提取數據 在前面我們已經搞定了怎樣獲取頁面的內容,不過還差一步,這麼多雜亂的代碼夾雜文字我們怎樣把它提取出來整理呢?下面就開始介紹一個十分強大的工具,正則表達式! 正則表達式是對字符串操作的一種邏輯公式,就是用事先定義好的一些特定字

原创 Python爬蟲之(八)數據提取-Beautiful Soup

Beautiful Soup的簡介 Beautiful Soup提供一些簡單的、python式的函數用來處理導航、搜索、修改分析樹等功能。它是一個工具箱,通過解析文檔爲用戶提供需要抓取的數據,因爲簡單,所以不需要多少代碼就可以寫出一個

原创 Python爬蟲之(六)requests庫的用法

介紹 對了解一些爬蟲的基本理念,掌握爬蟲爬取的流程有所幫助。入門之後,我們就需要學習一些更加高級的內容和工具來方便我們的爬取。那麼這一節來簡單介紹一下 requests 庫的基本用法 安裝 pip install requests

原创 Python爬蟲之(五)Cookie和URLError

Cookie 爲什麼要使用Cookie呢? Cookie,指某些網站爲了辨別用戶身份、進行session跟蹤而儲存在用戶本地終端上的數據(通常經過加密) 比如說有些網站需要登錄後才能訪問某個頁面,在登錄之前,你想抓取某個頁面內容是不允