原创 Linux文件內容查看

常用的文件查看命令: cat 由第一行開始顯示檔案內容 tac 從最後一行開始顯示,可以看出tac 是cat 的倒着寫! nl 顯示的時候,順道輸出行號! more 一頁一頁的顯示檔案內容 less 與more 類似,但是比more 更

原创 Spark:Jieba對數據庫裏提取的記錄進行中文分詞

從數據庫裏讀取記錄 我們要創建一個DataFrame來存儲從數據庫裏讀取的表。 首先要創建Spark的入口–SparkSession對象。 需要引入的包: import org.apache.spark.sql.SparkSess

原创 IDEA:在pom.xml中快捷鍵自動添加依賴

原文鏈接:https://www.cnblogs.com/wangzh1guo/p/9723062.html 在POM.XML 中使用快捷鍵 ALT+INSERT     這樣就可以搜索包,選

原创 Linux文件與目錄管理操作

目錄的相關操作 . 代表此層目錄 .. 代表上一層目錄 - 代表前一個工作目錄 ~ 代表『目前使用者身份』所在的家目錄 ~account 代表account這個用戶的home目錄(account是個帳號名稱) cd(變換目錄) 不再贅述

原创 Linux文件壓縮/打包解壓縮命令

常見的打包/壓縮格式 因爲Linux 支援的壓縮指令非常多,且不同的指令所用的壓縮技術並不相同,當然彼此之間可能就無法互通壓縮/解壓縮文件。所以,當你下載某個壓縮文件時,自然就需要知道該文件是由哪種壓縮指令所創建出來的,好用來對照着解壓。

原创 Scala:搜狗自定義詞庫在jieba上的實現(Java也可)

搜狗細胞詞庫:https://pinyin.sogou.com/dict/  其每個小分類例如【自然科學】下的【物理】都有一個“官方推薦”和若干詞庫。 下載其中一個詞庫後,得到的是scel格式文件,需要轉換成txt才能使用,可使用在線轉

原创 XPath理解:使用extract()時[0]位置的理解

以爬取快代理https://www.kuaidaili.com/free/爲例。 response是整個頁面返回的數據,頁面內容。  response.xpath('//*[@id="list"]/table/tbody/tr')

原创 Selenium模擬瀏覽器入門實戰(+PhantomJS):漫畫爬蟲

雖然自2018年開始,PhantomJS暫停開發,而且新版本Selenium不再支持PhantomJS,而是推薦使用谷歌或者火狐無界面瀏覽器,但是現在仍然可以使用Selenium+PhantomJS,只是warning而已。 這裏有篇博客

原创 文件讀寫模式

r       僅讀,待打開的文件必須存在。w      僅寫,若文件已存在,內容將先被清空。a       僅寫,若文件已存在,內容不會清空。r+     讀寫,待打開的文件必須存在。w+    讀寫,若文件已存在,內容將先被清空。a+

原创 Requests數據抓取

Requests簡介 Requests是Python的一個很實用的HTTP客戶端庫,完全滿足如今網絡爬蟲的需求。與Urllib對比,Requests是在Urllib的基礎上進一步封裝的,具備Urllib的全部功能;在開發使用上,語法簡單易

原创 正則表達式踩坑記錄(持續更新)

正則表達式在線測試器:https://c.runoob.com/front-end/854 .*和.*? <li> <div> <div class="_1-7VV"><a href="javascript:;"> <img style

原创 Urllib數據抓取

Urllib簡介  發送請求    請求頭   請求頭參考我的另一篇博客:https://blog.csdn.net/LOG_IN_ME/article/details/81940205   IP代理 import urllib

原创 UnicodeEncodeError: 'gbk' codec can't encode character '\xbb'

【報錯】 UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 29802: illegal multibyte sequence 【解決】 出

原创 TypeError: memoryview: a bytes-like object is required, not 'int'

【報錯】 TypeError: memoryview: a bytes-like object is required, not 'int' 【解決】 以爲是編碼問題,看報錯追溯報錯行,其實是urllib.request.urlopen(

原创 Scrapy爬蟲框架

安裝Scrapy 在安裝Scrapy之前,需要先安裝Twisted。Twisted可以使用pip安裝,如果直接安裝Scrapy,在安裝過程中就會出現報錯信息。 Windows下安裝Scrapy:有很多種方法,本人直接使用pip安裝。(這篇