原创 Linux文件內容查看
常用的文件查看命令: cat 由第一行開始顯示檔案內容 tac 從最後一行開始顯示,可以看出tac 是cat 的倒着寫! nl 顯示的時候,順道輸出行號! more 一頁一頁的顯示檔案內容 less 與more 類似,但是比more 更
原创 Spark:Jieba對數據庫裏提取的記錄進行中文分詞
從數據庫裏讀取記錄 我們要創建一個DataFrame來存儲從數據庫裏讀取的表。 首先要創建Spark的入口–SparkSession對象。 需要引入的包: import org.apache.spark.sql.SparkSess
原创 IDEA:在pom.xml中快捷鍵自動添加依賴
原文鏈接:https://www.cnblogs.com/wangzh1guo/p/9723062.html 在POM.XML 中使用快捷鍵 ALT+INSERT 這樣就可以搜索包,選
原创 Linux文件與目錄管理操作
目錄的相關操作 . 代表此層目錄 .. 代表上一層目錄 - 代表前一個工作目錄 ~ 代表『目前使用者身份』所在的家目錄 ~account 代表account這個用戶的home目錄(account是個帳號名稱) cd(變換目錄) 不再贅述
原创 Linux文件壓縮/打包解壓縮命令
常見的打包/壓縮格式 因爲Linux 支援的壓縮指令非常多,且不同的指令所用的壓縮技術並不相同,當然彼此之間可能就無法互通壓縮/解壓縮文件。所以,當你下載某個壓縮文件時,自然就需要知道該文件是由哪種壓縮指令所創建出來的,好用來對照着解壓。
原创 Scala:搜狗自定義詞庫在jieba上的實現(Java也可)
搜狗細胞詞庫:https://pinyin.sogou.com/dict/ 其每個小分類例如【自然科學】下的【物理】都有一個“官方推薦”和若干詞庫。 下載其中一個詞庫後,得到的是scel格式文件,需要轉換成txt才能使用,可使用在線轉
原创 XPath理解:使用extract()時[0]位置的理解
以爬取快代理https://www.kuaidaili.com/free/爲例。 response是整個頁面返回的數據,頁面內容。 response.xpath('//*[@id="list"]/table/tbody/tr')
原创 Selenium模擬瀏覽器入門實戰(+PhantomJS):漫畫爬蟲
雖然自2018年開始,PhantomJS暫停開發,而且新版本Selenium不再支持PhantomJS,而是推薦使用谷歌或者火狐無界面瀏覽器,但是現在仍然可以使用Selenium+PhantomJS,只是warning而已。 這裏有篇博客
原创 文件讀寫模式
r 僅讀,待打開的文件必須存在。w 僅寫,若文件已存在,內容將先被清空。a 僅寫,若文件已存在,內容不會清空。r+ 讀寫,待打開的文件必須存在。w+ 讀寫,若文件已存在,內容將先被清空。a+
原创 Requests數據抓取
Requests簡介 Requests是Python的一個很實用的HTTP客戶端庫,完全滿足如今網絡爬蟲的需求。與Urllib對比,Requests是在Urllib的基礎上進一步封裝的,具備Urllib的全部功能;在開發使用上,語法簡單易
原创 正則表達式踩坑記錄(持續更新)
正則表達式在線測試器:https://c.runoob.com/front-end/854 .*和.*? <li> <div> <div class="_1-7VV"><a href="javascript:;"> <img style
原创 Urllib數據抓取
Urllib簡介 發送請求 請求頭 請求頭參考我的另一篇博客:https://blog.csdn.net/LOG_IN_ME/article/details/81940205 IP代理 import urllib
原创 UnicodeEncodeError: 'gbk' codec can't encode character '\xbb'
【報錯】 UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 29802: illegal multibyte sequence 【解決】 出
原创 TypeError: memoryview: a bytes-like object is required, not 'int'
【報錯】 TypeError: memoryview: a bytes-like object is required, not 'int' 【解決】 以爲是編碼問題,看報錯追溯報錯行,其實是urllib.request.urlopen(
原创 Scrapy爬蟲框架
安裝Scrapy 在安裝Scrapy之前,需要先安裝Twisted。Twisted可以使用pip安裝,如果直接安裝Scrapy,在安裝過程中就會出現報錯信息。 Windows下安裝Scrapy:有很多種方法,本人直接使用pip安裝。(這篇