原创 安裝配置FTP服務器

sudo yum -y install vsftpd sudo systemctl enable vsftpd 開機啓動 開放防火牆 firewall-cmd --zone=public --add-port=21/tcp --

原创 微博高級搜索爬蟲

最近做了幾個關於微博搜索的需求,總結經驗如下: 1、需要登錄,但是採集了近10萬的數據也沒有碰到被封賬號的情況 2、單條博文最多可以採集500左右的評論 3、採集評論容易封ip 最後我使用的是python3+selenium+ch

原创 python抓取微信公衆號文章閱讀量

  關於微信公衆號文章的評論數網上的教程是可以用的,這裏就不另外講了,。這裏要說的我抓閱讀量的過程,太tm坎坷了,足足花了我10個小時,幹到半夜12點半有想法了又起來開機!!不過好在最終實現了全代碼運行,不需要模擬器或者手機之類的

原创 python抓取微信公衆號文章及評論(附過程)

需求:抓取人民網微信公衆號的文章和評論 使用工具: fiddler python3 微信pc客戶端 破解過程:    首先 使用fiddler對微信pc端抓包,需要配置https證書,另外最好加個filter方便抓取 然後

原创 新浪微博粉絲爬蟲 python

首先,說遇到的坑。web端只能抓前100個粉絲,但是手機端可以抓前5000個。 移動端鏈接抓包抓不到,最後從知乎上找到了移動端的鏈接 https://m.weibo.cn/api/container/getIndex?contai

原创 安卓hook工具Frida怎麼安裝

雖然網上一堆教程,但是我能說我搞定整個環境用了整整3天!! 中間踩了一堆坑,總之就是frida需要的各部分版本需要能互相兼容!最後我成功的版本是python3.7+frida 12.7.5+ frida-server x86 +w

原创 英文詞庫構建

以前做的功能,爲了快速處理英文翻譯存數據庫或者調用api速度都不行,所以必須存成文件。這裏分享下方案。 詞庫來源從linux自帶的可安裝詞庫中選了最大的american-huge作爲詞庫,補充了一些零碎的詞庫。最後獲取到了31w詞

原创 個人微信通訊錄爬取

碰到了這個需求,不過因爲網上直接有就copy了一下,修改了一下代碼兼容python2。 需要手機掃碼登陸,然後代碼會把通訊錄保存成myFriends.txt。 另外說明下微信能獲取的主要字段是微信名,頭像,性別,身份等能直接看到的

原创 使用地圖API獲取某地周邊poi座標

測試了百度地圖和騰訊地圖的api。百度地圖沒有開放周邊地圖的web調用接口。所以最後只能用騰訊地圖api實現。 參考代碼如下 # -*- coding: utf-8 -*- """ File Name: gaode_dit

原创 淘口令在線生成器

     去年公司要求做一個推廣淘寶商品的小程序,因爲微信的封殺所以必須要用淘口令實現,但是原先的isv生成接口taobao.wireless.share.tpwd.create居然被淘寶下線了,所以現在只能在網上找別人的實現,但

原创 小白的網站seo經驗

對於一個網站來說,做的好不好不是最重要的,重要的是有沒有人看。 SEO前期準備 網站首頁是最重要的,最好一開始就準備好,後面修改都會導致降權。 1、確定網站標題。後面修改標題會導致排名的劇烈下降,所以要起好標題,我的建議就是標題必

原创 百度搜索爬蟲 百度安全驗證 頁面問題

近來做seo優化需要用百度搜索查排名,但是搜索經常發現頁面沒有返回搜索結果,而是返回了百度安全驗證頁面。 頁面源代碼如下 <!DOCTYPE html> <html lang="zh-CN"> <head> <meta c

原创 youtube視頻下載及視頻處理經驗總結

youtube作爲世界最大的視頻網站,很多國內做視頻的都會通過youtube來採集加工。在這裏我總結下youtube視頻採集處理的經驗。 一、搜索 youtube視頻搜索主要包括頻道採集以及關鍵詞搜索,直接python+reque

原创 紅黑樹到底是啥

俺是非科班出身,所以理解紅黑樹用了好久,下面說說自己的理解,如果有什麼錯誤的地方(肯定是有的。。。),輕噴。 首先,我們知道查詢最好的數據結構是平衡二叉樹,但是對於平衡二叉樹(所有節點的左右子樹高度差不超過1)。不管我們是執行插入

原创 TCP三次握手,TCP/IP數據包大小

名詞解釋 SYN:同步序列編號(Synchronize Sequence Numbers)是TCP連接的第一個包,在客戶機和服務器之間建立正常的TCP網絡連接時,客戶機首先發出一個SYN消息,服務器使用SYN+ACK應答表示接收到