原创 爬取抖音無水印視頻

  抖音是當前比較火的app,有時候需要根據需求去抓取指定內容的視頻;本次抓取的是關於漫畫的,如果想要抓取其他的,直接替換關鍵字即刻。 另外說明:關於請求的headers還請用自己的,爲了方便大家測試我就把我當放上去了,不要把我的賬號跑壞

原创 筆記雜談

數據科學競賽:Kaggle、天池。。。 機器學習基礎:1、微積分基礎(泰勒公式、導數和梯度);2、概率論與統計(概率公式、常見分佈、常見統計量);3、線性代數(矩陣)

原创 emoji mysql python

在數據保存到mysql時,遇到大量的🎄🌚🎃❤️。。。等 emoji 字符,無法寫入 方法1: 在建立存儲的字段時,字段類型設置爲json。(注:1、在修改數據類型時,數據庫中不能有數據;2、讀取出來的數據爲字符串,並需要清除收尾的引號)

原创 2018年最後的一個工作日

最後一個工作日,值得慶幸的是今天的工作突破了種種困難終於有了很好的思路,繞過來各種坑終於可以抓數據了,剩下的等來年在寫吧。2018年最後的一個工作日,明天就是最後一天,同事提及一個電影《地球最後的夜晚》馬上要上映,去看看也是好的。有時候在

原创 爬蟲——headers中的神坑

1、Content-Length:         最好在headers中不要加這個字段,通過工具測試是好好的,一寫入爬蟲就報錯:(failed 1 times): 400 Bad Request。一個下午找不到哪裏錯了,吐血。。。。。

原创 機器學習相關庫下載

    1、Windows環境 illustration2vec 插畫轉換爲語義向量: GitHub源碼:https://github.com/rezoo/illustration2vec 完整版源碼和訓練庫:https://contri

原创 p站爬蟲:快速上手爬高檔圖片

  廢話不多說,直接擼代碼,簡單又粗暴:https://github.com/hilqiqi0/crawler/tree/master/pixiv-crawl 這是一個關於pixiv網站的一個登陸爬蟲,採用的是scrapy框架,另外需要翻

原创 分佈式爬蟲——爬取bilibili視頻信息資源

  廢話不多說,直接上代碼:https://github.com/hilqiqi0/crawler/tree/master/simple/bilibili%20-%20redis 一、項目介紹: 爬取bilibili網站上的全部視頻信息(

原创 網站收藏

      視頻原文件解析: 1、https://www.parsevideo.com/ 2、http://www.tutujiexi.com/   被禁: 1、https://www.behance.net/        (被禁時間:

原创 手機app數據爬取難度等級評估

  一般來說網絡數據爬取有兩個來源,一個是網頁,另一個是移動終端(手機app);隨着移動終端的普及和推廣,更多的用戶甚至已經放棄了網頁的訪問,因此爬取移動端的數據更爲合適。 但是,爬取移動端app數據具有不同的難度等級;與網頁相比,移動端

原创 【轉載】Windows10用fiddler抓包Android應用(解決手機設置代理後無法上網,設置只抓app包)

轉載:https://blog.csdn.net/jianglianye21/article/details/81743129 1、環境準備 1、電腦上安裝fiddler 2、手機和電腦在同一個局域網內 2、設置 1.fiddler

原创 大衆點評 —— 爬蟲 小樣例

這是一個大衆點評數據的爬取,爬取信息包含:是否含有廣告推廣,商店名稱,電話號碼;並將爬取的數據保存到csv文件以及mysql數據庫。 數據採集視頻:https://www.bilibili.com/video/av32892172/ gi

原创 爬蟲:Instagram信息爬取

  GitHub源碼參考(代碼和爬取數據):https://github.com/hilqiqi0/crawler/tree/master/simple/instagram   爬取的每個數據保存格式:{ 圖片的訪問路徑,評論數,點贊數,

原创 人工智能(Machine Learning)—— 機器學習

機器學習 一、人工智能、機器學習與深度學習 人工智能        機器學習               經典機器學習               基於神經網絡的機器學習                      淺層學習        

原创 人工智能(numpy)—— 數據分析

一、Numpy是什麼?         1.Numrical Python,數值的Python,應用於數值分析領域的Python語言工具;         2.Numpy是一個開源的科學計算庫;         3.Numpy彌補了作爲通