原创 利用m3u8下載ts併合併成一個完整視頻

我們在用網頁看視頻時,很多時候視頻是下載不下來的,當然這裏面有很多技術來防止我們下載視頻,接下來我將破解使用m3u8格式來下載視頻。一般情況下,我們使用瀏覽器中Network來查看服務器和本機的數據傳輸,而視頻的原地址有時也會發現,但使用

原创 下載m3u8加密視頻

原本寫了一個利用m3u8下載ts併合併成一個完整視頻的文章,但有人問我說ts視頻下載下來看不了,我想很大可能是下載下載的視頻是加密的,所以這次我準備寫一個下載加密視頻的方法,這個方法不需要代碼,按照一步步走就行。 一、下載ts視頻 如利用

原创 利用m3u8下載ts並合併成一個完整視頻

我們在用網頁看視頻時,很多時候視頻是下載不下來的,當然這裏面有很多技術來防止我們下載視頻,接下來我將破解使用m3u8格式來下載視頻。一般情況下,我們使用瀏覽器中Network來查看服務器和本機的數據傳輸,而視頻的原地址有時也會發現,但使用

原创 SwitchyOmega打開谷歌卻打開youtube解決辦法

SwitchyOmega我可以打開谷歌搜索,但我打不開youtube,我試了一下,把shadowsocks在電腦上打開,但不要啓動它,把“啓動系統代理給關了”。把ss打開不啓動它,SwitchyOmega就可以打開youtube了。 不知

原创 tor瀏覽器安裝過程中遇到的問題

我在安裝過程參考了Tor獲得最新網橋ip及設置方法,http://www.mottoin.com/reports/112817.html兩篇文章,不過在安裝過程中也遇到了一些問題,總結一下。 一、配置不成功   一開始我是按照集成的網橋進

原创 利用Word2vec將旅遊評論數據轉化爲詞向量

實訓結束有段時間啦,我準備吧實訓的所有的東西整理整理,然後安心複習考研。 前面我將所有的評論把各個網站的旅遊數據給扒了下來,文章鏈接:百度旅遊、大衆點評、驢媽媽、貓途鷹、攜程關於評論的爬蟲總結(附源碼)。 我們將所有扒了下來之後數據整理之

原创 爬取鏈家網站的北京租房信息

本來準備這個暑假好好複習,但學校安排暑期實踐,既然學校安排這個,而且我自己也覺得需要提高一下自己的能力,所以靜下心來做點事吧。我們要做到項目是分析北京地區的租房的信息分析。我們需要做的是爬取鏈家網站上北京地區的租房信息。鏈家作爲國內比較出

原创 selenium短信轟炸雛形

  最近在研究selenium,以前聽說過,說它是什麼自動化測試的工具,反正就是覺得高大上,但一直沒有使用的必要,就是最近看到這個可以和爬蟲結合起來,我就想試試看。 首先安裝selenium,命令行pip install selenium

原创 CNN原理

一、卷積對圖像(不同的數據窗口數據)和濾波矩陣(一組固定的權重:因爲每個神經元的多個權重固定,所以又可以看做一個恆定的濾波器filter)做內積(逐個元素相乘再求和)的操作就是所謂的『卷積』操作,也是卷積神經網絡的名字來源。如圖所示,1*

原创 百度旅遊、大衆點評、驢媽媽、貓途鷹、攜程關於評論的爬蟲總結(附源碼)

驢媽媽、貓途鷹和攜程的評論爬蟲其實是是AXAJ來進行翻頁,詳情請看我以前的一篇文章  爬取Ajax動態加載網頁--以美團爲例 但關於大衆點評和百度旅遊其實有注意事項的。百度旅遊的頁面是這樣的 這裏的45其實可以定位到某個評論頁面,通過這

原创 利用最大熵模型來訓練詞向量

前面我們已經訓練好詞向量了,利用Word2vec將旅遊評論數據轉化爲詞向量,這篇文章主要介紹用最大熵模型訓練我們上文得到的詞向量。 最終代碼已上傳到github上,傳送門​​​​​​​ 一、讀取數據 讀取上一級的得到的詞向量,並劃分測試集

原创 爬取Ajax動態加載網頁--以美團爲例

在實訓期間我們需要爬取美團、攜程等網頁關於某旅遊景區的評論,但是我們發現我無法通過以前的方法爬取他們,加載相應的URL都無法加載評論,所以我就想這是不是通過其他方法加載網頁。網上查了一下,發現這種加載評論的方式是Ajax動態加載網頁,每次

原创 通過ID獲得鏈接地址

這篇文章是在我的上一篇文章上改進的,文章地址:通過requests、BeautifulSoup下載四虎網站上的所有美女圖片上一篇文章我們獲取鏈接的地址方式是通過在主索引頁面的源碼中找到各個圖片的地址,但我們

原创 將txt文件轉化爲csv文件

這兩天在寫爬蟲,但由於前期只想將數據保存下來就行,後期直接進行預處理就行,但突然發現在批量預處理時txt文件明顯比不上csv格式,所以我需要將我已經爬取的txt文件保存爲csv格式。這是讀取txt文件,並將每行不需要的數據給剔除掉,因爲爬

原创 MaxentClassifier.train()遇到錯誤AttributeError: 'list' object has no attribute 'items'

我在訓練最大熵模型時,遇到錯誤 x["index"] = range(len(x)) xdic = x.set_index("index").T.to_dict("list") train = [] for i in range(len(