原创 爬蟲基礎(續)

第二章、爬蟲基礎 2.2 網頁基礎 2.2.1 網頁的組成 網頁分爲三大部分—-HTML、CSS和JavaScript 1.HTML(內容和結構) 網頁的基礎框架就是HTML 開發者工具中Elements選項卡下左邊爲htm

原创 python學習筆記9---scrapy框架

糗事百科段子之scrapy爬蟲 前期工作 創建項目:進入cmd中,切換路徑到某個工作目錄下,創建項目scrapy startproject 項目名稱 創建爬蟲文件:首先到上述創建項目的目錄下cd 項目名稱,scrapy gens

原创 python學習筆記5---(python網絡爬蟲-網絡請求)

urllib庫 urllib是最基本的網絡請求庫。可以模擬瀏覽器行爲,向指定瀏覽器發送請求,並保存返回的數據。 urlopen函數 在urllib庫中,所有和網絡請求相關的方法,都集到urllib.request模塊下。 from

原创 基本庫的使用

第三章、基本庫的使用 3.1 使用urllib urllib是python內置的HTTP請求庫,也就是不需要額外安裝即可使用,它包含4個模塊。 request:模擬發送請求 error parse:提供許多URL處理方法,比

原创 關於Jupyter的小知識

一、更改Jupyter notebook的工作空間 *方式1 在cmd中輸入 jupyter notebook –generate-config 找到配置文件位置,將該.py中 # The directory to use fo

原创 查看安裝目錄

通用查看文件安裝目錄:查看安裝目錄可以右鍵點擊快捷方式,找到打開文件所在的位置。 Mysql安裝路徑:win+r輸入services.msc,找到名稱爲MySQL服務器名稱的項目,比如MySQL80,右鍵—屬性,可執行文件路徑就爲

原创 查找並設置mysql配置文件

Windows下查看mysql的配置文件 在安裝目錄下找my.ini(根據自己系統設置,可能沒有.ini後綴)文件,如果沒有則可能在隱藏文件下,我默認安裝在C盤,進入C盤目錄,點文件選項中查看選項卡,勾選隱藏的項目,則C盤下多一個

原创 DBeaver連接MySQL出現問題

time zone 時區錯誤 DBEAVER連接MySQL運行報錯The server time zone value ‘Öйú±ê׼ʱ¼ä’ is unrecognized or represents more than

原创 Python中的LDA - 如何網格搜索最佳主題模型?

翻譯自該鏈接 LDA in Python – How to grid search best topic models? Python中的LDA - 如何網格搜索最佳主題模型? Python的Scikit Learn使用Late

原创 主題模型可視化

翻譯自該鏈接 主題建模可視化 - 如何呈現LDA模型的結果? 1、 Introduction 在這篇文章中,我們討論了基於gensim包可視化主題模型(LDA)的輸出和結果的技術。 在使用gensim進行主題建模時,我們遵循結構化

原创 python學習筆記7---數據存儲

dump成json字符串以及編碼問題 import json persons = [ { 'username':"蔡", 'age':18 }, { 'username':"時", 'age':19 } ] with open('p

原创 python學習筆記8---爬蟲進階

多線程概念和threading模塊介紹 沒有多線程 import threading def coding(): for x in range(3): print('正在寫代碼%s'%x) t

原创 python學習筆記6---數據解析

xpath簡介 xpath(XML Path Language)是一門在XML和HTML中查找信息的語言。 Xpath開發工具 1.Chrome插件Xpath Helper 點擊瀏覽器右邊三點—更多工具—擴展程序—chrome網上商店

原创 Linux視頻學習筆記

不同應用領域的主流操作系統 1>桌面操作系統 1.windows 2. macOS (適合開發人員) 3. Linux (應用軟件少) 2>服務器操作系統 1.Linux (穩定、免費、佔有率低) 2.windows server

原创 聚類算法和分類算法

常用的分類算法包括: 決策樹分類法 樸素的貝葉斯分類算法(native Bayesian classifier) 基於支持向量機(SVM)的分類器 神經網絡法 k-最近鄰法(k-nearest neighbor,kNN) 模糊分類法