原创 對Titanic進行數據分析,我們發現了一些線索送給談戀愛的你們

titanic數據集字段字段釋意值survival倖存0 = No, 1 = Yespclass客艙等級1 = 1st, 2 = 2nd, 3 = 3rdsex性別Age年齡If the age is estimated, is it

原创 Callback ——從同步思維切換到異步思維

攝影:產品經理薄如蟬翼我們平時使用Requests的時候,一般是這樣寫代碼的:import requests def parse(html):     print('對 html 進行處理') html = requests.get

原创 淺度測評:requests、aiohttp、httpx 我應該用哪一個?

攝影:產品經理與產品經理環遊世界在 Python 衆多的 HTTP 客戶端中,最有名的莫過於requests、aiohttp和httpx。在不借助其他第三方庫的情況下,requests只能發送同步請求;aiohttp只能發送異步請求;h

原创 超好看!手把手教你用Matplotlib畫一張好看的圖

Matplotlib進階圖表繪圖第一篇,手把手教你如何從0到1畫出一張好看的圖。本文用的數據如圖所示,Dataframe中顯示的是相關職位對應的地區和相應的薪水狀況,單位是千,要統計各個城市的薪資狀況。最終目的是用Matplotlib結

原创 StockInsider: A股交易指標可視化包

一、StockInsiderStockInsider可以獲取中國上市股票價格相關的信息,計算交易指標,可視化指標。1.1 安裝命令行輸入!pip3 install StockInsider 1.2 工具簡介StockInsider需要兩

原创 Pandas時間序列數據操作

一、 pd.to_datetime()將日期字符串轉化爲datetime類型數據import pandas as pd pd.to_datetime('2020-05-03') Timestamp('2020-05-03 00:00:

原创 三種方式創建DataFrame

創建DataFrame方式字典二維列表讀取文件1. 字典創建import pandas as pd data = {"a" : [4 ,5, 6],          "b" : [7, 8, 9],          "c" : [

原创 [轉載]如何利用Social Listening從社會化媒體中“提煉”有價值的信息?

俗話說的好,“巧婦難爲無米之炊”,數據分析的第一步就是獲取數據,那麼,我們做分析的數據究竟從何而來呢?這是我們進行social listening和語義分析的起點。沒有和外部數據進行關聯,會導致分析的結果出現片面、孤立和失真,起不到診斷

原创 Numpy和Pandas性能改善的方法和技巧

問題設計的代碼能hold住小規模數據你準備將該代碼用來處理真實場景的數據但驚喜的是你的代碼崩潰了問題: 你的電腦只有16G內存,但現在卻要應付50G大小的數據。硬件解決辦法換裝備,比如64G內存的電腦租用雲服務器,64核432G內存,每

原创 如何計算出文本數據的相似矩陣?

今天要計算texts中兩兩文本計算相似性,生成texts對應的相似矩陣。我們需要先將text轉爲爲向量,texts轉化後就是文檔-詞頻矩陣。texts = ['吃着火鍋唱着歌,突然失業了怎麼辦?',         '北京今年高考外語口

原创 Wow~70G上市公司定期報告數據集

70G年報pdf數據集數據下載說明所有pdf均來自上海證券交易所官網,使用shreport庫進行的下載。報告信息彙總文件summary.xlsx內字段company 上市公司企業名code 股票代碼type 報告類型year 報告年份d

原创 【數據挖掘實操】用文本挖掘剖析近5萬首《全唐詩》

溫馨提示:圖片顯示毛糙和不清楚,是分辨率過高的緣故,點擊圖片,即可看到高清大圖,另:伴着下方天后的天籟之音---《清平調》,效果會更佳!楔子近些年來,弘揚中華傳統文化的現象級綜藝節目不斷涌現,如《中國漢字聽寫大會》、《中國成語大會》、《

原创 正確的正則表達式學習方法是放棄抵抗^_^

一、re庫常用方法re庫常用函數作用re.findall(pattern, string)根據pattern返回匹配結果(列表)re.split(pattern, string)使用pattern分割string,返回列表re.sub(

原创 三行代碼計算文本相似性

simtext庫介紹simtext庫可以計算兩文檔間四大文本相似性指標,分別爲:Sim_Cosine    cosine相似性Sim_Jaccard   Jaccard相似性Sim_MinEdit  最小編輯距離Sim_Simple  

原创 兩行代碼讀取pdf、docx文件

最近運行課件代碼,發現pdf文件讀取部分的函數失效。這裏找到讀取pdf文件的可運行代碼,爲了方便後續學習使用,我已將pdf和docx讀取方法封裝成pdfdocx包。pdfdocx只有簡單的兩個讀取函數read_pdf(file)read