關於線程中的pandas計算速度問題tqdm

問題來源:Youtube2016數據處理

下面簡化後復現

RuntimeError: cannot join thread before it is started

上面錯誤暫時不管。避免了。

從500多的bit/s的速度到下面的結果,現在速度還在降低

最後的速度可能會到40多,我想知道這是爲啥子

最後用時估計會在一個小時

 

不用線程發現速度也是很慢,那麼就是程序寫的不行了。畢竟才10來萬的數據

我看看怎麼改。

這個問題先記着:點擊日誌中用戶信息及最近點擊item構成的多行數據去最近的item行數

考慮到用戶畫像數據的實時更新性,即每次都去最近的數據,將每次的log日誌按時間排序後直接concat到user_data後面

然後去重,保留最後一個user_id

然後是用戶的點擊記錄,user,item ,time

果然當列比較少的時候速度有所提高,當留下只有user和item時

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章