問題來源:Youtube2016數據處理
下面簡化後復現
RuntimeError: cannot join thread before it is started
上面錯誤暫時不管。避免了。
從500多的bit/s的速度到下面的結果,現在速度還在降低
最後的速度可能會到40多,我想知道這是爲啥子
最後用時估計會在一個小時
不用線程發現速度也是很慢,那麼就是程序寫的不行了。畢竟才10來萬的數據
我看看怎麼改。
這個問題先記着:點擊日誌中用戶信息及最近點擊item構成的多行數據去最近的item行數
考慮到用戶畫像數據的實時更新性,即每次都去最近的數據,將每次的log日誌按時間排序後直接concat到user_data後面
然後去重,保留最後一個user_id
然後是用戶的點擊記錄,user,item ,time
果然當列比較少的時候速度有所提高,當留下只有user和item時