python：pandas計算各項出現次數，並輸出各行數據

原創

2020-06-14 20:54

今天在工作中遇到一個需求：有一個ABC三列的表，其中A列數據大量重複，且BC列不同。現在需要根據A列的數據，彙總A列去重並輸出重複次數最多的100行（N行）

原始表類似於這樣：

A	B	C
FFFEFFFEFFF	71956	1
FFFF7FFF7FF	28994	2
DFF4DFF4DFF	68109	3
1FF807F8000	63125	4
3FFF7FFF7FF	27084	5
FFFFFFFFFAF	90016	6
FFBFFFBF078	98219	7
1FF03EE33FF	23629	8
CFC0F8FAFCF	72986	9
8FFFF1F1F1E	33263	10
FFFFFFFFFFF	94116	11

如果用excel，解決辦法就是做一個透視表，求出A列各項目重複數據次數，然後在vlookup求出各BC列的值即可

但是如果元數據超過了1萬行，電腦會卡死的。

現在通過Python即可30秒求出100萬行，A列的計數項:

解決思路

1、先導入文件

pd.read_csv  ，設置表頭names,設置分割符號：sep,設置標題行：skiprows

2、求助A列數據的各項目重複次數

loc=da['A'].value_counts()

3、取出前1000行

loc=loc[:N].keys()#前置前N行，加上key是表示只取值，取出A列的那個數據，不加key（）就是輸出A列數據+重複次數

4、取出數據，並根據A列去重

C=da.loc[da['A'].isin(loc)]#限制A列在 loc的值內

C=C.drop_duplicates(['A'])#根據A列去重

5、保存

C.to_csv("22.csv",encoding='utf-8')

不知道這些思路是否對你有幫助，完整代碼可見：

http://bbs.bigdata.zhaotongzhuo.cn/?p=20

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Opal 機器學習平臺：愛奇藝數智一體化實踐

01 綜述 Opal 是愛奇藝大數據團隊研發的機器學習平臺，包含特徵生產、樣本構建、模型訓練、模型部署在內的多環節 Bigdata + AI 開發服務，內置多種訓練鏡像、

愛奇藝技術產品團隊

2024-06-01 02:21:16

響應式界面控件DevExtreme * 更強的數據分析和可視化功能

DevExtreme擁有高性能的HTML5 / JavaScript小部件集合*使您可以利用現代Web開發堆棧*包括React*Angular*ASP.NET Core*jQuery*Knockout等*構建交互式的Web應用程序。從Ang

2024-05-31 12:32:20

向量數據庫引領 AI 創新——Zilliz 亮相 2024 亞馬遜雲科技中國峯會

2024年5月29日，亞馬遜雲科技中國峯會在上海召開，此次峯會聚集了來自全球各地的科技領袖、行業專家和創新企業，探討雲計算、大數據、人工智能等前沿技術的發展趨勢和應用場景。作爲領先的向量數據庫技術公司，Zilliz 在本次峯會上展示了最新的

2024-05-30 21:25:17

金融反欺詐指南：車險欺詐爲何如此猖獗？

青島市人民檢察院在其官方微信公衆號上發佈的梁某保險詐騙案顯示，2020 年以來，某汽修廠負責人梁某、某汽車服務公司負責人孫某，與保險公司的趙某等人相互勾結，收購二手北汽等品牌新能源汽車，併爲這些車輛購買車損險。隨後，他們利用暴雨天氣，故意製

2024-05-30 00:16:51

還能報名！風靡硅谷開發者的 Unstructured Data Meetup 即將登陸中國！

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過 80% 的

2024-05-29 02:18:59

AI安全志：英國AI騙保事件增加300%！

最近，英國《衛報》報道稱，一些騙子正在利用人工智能照片編輯軟件篡改照片，以進行保險欺詐活動。這一發現令保險公司震驚，因爲這可能導致汽車保險費用飆升至歷史最高水平。安聯保險公司表示，從2021年至2023年期間，利用應用程序篡

2024-05-28 00:15:50

京東雲5月產品動態

1.【智算服務】新品上線智算平臺GCS是面向AI創業公司和AI從業者的AI算力生命週期管理和AI應用生命週期管理平臺。平臺提供高性價比算力資源，以及基於大模型的AI應用生態市場。提供全網低價算力、幫您快速上手AIGC應用。 2.【節能寶P

2024-05-27 23:56:00

好勁！Zabbix Meetup廣州站精彩回顧

Zabbix Meetup 廣州站精彩回顧 4月27日，Zabbix城市行再次來到廣州，於未來社區成功舉辦。天氣不佳但熱情依舊，這場盛會集合了講師們的經驗心得、案例分享，5

2024-05-24 22:34:06

飛天發佈時刻｜阿里雲可觀測全速演進

在數字化轉型的浪潮中，雲計算的深化應用不斷推動着技術邊界的擴展，而可觀測性作爲確保系統穩定運行與高效迭代的關鍵支撐，正逐漸成爲現代雲原生架構不可或缺的一部分。5 月 22 日 10:00，阿里雲飛天發佈時刻，阿里雲應用實時監控服務 ARMS

2024-05-24 21:13:46

分佈式任務調度內的 MySQL 分頁查詢優化

作者：vivo 互聯網數據庫團隊- Qiu Xinbo 本文主要通過圖示介紹了用主鍵進行分片查詢的過程，介紹了主鍵分頁查詢存在SQL性能問題，如何去創建高效的索引去優化主鍵分頁查詢的SQL性能問題對於數據分佈不均

2024-05-24 12:09:18

構建無服務器數倉（三）EMR Serverless 操作要點、優化以及開放集成測試

引言在數據驅動的世界中，企業正在尋求可靠且高性能的解決方案來管理其不斷增長的數據需求。本系列博客從一個重視數據安全和合規性的 B2C 金融科技客戶的角度來討論雲上雲下混合部署的情況下如何利用亞馬遜雲科技雲原生服務、開源社區產品以及第三方工

2024-05-23 21:22:10

風控指南：國內車險欺詐呈現四大趨勢

2024年4月11日，國家金融監督管理總局官網發佈國家金融監督管理總局關於《反保險欺詐工作辦法（徵求意見稿）》公開徵求意見的公告。《徵求意見》共6章、37條，明確反保險欺詐工作目標是建立“監管引領、機構爲主、行業聯防、各方協同”四位一體的

2024-05-23 12:16:45

KubeEdge v1.17.0發佈！數據處理能力與易用性全面提升

本文分享自華爲雲社區《KubeEdge v1.17.0發佈！數據處理能力與易用性全面提升》，作者：雲容器大未來。 KubeEdge社區v1.17.0 版本正式發佈。新版本爲邊緣節點和設備帶來了更多的新能力，同時持續在易用性上

2024-05-23 10:58:31

Gen AI 連接非結構化數據，Unstructured Data Meetup 第二場官宣杭州！

定了！6 月 15 日，備受硅谷開發者喜愛的 Unstructured Data Meetup 第二場將在杭州舉辦！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 202

2024-05-20 21:25:07

白鯨開源CEO郭煒在2024 DataOps發展大會上獲聘專家

2024年5月15日，白鯨開源CEO郭煒在2024 DataOps發展大會上被正式聘任爲DataOps專家，並獲得了榮譽證書。本次大會由中國通信標準化協會主辦，中關村科學城管委會提供支持，大數據技術標準推進委員會（CCSATC601）承辦，

2024-05-16 11:28:50

24小時熱門文章

最新文章

最新評論文章