- 清理不一致的術語拼寫(即“美國”,“美國”,“美國”等)。
- 將數值(即1.23億美元)的文本描述值轉換爲可用於分析的實際數值(即123000000)。
- 識別特定列的哪些行包含搜索項
- 提取和清除日期的值
- 刪除重複的行
- 使用散點圖來顯示不同列中的值之間的關係
- 查找地名列表的地理座標(即大學名稱等)
- 將清理的數據導出到Excel
Open Refine能學到什麼
Open Refine是一個開源的數據整理根據。功能還是很強大的,雖然沒玩過幾天,不過覺得使用起來非常方便。
感興趣的博友可以看看以下網址,對這個工具的進一步認識。
1.Open Refine教程: http://enipedia.tudelft.nl/wiki/OpenRefine_Tutorial
2.用戶文檔: https://github.com/OpenRefine/OpenRefine/wiki/Documentation-For-Users
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章
kettle集羣配置
Harold_96_lxw
2020-06-26 00:46:41
Python特訓營(大數據處理)
首席IT民工
2020-07-03 18:57:21
Python數據分析基礎_第4節:數據清洗
Jick_Yang
2020-06-26 06:50:29
【Wang.hx】文件路徑操作
nameisstevenwang
2020-06-22 08:44:14
大數據ETL實踐探索(8)---- 數據清洗的目的,方法
shiter
2020-06-21 06:11:38
數據挖掘之數據清洗(缺失值,異常值)
蜗牛遥遥
2020-06-20 23:05:59
《Using OpenRefine》翻譯~14
数据小刀
2020-06-17 05:27:47
DataFrame.to_excel多次寫入不同Sheet
诺坎普奇迹
2020-06-16 14:52:24
numpy.mean()的幾種用法
诺坎普奇迹
2020-06-16 14:52:24
正則表達式 - 去掉亂碼字符/提取字符串中的中文字符/提取字符串中的大小寫字母 - Python代碼
黄大侠aa
2020-06-16 12:33:07
深度學習與計算機視覺系列(7)_神經網絡數據預處理,正則化與損失函數
龙心尘
2020-06-16 11:12:08
第十篇,數據分析之pandas的處理缺失值
萌新求大佬
2020-06-16 08:27:20
Python-Numpy語法總結-數組的排序及重塑
Zen of Data Analysis
2020-06-16 05:06:19