Hadoop中解決跨split問題

Split是邏輯分塊,通過RecorderReader的進行key-value化輸入到Mapper的Map函數。邏輯上,Map由於拆分數據粒度的原因可能會造成需要的數據跨塊或者跨Split。遇到這種問題,可以在RecordReader中解決。

常見的就是跨行問題。可以參考:http://blog.iamzsx.me/show.html?id=172007

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章