HadoopDB GlobalHasher的參數問題

原創

2020-07-02 17:02

hadoop jar hadoopdb.jar edu.yale.cs.hadoopdb.dataloader.GlobalHasher input_path output_path 10 \| 0

上面的命令是將數據切分到10個分區內，即集羣中的10個結點，最後的參數 0是指對每行記錄的第一個字段進行hash，可將其視作鍵值。

下面是edu.yale.cs.hadoopdb.dataloader.GlobalHasher類中的一段代碼，可以看到

該全局hasher要求輸入四個參數

		//輸入 目錄
		FileInputFormat.setInputPaths(conf, new Path(args[0]));

		// OUTPUT properties
		Path outputPath = new Path(args[1]);
		HDFSUtil.deletePath(outputPath);
		FileOutputFormat.setOutputPath(conf, outputPath);
		
		//分區數量
		int partNo = Integer.parseInt(args[2]);
		conf.setNumReduceTasks(partNo);
		
		//分界符
		conf.set(DELIMITER_PARAM, args[3]);
		
		//要hash的字段位置
		int hashFieldPos = Integer.parseInt(args[4]);
		conf.setInt(HASH_FIELD_POS_PARAM, hashFieldPos);

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

個人開發者如何入門 Java 異步編程

標題：《從零開始：一份詳盡的Linux安裝教程》引言：在數字化的世界裏，Linux操作系統以其開源的特性、高度的安全性和穩定性，成爲了服務器和個人電腦的熱門選擇。無論是開發者、系統管理員還是技術愛好者，掌握Linux的安裝與配置都是一項

2024-05-17 01:49:09

在Linux操作系統的安裝過程中，如何選擇合適的發行版

【關鍵詞】{{linux安裝}} 【提問】{{question}} 在Linux操作系統的安裝過程中，如何選擇合適的發行版，並確保安裝過程順利進行？此外，對於不同硬件配置的用戶，有哪些特定的安裝注意事項和優化策略？【文章】{{Linux操

2024-05-17 01:49:06

流水線 YAML 高級用法來了！大幅降低重複代碼、靈活編排多任務

作者：木煙在 YAML 化配置流水線時，你是否會遇到以下問題？單流水線中批量執行類似任務場景時，YAML 中需要定義多個類似邏輯的 Job，Job 越多，流水線 YAML 配置的越長，YAML 中的重複代碼越多，代碼複用性低，可讀性差

2024-05-16 21:13:44

高效調度新篇章：詳解DolphinScheduler 3.2.0生產級集羣搭建

轉載自tuoluzhe8521 導讀：通過簡化複雜的任務依賴關係， DolphinScheduler爲數據工程師提供了強大的工作流程管理和調度能力。在3.2.0版本中，DolphinScheduler帶來了一系列新功能和改進，使其在生產環

2024-05-15 21:22:54

Spring 按條件裝配使用方法

條件註冊 Spring 4.0 引入條件註冊機制，暴露給用戶的API是@Conditional和Condition接口，把@Conditional聲明在一個 @Component類上，並接受一組條件（Condition實現），容器初始化期間

2024-05-15 11:50:12

界面組件DevExpress Reporting v24.1預覽版 - 擁有原生Angular報表查看器

DevExpress Reporting是.NET Framework下功能完善的報表平臺，它附帶了易於使用的Visual Studio報表設計器和豐富的報表控件集，包括數據透視表、圖表，因此您可以構建無與倫比、信息清晰的報表。下一個主要

2024-05-14 12:21:34

利用pyinstaller打包Python程序爲一個可執行文件

有時，Python發佈的程序需要被打包爲一個文件夾、甚至一個文件發佈。目前（2020）最佳的策略是使用pyinstaller。 pyinstaller不僅支持打包整個運行環境到一個可執行文件，而且還支持加密。但唯一的問題是，必須依賴

2024-05-14 02:04:34

FA的linux基礎01

vim常用功能 set nu :200 set nonu G 最後一行 gg跳到第一行 dd 刪除光標所在行 5dd 從光標所在行開始，刪除5行 p粘貼 yy 複製光標所在行 p粘貼 5yy u 撤銷之前的操

2024-05-14 01:40:14

Android內存管理機制官方詳解文檔

很早之前寫過一篇《Android內存管理機制詳解》點擊量已7萬+，現把Google官方文檔整理輸出一下，供各位參考。一、內存管理概覽 Android 運行時 (ART) 和 Dalvik 虛擬機使用分頁和內存映射來管理內存。這意味着應用

2024-05-14 00:37:42

raid添加新的硬盤問題

linux平臺下: 在raid5已經做好的時候，不能添加新硬盤的raid5的陣列組裏，添加的只能變爲spare盤。比如：用4塊磁盤做的raid5，再往這麼陣列組中添加硬盤變成5塊硬盤的陣列是錯誤的做法，原因是raid是橫向條帶化的。

2024-05-13 22:58:18

BlackHat ASIA 議題解讀 | 安卓Netlink內核模塊中隱藏的“傳送門”

作者：百度安全-AIoT安全團隊 Chao Ma, Han Yan, Tim Xia 隨着安卓系統的流行，Netlink作爲Linux內核與用戶態進程之間的一種通信機制，被廣泛應用在安卓操作系統內核模塊中，但其使用的安全性卻未得到足夠

2024-05-13 21:42:48

Linux下BMP圖片添加水印

Linux下BMP圖片添加水印 BMP是英文Bitmap（位圖）的簡寫，它是Windows操作系統中的標準圖像文件格式，能夠被多種Windows應用程序所支持。隨着Windows操作系統的流行與豐富的Windows應用程序的開發，BM

2024-05-13 21:33:54

linux-vim編輯器、條件表達式

2024-05-13 21:17:32

Linux 服務器配置-安裝portainer-ce社區版

操作系統Debian12 1. portainer 簡介 Portainer 是一個開源的輕量級容器管理工具，主要用於 Docker 和 Swarm 環境的可視化管理和操作。通過 Portainer，用戶可以通過簡潔易用的 Web UI

2024-05-13 13:22:00

Linux服務器配置-安裝docker-ce社區版

1.查看linux內核版本和系統版本 docker的安裝和運行對linux版本和系統是有要求的。查看linux內核版本 uname -a root@server88:~# uname -a Linux server88 6.1.0-18-

2024-05-13 13:21:57

24小時熱門文章

最新文章

最新評論文章