Pig Distinct by fields

原創

2020-06-26 17:46

PIG自帶的distinct只支持整條記錄相同的過濾，並不支持對某些字段的distinct

PIG的說明如下

You cannot use DISTINCT on a subset of fields. To do this, use FOREACH…GENERATE to select the fields, and then use DISTINCT (seeExample: Nested Block).

後面例子中distinct也是先做了FILTER,然後最整個relation進行distinct

但實際應用場景由於不合理的設計和數據冗餘等問題，常常需要用到對某些字段單獨做distinct，其他字段中的數據部分有用

其實這可以結合group,foreach,和limit來實現

如數據 foo(id,field1,field2,field3)

id=1的時候field1的值有意義且一定相等

id=2的時候field1和field2的值有意義且相等

id=3的時候field1,field2,field3的值有意義且相等

（PS：這樣的數據表設計是違反數據庫設計範式的）

1,value1,other1_1,other1_2
2,value2_1,value2_2,other2_1
3,value3_1,value3_2,value3_3
1,value1,other1_3,other1_4
1,value1,other1_5,other1_6
2,value2_1,value2_2,other2_2
4,value4_1,value4_2,

只對id做distinct的PIG代碼：

foo = LOAD 'foo' USING PigStorage(',') AS (id:int, field1:chararray, field2:chararray, field3:chararray);

foo_group = GROUP foo BY id;

result = FOREACH foo_group{

foo_one = LIMIT foo 1;

GENERATE FLATTEN(foo_one);

}

dump result;

結果：

(1,value1,other1_1,other1_2)
(2,value2_1,value2_2,other2_1)
(3,value3_1,value3_2,value3_3)
(4,value4_1,value4_2,)

以前上代碼在PIG0.9.2運行通過

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Hadoop的性能問題

數據科學家在面對大規模數據分析時，經常需要面對兩類問題（1）數據緩存：在應用數據挖掘算法時前，數據往往需要進行預處理操作，對數據中一部分不符合要求的數據進行不斷的清洗過濾。而這些清洗工作又不是可以用簡單的線性操作完成的。同時，算法計算

叫我三少爷

2020-07-02 21:38:49

idea新建項目並啓動

我是一個不是很白的小白，最近學習pig ，同事推薦先spring boot 再spring cloud ，最後PIG 。很痛苦idea沒用過，tomcat、maven都忘記裏。用了4個小時吧，才把第一個hollow搭建起

2020-06-28 23:10:24

Pig 初識

Pig是什麼？ Pig是一個腳本語言，可以把它看作一個並行處理大數據集的平臺，通過它可以對數據進行group、filter、sort、join等操作，有些類似於SQL，允許用戶自定義函數來處理數據。它主要運行在Hadoop集羣上，來簡化M

2020-06-26 00:39:36

poj 1384 Piggy-Bank （完全揹包）

Description Before ACM can do anything, a budget must be prepared and the necessary financial support obtained. The mai

2020-06-25 16:02:22

javascript---註冊事件

XML/HTML代碼 <p id="para" title="cssrain demo!" onclick="test()" >test</p> <script> function test(){ alert("test

2020-06-23 22:54:49

認識自我管理自我_Scrum方法總概

名詞解釋： Sprint：每一次迭代稱爲一個Sprint。 Backlog：其實就是需求列表。 SM：Scrum Master，Scrum過程的管理者。 PO：Product Owner，需求他說了算。 TEAM：架構師、開發人員、測試

liaoxiaohua1981

2020-06-23 21:47:49

Windows下pig-0.17啓動時遇到的問題及解決

背景今天開始學pig，一個對大型數據集處理的更高級的抽象。學習時，在啓動Pig的時候遇到了一些問題，通過修改pig.cmd，這些問題都已經解決。問題及解決方法首先，把HADOOP_HOME、PIG_HOME這些環境變量設置好 ha

2020-06-22 06:41:40

pig-hive-elasticsearch

#!/usr/bin/env bash set -x set -e target_date=`date -d last-day +%Y-%m-%d` echo 'it works!' echo "target_date = " $t

2020-06-21 19:14:47

Pig初探

Pig環境安裝 pig的安裝非常簡單，將pig-0.14.0.tar.gz解壓到合適的目錄下 tar -zxvf pig-0.14.0.tar.gz 修改環境變量： #pig export PIG_HOME=/usr/local/c

2020-06-21 13:42:03

代碼猶如養生――“Looking fish at Willowy bank（柳岸尋魚）”後記

還好是轉的 2 號線地鐵去的東直門，趕在 1 點半正到了 ThoughtWorks ，進門的時候大家都已經準備的差不多了，我也趕忙準備炮筒。首先是我們的第一個新聞， OpenParty 的 T 恤換啦：新款給人的第一感覺就

2020-06-21 07:16:40

Cheese Cheese! ――BeijingOpenParty 2009.07“Sea viewing at Summer gloaming(夏暮觀海)”後記

盛夏，日全食， OpenParty ， G-Fox… 似乎沒有哪個月跟 7 月一樣有如此多讓人熱情似火的關鍵字，我們的 Party 也從豔陽高照的午後開始。也許是因爲在前一天結束的江南遊讓身體依然保持着戰鬥力，在卸下一半行裝之後，去

2020-06-21 07:16:40

程序員英語11

程序員如何學好英語，其實我也沒學好，正好看到一篇文章，摘錄了最常用的3000個單詞，掌握這3000個單詞，最簡單的英文應該不成問題了，我陸續吧這3000個單詞放出，學習下，希望大家都記住，都能學好英語，至少做程序員要學好英語，不過，話又說

2020-06-21 02:00:30

古人造出的最牛漢字看看你認識多少?（ZT）

轉自 http://blog.zol.com.cn/chinesezhl/ 漢字是很有意思的。從結構上說，漢字可分爲：獨體字與合體字，合體字可分爲：左右結構／左中右結構、上下結構／上中下結構、半／全包圍結構、“品”字結構等。最讓我感興趣

slamdunkning1983

2020-06-20 15:11:56

maven項目如何重新下載依賴

https://blog.csdn.net/BADAO_LIUMANG_QIZHI/article/details/88262518

2020-06-19 21:54:39

MySQL創建用戶與授權(2)

二.授權: 注意：授權的前提是要有授權的權限，在 mysql.user 表中的 grant_priv 字段定義！可以使

2020-06-17 15:47:37

24小時熱門文章

最新文章

最新評論文章