입력데이터가
time, name, id 일때
ID로 GROUPING을 하고
그룹핑된 갑들에 대해 time순으로 정렬하기 위해 아래와 같이 nested foreach를 사용한다.
A = FOREACH fields GENERATE time, name, id
B = GROUP A BY (id);
C = FOREACH B {
sorted = ORDER A by time;
GENERATE sorted;
};
STORE C INTO '/user/hadoop/jchern/test';
'hadoop' 카테고리의 다른 글
pig stream stderr 남기기 ( LOG ) (0) | 2014.11.07 |
---|---|
pig python udf function (0) | 2014.07.30 |
hadoop safemode 해제 (0) | 2014.02.04 |
[PIG] set jog.name default_parallel (0) | 2013.01.07 |
[pig] SUBSTRING (0) | 2012.12.07 |