hadoop

pig python udf function

고요한하늘... 2014. 7. 30. 13:09


@outputSchema("리턴되는변수이름:리턴타입") 

- 리턴 타입은 pig에서 사용하는 형식

  - int

  - charray (문자열)


def sum_freq(list_of_tuple):

    sum = 0

    fq  = 0

    for tuple in list_of_tuple :

        try : fq = "".join(map(chr, tuple[1]))

        except : continue

        else :

            try : sum = sum + long(fq)

            except : continue

    return sum



UTF 함수의 등록

Register 'sum.py' using jython as funcs;

X = FOREACH C GENERATE $0, funcs.sum_freq($1);


'hadoop' 카테고리의 다른 글

pig stream stderr 남기기 ( LOG )  (0) 2014.11.07
pig Nested FOREACH  (0) 2014.02.05
hadoop safemode 해제  (0) 2014.02.04
[PIG] set jog.name default_parallel  (0) 2013.01.07
[pig] SUBSTRING   (0) 2012.12.07