pig stream stderr 남기기 ( LOG ) define CMD `stream.pl` stderr('CMD_logs' limit 100) pig로 프로그램을 작성하다보면 User Define Function(UDF)을 만드는 경우가 허다하다 이런 경우 문제가 생겼을때 debugging이 힘들데 이럴 경우 위와 같이 설정을 하면 STORE에 설정된 디렉토리가 만약 /data1 이라면 /data1/CMD_logs 라는 디렉토리에 log가 남게된다. .. hadoop 2014.11.07
pig python udf function @outputSchema("리턴되는변수이름:리턴타입") - 리턴 타입은 pig에서 사용하는 형식 - int - charray (문자열) def sum_freq(list_of_tuple): sum = 0 fq = 0 for tuple in list_of_tuple : try : fq = "".join(map(chr, tuple[1])) except : continue else : try : sum = sum + long(fq) except : continue return sum UTF 함수의 등록 Register 'sum.py' using jython as.. hadoop 2014.07.30
pig Nested FOREACH 입력데이터가 time, name, id 일때 ID로 GROUPING을 하고 그룹핑된 갑들에 대해 time순으로 정렬하기 위해 아래와 같이 nested foreach를 사용한다. A = FOREACH fields GENERATE time, name, id B = GROUP A BY (id); C = FOREACH B { sorted = ORDER A by time; GENERATE sorted; }; STORE C INTO '/user/hadoop/jchern/test'; hadoop 2014.02.05
hadoop safemode 해제 http://stackoverflow.com/questions/4966592/hadoop-safemode-recovery-taking-too-long 하둡 safemode 해제 safemode가 너무 오래 지속될때 아래 명령어로 해제한다. hadoop dfsadmin -safemode leave hadoop 2014.02.04
[PIG] set jog.name default_parallel 실행되는 tast name 설정 set job.name 'jchern - dspklog_count_uuid.pig' reducer 개수 설정 set default_parallel 20 hadoop 2013.01.07
[pig] SUBSTRING http://pig.apache.org/docs/r0.8.1/piglatin_ref2.html SUBSTRING(string, startIndex, stopIndex) 데이터가 key { (가,a),(나,b),(다,c) } 돼 있을때 B = foreach A generate $0 as key, $1,$0 as val1, $1,$1; 이라고 실행하고 B를 저장하면 key { ( 가, 나, 다 )} { ( a, b, c )}로 데이터가 만들어진다. hadoop 2012.12.07
[PIG] ERROR 1000: Error during parsing. Encountered PIG를 한번 써볼려고 간단히 테스트 코드를 만들었는데 다음과 같은 에러를 만나다. [main] ERROR org.apache.pig.tools.grunt.Grunt - org.apache.pig.tools.pigscript.parser.ParseException: Encountered " <PATH> "valid_field=foreach "" at line 7, column 1. Was expecting one of: <EOF> "cat" ... "fs" ... "sh" ... "cd" ... "cp" ... "copyFromLocal.. hadoop 2012.12.06
PIG 관련 URL http://www.cloudera.com/wp-content/uploads/2010/01/IntroToPig.pdf http://wiki.apache.org/pig/PigLatin#Data_Items http://pig.apache.org/docs/r0.7.0/piglatin_ref2.html http://pig.apache.org/docs/r0.9.2/func.html#replace http://wiki.apache.org/pig/PigLatin -add(2013/01/08) load : 하둡서버의 파일을 LOAD load 파일경로 필드 구분자 지정 : A = LOAD 'student' USING P.. hadoop 2012.02.17