리눅스 awk를 활용한 정렬주에 2단정렬
글쓴이: likestrike / 작성시간: 수, 2013/08/14 - 12:36오후
안녕하세요 awk를 사용중에 활용방법을 알고 싶어서 글을 남깁니다.
내용은 아래와 같습니다.
특정 파일에 수백건이상의 데이터가 쌓여져 있습니다. 형식은 간단하게
CODE_VALUE, CODE_NAME 두가지로 나뉩니다.
CODE_VALUE는 R,E,C 세가지 이며
CODE_NAME 은 각기 다릅니다.
이 경우 CODE_NAME으로 정렬을 하고 R,E,C에 대한 카운트를 세려고 합니다.
(예)
R,CODE_A
R,CODE_B
R,CODE_C
R,CODE_D
R,CODE_E
R,CODE_F
R,CODE_G
R,CODE_H
R,CODE_I
E,CODE_C
E,CODE_D
E,CODE_E
C,CODE_F
C,CODE_B
C,CODE_C
.
.
.
위처럼 파일에 데이터가 저장이 되어 있고
결과를
R E C
CODE A 5 2 4
CODE B 2 2 2
CODE C 1 3 4
이런식으로 나타내고 싶습니다.
스크립트로 돌리면 데이터가 많을시 부하 문제가 있어서
awk문법 만으로 가능한지
혹은 grep이나 다른 처리로 가능한지
조언을 부탁드립니다.
감사합니다.
Forums:


음 ..
associative array 를 쓰면 될 것 같군요.
awk 는 물론 많은 스크립트 인터프리터들이 이걸 제공할겁니다.
array 크기야.. 전체 레코드 쌍의 갯수 정도일테니 부하가 많이 걸리지는 않을테구요.
편한걸로 쓰시면 되겠네요. (bash 는 version 4.0 부터 지원)
awk 는 별로 안 써봐서.. bash 로 대신..
$ cat data.txt R,CODE_A R,CODE_B R,CODE_C R,CODE_D R,CODE_E R,CODE_F R,CODE_G R,CODE_H R,CODE_I E,CODE_C E,CODE_D E,CODE_E C,CODE_F C,CODE_B C,CODE_C $ cat dt.sh #!/bin/bash INFILE=${1-data.txt} declare -A CLIST # code list declare -A CRLIST # code & rec list OIFS=$IFS IFS=, while read -r rec code do CLIST[$code]=1 let CRLIST[$code$rec]++ done < $INFILE for C in ${!CLIST[@]} do echo ${C/_/ } ${CRLIST[${C}R]-0} ${CRLIST[${C}E]-0} ${CRLIST[${C}C]-0} done | sort IFS=$OIFS exit 0; $ bash dt.sh CODE A 1 0 0 CODE B 1 0 1 CODE C 1 1 1 CODE D 1 1 0 CODE E 1 1 0 CODE F 1 0 1 CODE G 1 0 0 CODE H 1 0 0 CODE I 1 0 0되면 한다! / feel no sorrow, feel no pain, feel no hurt, there's nothing gained.. only love will then remain.. 『 Mizz 』
awk로 대충 이정도면 되겠네요.BEGIN {
awk로 대충 이정도면 되겠네요.
BEGIN { FS=","; } { code_array[$2] = 1; count_array[$2,$1]++; } END { for (code in code_array) { split (code, a, "_"); printf ("%s %s ", a[1], a[2]); printf ("%d %d %d\n", count_array[code,"R"], count_array[code,"E"], count_array[code,"C"]); } }스크립트가 1.awk라 하고 데이터파일이 1.txt 라고 하면..
댓글 달기