regular expression
글쓴이: mr.lee / 작성시간: 월, 2005/08/08 - 11:40오후
로그에서 원하는 라인을 찾고, 거기서 원하는 부분만 발췌할려고 합니다.
헌데, regex를 써서 원하는 그룹만 효율적으로 발췌하는 방법이 없는지요?
grep, shell, sed, awk, gawk 다 보아도 (제가 못찾은건진 모르겠지만) 라인만 잡아지고 regex를 이용해서 원하는 부분만 딱 추출하는건 없는것 같은데...
grep은 무조건 라인전체가 뿌려지고.
sed는 치환..
awk는 필드, 치환, 등....match는 index를 뿌려주고..
물론, 치환을 이용해서 앞뒤를 짤라서 잡으면 되겠지만.
이를테면, 로그가.
05-08-10 | foo | bar | id=356 | foo2 | bar2
뭐 이런 패턴의 라인이 중간중간 있다치구요. id값만 추출할려고 하면..
grep foo.*id | sed -e 's/.*foo.*id=//g' -e 's/ .*//g' 머 이런식으로 던지..
아님 awk에서 regex로 잡아서 적당한 필드구분자로 구분해서 다시 추출하고 뭐 이런식일듯 싶은데..
제가 말하는건 이를테며 이런식은 없을까 하는거죠.
myawk '/foo.*id=([0-9]+)/ {print \1}' file.log
그냥 펄로 간단히 짜서 하는방법 밖에 없는건지요. 분명 쉘에서 하는 방법이 있을것 같은데..눈에 안 띄는군요.
Forums:
아래와 같이 하시면 될 것 같습니다만...[code:1]sed
아래와 같이 하시면 될 것 같습니다만...
grep 의 -o 옵션이 원하시는 겁니다.[code:1]grep -o
grep 의 -o 옵션이 원하시는 겁니다.
grep -o -P "foo.*id=([0-9]+)"
https://xenosi.de/
-P 옵션은 없다고 나오는데요?-o를 넣으면 잡은 문자열만 나오긴
-P 옵션은 없다고 나오는데요?
-o를 넣으면 잡은 문자열만 나오긴 합니다만.. back reference 만 뿌리게 할려는데.. 말씀하신대로 하면 잡은 문자열이 다 나옵니다만..
grep "(?<=id=)[0-9]+" file 머 이런 '단정'도 먹히질 않고..
펄을 쓰는 것이 좋을 것 같습니다.[code:1]$ cat tes
펄을 쓰는 것이 좋을 것 같습니다.
또는 루비라면,
$ ruby -pe 'gsub(/.*?id=(\d+).*/, "\\1")' test.dat
----
http://nohmad.tumblr.com/
[code:1]sed -e "s/.*id=\(	
라면요?
답변들 감사드립니다.잡은 문자열만 뿌릴려고 하니까..[co
답변들 감사드립니다.
잡은 문자열만 뿌릴려고 하니까..
sed -ne "s/.*id=\([0-9]\{1,\}\).*/\1/gp" test.txt
가 되면 되겠군요.
헌데 sed는 특이하네요.
[0-9]* 는 되는데.. [0-9]+ 는 안되는군요. 그런데 [0-9]\+ 하니깐 되는군요.
\{1,\} 보다는 \+가 좋아보이네요.
펄은 정규식이 깔끔하고 강력해서 (뭐 원조이자 레퍼런스니깐...) 좋은데 sed의 -n , /gp 처럼 문자열 치환한 열만 뿌릴려면 옵션을 어떻게 넣어야 하나요?
PS.
헌데 결국은 치환하는 식으로 -back referece로 전체를 치환해버리는 - 할 수 밖에 없나 보군요.
'id=([0-9]+)' 'print \1' 머 이런식으로 필요한 부분만 서술해서 잡고 뿌려주는 식은 안되나 보네요..
어차피 연산량은 비슷하겠지만..
php, python, ruby 등등 다 pcre 가 지원되죠.아예
php, python, ruby 등등 다 pcre 가 지원되죠.
아예 간단한 프로그램을 작성해 버리세요.
php 를 예로 들면
cat log.txt | php.php
https://xenosi.de/
음...펄에서는 치환된 라인만 뿌려주는 옵션이 없는지요?
음...펄에서는 치환된 라인만 뿌려주는 옵션이 없는지요?
gema 를 쓰심이..
http://gema.sourceforge.net/new/index.shtml
cat logfile | gema -p 'id\=<N>=$1\n' -match
댓글 달기