regular expression

mr.lee의 이미지

로그에서 원하는 라인을 찾고, 거기서 원하는 부분만 발췌할려고 합니다.

헌데, regex를 써서 원하는 그룹만 효율적으로 발췌하는 방법이 없는지요?

grep, shell, sed, awk, gawk 다 보아도 (제가 못찾은건진 모르겠지만) 라인만 잡아지고 regex를 이용해서 원하는 부분만 딱 추출하는건 없는것 같은데...

grep은 무조건 라인전체가 뿌려지고.
sed는 치환..
awk는 필드, 치환, 등....match는 index를 뿌려주고..

물론, 치환을 이용해서 앞뒤를 짤라서 잡으면 되겠지만.

이를테면, 로그가.

05-08-10 | foo | bar | id=356 | foo2 | bar2

뭐 이런 패턴의 라인이 중간중간 있다치구요. id값만 추출할려고 하면..

grep foo.*id | sed -e 's/.*foo.*id=//g' -e 's/ .*//g' 머 이런식으로 던지..

아님 awk에서 regex로 잡아서 적당한 필드구분자로 구분해서 다시 추출하고 뭐 이런식일듯 싶은데..

제가 말하는건 이를테며 이런식은 없을까 하는거죠.

myawk '/foo.*id=([0-9]+)/ {print \1}' file.log

그냥 펄로 간단히 짜서 하는방법 밖에 없는건지요. 분명 쉘에서 하는 방법이 있을것 같은데..눈에 안 띄는군요.

totohero의 이미지

아래와 같이 하시면 될 것 같습니다만...

sed -n "s/id=\([0-9]*\)/\1/gp" file.log
송효진의 이미지

grep 의 -o 옵션이 원하시는 겁니다.
grep -o -P "foo.*id=([0-9]+)"

mr.lee의 이미지

-P 옵션은 없다고 나오는데요?

-o를 넣으면 잡은 문자열만 나오긴 합니다만.. back reference 만 뿌리게 할려는데.. 말씀하신대로 하면 잡은 문자열이 다 나옵니다만..

grep "(?<=id=)[0-9]+" file 머 이런 '단정'도 먹히질 않고..

nohmad의 이미지

펄을 쓰는 것이 좋을 것 같습니다.

$ cat test.dat
05-08-10 | foo | bar | id=356 | foo2 | bar2
05-08-11 | bar | foo | id=235 | foo3 | bar3
$ perl -pe 's/.*?id=(\d+).*/\1/g' test.dat
356
235

또는 루비라면,

$ ruby -pe 'gsub(/.*?id=(\d+).*/, "\\1")' test.dat

익명 사용자의 이미지

sed  -e "s/.*id=\([0-9]\{1,\}\).*/\1/g" test.txt
 

라면요?

mr.lee의 이미지

답변들 감사드립니다.

잡은 문자열만 뿌릴려고 하니까..

sed -ne "s/.*id=\([0-9]\{1,\}\).*/\1/gp" test.txt

가 되면 되겠군요.

헌데 sed는 특이하네요.

[0-9]* 는 되는데.. [0-9]+ 는 안되는군요. 그런데 [0-9]\+ 하니깐 되는군요.

\{1,\} 보다는 \+가 좋아보이네요.

펄은 정규식이 깔끔하고 강력해서 (뭐 원조이자 레퍼런스니깐...) 좋은데 sed의 -n , /gp 처럼 문자열 치환한 열만 뿌릴려면 옵션을 어떻게 넣어야 하나요?

PS.
헌데 결국은 치환하는 식으로 -back referece로 전체를 치환해버리는 - 할 수 밖에 없나 보군요.

'id=([0-9]+)' 'print \1' 머 이런식으로 필요한 부분만 서술해서 잡고 뿌려주는 식은 안되나 보네요..

어차피 연산량은 비슷하겠지만..

송효진의 이미지

php, python, ruby 등등 다 pcre 가 지원되죠.
아예 간단한 프로그램을 작성해 버리세요.

php 를 예로 들면

#!/usr/bin/php
<?php

$text = file_get_contents('php://stdin');

$cnt = preg_match_all('/foo.*id=(\d+)/U', $text, $matches);

for($i = 0; $i < $cnt; $i ++) {
    echo $matches[1][$i]."\n";
}

?>

cat log.txt | php.php
mr.lee의 이미지

음...펄에서는 치환된 라인만 뿌려주는 옵션이 없는지요?

임창진의 이미지

http://gema.sourceforge.net/new/index.shtml

cat logfile | gema -p 'id\=<N>=$1\n' -match

댓글 달기

Filtered HTML

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • You can use Textile markup to format text.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • Quick Tips:
    • Two or more spaces at a line's end = Line break
    • Double returns = Paragraph
    • *Single asterisks* or _single underscores_ = Emphasis
    • **Double** or __double__ = Strong
    • This is [a link](http://the.link.example.com "The optional title text")
    For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

  • HTML 태그를 사용할 수 없습니다.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 줄과 단락은 자동으로 분리됩니다.
댓글 첨부 파일
이 댓글에 이미지나 파일을 업로드 합니다.
파일 크기는 8 MB보다 작아야 합니다.
허용할 파일 형식: txt pdf doc xls gif jpg jpeg mp3 png rar zip.
CAPTCHA
이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.