bash shell 관련 간단한 문제입니다.

kealyung의 이미지

time find ./ -name "*.ext" -print0 | xargs -0 -n1 -P8 grep -H "string" >> Strings_find8

이런식으로 xargs를 넘겨서 검색을 해서 결과를 Strings_find8로 만들었는데..

문제가... 검색된 데이타의 내용이 조금 깨지는 문제가 발생하네요.

아마도 프로세스를 8개를 돌리면서 파일은 하나의 파일에 기록을 하면서

생기는 문제 같은데..

해결 방법이 머가 좋을까요?

제가 생각한 해결방안은

위의 예저 *.exe(a.ext, b.ext, c.ext)가 있다고 했을때

grep으로 검색된 결과 파일의 결과를 a.1 b.1 c.1 의 형태로 만들려고 하는데..

xargs를 이용해서 처리를 해도 잘 안되네요.

아니면 혹시 다른 더 좋은 방법이 있으면 부탁드리곘습니다.

감사합니다.

qiiiiiiiip의 이미지

pipe 에서의 buffering 문제일것 같습니다.
stdbuf 를 쓰든가 (stdbuf -oL grep)
이 경우에는 grep --line-buffered 를 쓰면 해결될 듯요

여담으로 속도문제때문에 여러 프로세스를 사용하려는 것 같은데,
크기가 작은 파일이 개수가 많은 경우라면 xargs -n1 을 쓰면 효율이 많이 떨어질듯요.

kealyung의 이미지

1. 일단 --line-buffered 라는 옵션을 사용을 했는데..사용하지 않는 것보단 데이타의 문제가 많이 줄어들긴 했습니다.
그래도 여전히 데이터의 문제가 생기네요.

기존의 --line-buffered 라는게 없을때 문제가 되는 라인이 130라인이라면
--line-buffered 옵션을 사용했을때 12라인으로 줄어들긴 했네요..

2. stdbuf -oL grep 를 사용해 봤습니다.
단독으로 사용했을때 --line-buffered 사용한 것처럼 12라인 정도 문제가 생기네요.

3. 전체를 다 사용했을때 8 라인 정도 문제가 생기네요.

* 참고로 각각의 파일의 갯수는 대부분 다 기가(G) 단위입니다.

kealyung의 이미지

에러가 나왔을때 뒤에 >>를 > 하나만 줘서 생기는 문제 였나 보네요.

여러번 테스트 했을때 정상적으로 잘 나오고 있습니다.

감사합니다. 많은 도움 되었습니다.

댓글 달기

Filtered HTML

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • You can use Textile markup to format text.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • Quick Tips:
    • Two or more spaces at a line's end = Line break
    • Double returns = Paragraph
    • *Single asterisks* or _single underscores_ = Emphasis
    • **Double** or __double__ = Strong
    • This is [a link](http://the.link.example.com "The optional title text")
    For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

  • HTML 태그를 사용할 수 없습니다.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 줄과 단락은 자동으로 분리됩니다.
댓글 첨부 파일
이 댓글에 이미지나 파일을 업로드 합니다.
파일 크기는 8 MB보다 작아야 합니다.
허용할 파일 형식: txt pdf doc xls gif jpg jpeg mp3 png rar zip.
CAPTCHA
이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.