[완료] 현존 하는 문자열 패턴 매치 알고리즘 중 가장 빠른 알고리즘은 무엇인가요...?

goguma의 이미지

제가 지금 진행하고 있는 프로젝트에...
5만~10만개 사이의 문자열 패턴을...
파일 내에서 검색하는 알고리즘이 필요합니다..
현재 Aho-Corasick 으로 구현할까 하는데...
속도에 중점을 둔다고 하면...
이보다 더 효율적인 알고리즘은 없을까요..?
최근 논문을 검색해봐도 다수의 패턴을 찾을때 더 효과적인 알고리즘을 찾기가 어렵네요...

winner의 이미지

얼마나 빈번히 검색을 할 지는 모르겠습니다만... 거기서 거기일 거 같은데. Algorithm이 그리 어렵지는 않을 거 같기는 합니다만 굳이 작성을 해야되고, 또 최선의 algorithm이 요구되는지는 모르겠습니다. 물론 공부를 위한 거라면 예외겠습니다만...

goguma의 이미지

상당히 중요한 부분이라 그렇습니다..
프로그램 성능과 직접적으로 연관된 부분입니다..

--------------------------------
스물셋.. 독립.. 열심히 살아보자!!
--------------------------------

imyejin의 이미지

직접적인 답변이 아니라 죄송합니다만, 회사에서 하는 일이시고 중요한 일이시면 산학협동으로 돈들여서 알고리듬 연구하는 전산과 이론 연구실에다 자문을 구하면서 공동 프로젝트를 추진하는 것이 서로 윈윈하는 방법일 것 같습니다. 밥먹고 그런 비슷한 일만 하는 사람들이 있을거에요. 나중에 계속 필요하면 채용할 좋은 기회가 되기도 하고요.

임예진 팬클럽 ♡예진아씨♡ http://cafe.daum.net/imyejin

[예진아씨 피카사 웹앨범] 임예진 팬클럽 ♡예진아씨♡ http://cafe.daum.net/imyejin

winner의 이미지

대학원 정도에서 가능하기는 어렵지 않을까 해요?

제가 몰라서 그런데 이런 algorithm을 중점적으로 연구하는 연구실이 국내에 어디어디가 있는지 궁금합니다.

-------------------------------------------------------------------------------------------

됐습니다. 있군요... -_-.

terzeron의 이미지

n개 문자열이라고 가정할 때, 파일에서 읽어온 문자열 버퍼에 대해 strcmp를 n번 수행하는 방식을 쓰시는 거라면,
regular expression을 쓰는 방법이 더 빠를 것 같습니다만...
질문이 너무 막연해서 뭐라고 답변을 하기가 어렵네요.

goguma의 이미지

ac 알고리즘을 이용 비교시 단일문자 비교를 수행합니다..

--------------------------------
스물셋.. 독립.. 열심히 살아보자!!
--------------------------------

charsyam의 이미지

만약 단어별 검색이 목적이시라면

그리고 문자열 패턴이 고정이라면

Burst Trie 형태로 패턴을 저장해놓고,

해당 부분에서 검색하는 형태가 가장 빠르지 않을까요?

=========================
CharSyam ^^ --- 고운 하루
=========================

=========================
CharSyam ^^ --- 고운 하루
=========================

Tony의 이미지

perl5.10에는 정규표현식 내부에서 AC알고리즘을 사용해요... 특별한 패턴이 없다면 AC알고리즘이 가장 빠르구요.(메모리문제야 물론 없다고 가정해야겠지만요)

나그네나그네의 이미지

http://www.google.com/search?q=kmp+algorithm&ie=utf-8&oe=utf-8&aq=t&rls=org.mozilla:ko:official&client=firefox-a

참고하시면 좋을 듯 합니다.. 단 여기서는 하나의 긴 문자열 내에서 같은 문자열이 어디에 있는지를 찾습니다

prio의 이미지

multi pattern matching 으로 검색하시면
최근에 제안된, Aho-Corasick 보다 빠르다고 주장하는 알고리즘들이 많이 나오는데,
그것들이 다 마음에 안드시는지요? ^^;;

그런데 수만개의 단어 정도를 찾아야 하는 상황에서는..
캐시 등 메모리 관리 요소도 성능에 무시 못할 영향을 끼칩니다.
('사실 더 중요합니다.' 라고 말하고 싶으나, asymptotic 이기는 장사 없으니 ㅎㅎ)

그리고 주제넘은 조언일지도 모르나...
많은 경우에 "the fastest"를 찾으려는 것보다,
"meeting the requirement"를 목표로 하는 게 더 효과적이더라구요.

JuEUS-U의 이미지

이 분 말씀대로 입니다 = _=);;;
언제나 최고를 찾기보다는,
조금 덜하더라도 만족스러운 수준까지만 가면 됩니다.

Aho-corasick이 절대로 느린 알고리즘도 아니고 복잡한 물건도 아니라서
그냥 쓰시는게 나을겁니다.

goguma의 이미지

여러분들 말씀을 참조하여 Aho-corasick로 구현할 계획입니다..

--------------------------------
스물셋.. 독립.. 열심히 살아보자!!
--------------------------------

댓글 달기

Filtered HTML

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • You can use Textile markup to format text.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • Quick Tips:
    • Two or more spaces at a line's end = Line break
    • Double returns = Paragraph
    • *Single asterisks* or _single underscores_ = Emphasis
    • **Double** or __double__ = Strong
    • This is [a link](http://the.link.example.com "The optional title text")
    For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

  • HTML 태그를 사용할 수 없습니다.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 줄과 단락은 자동으로 분리됩니다.
댓글 첨부 파일
이 댓글에 이미지나 파일을 업로드 합니다.
파일 크기는 8 MB보다 작아야 합니다.
허용할 파일 형식: txt pdf doc xls gif jpg jpeg mp3 png rar zip.
CAPTCHA
이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.