[완료] 현존 하는 문자열 패턴 매치 알고리즘 중 가장 빠른 알고리즘은 무엇인가요...?

글쓴이: goguma / 작성시간: 월, 2009/04/27 - 10:46오후

제가 지금 진행하고 있는 프로젝트에...
5만~10만개 사이의 문자열 패턴을...
파일 내에서 검색하는 알고리즘이 필요합니다..
현재 Aho-Corasick 으로 구현할까 하는데...
속도에 중점을 둔다고 하면...
이보다 더 효율적인 알고리즘은 없을까요..?
최근 논문을 검색해봐도 다수의 패턴을 찾을때 더 효과적인 알고리즘을 찾기가 어렵네요...

Forums:

프로그래밍 QnA

댓글 달기

굳이 해야 하나요?

글쓴이: winner / 작성시간: 화, 2009/04/28 - 12:06오전

얼마나 빈번히 검색을 할 지는 모르겠습니다만... 거기서 거기일 거 같은데. Algorithm이 그리 어렵지는 않을 거 같기는 합니다만 굳이 작성을 해야되고, 또 최선의 algorithm이 요구되는지는 모르겠습니다. 물론 공부를 위한 거라면 예외겠습니다만...

답글

현재 작성중인 프로그램에..

글쓴이: goguma / 작성시간: 수, 2009/04/29 - 1:38오후

상당히 중요한 부분이라 그렇습니다..
프로그램 성능과 직접적으로 연관된 부분입니다..

--------------------------------
스물셋.. 독립.. 열심히 살아보자!!
--------------------------------

답글

직접적인 답변이

글쓴이: imyejin / 작성시간: 수, 2009/04/29 - 4:27오후

직접적인 답변이 아니라 죄송합니다만, 회사에서 하는 일이시고 중요한 일이시면 산학협동으로 돈들여서 알고리듬 연구하는 전산과 이론 연구실에다 자문을 구하면서 공동 프로젝트를 추진하는 것이 서로 윈윈하는 방법일 것 같습니다. 밥먹고 그런 비슷한 일만 하는 사람들이 있을거에요. 나중에 계속 필요하면 채용할 좋은 기회가 되기도 하고요.

임예진 팬클럽 ♡예진아씨♡ http://cafe.daum.net/imyejin

[예진아씨 피카사 웹앨범] 임예진 팬클럽 ♡예진아씨♡ http://cafe.daum.net/imyejin

답글

가능하시다면 몇 개 추천하심이 어떨까요?

글쓴이: winner / 작성시간: 목, 2009/04/30 - 11:17오후

대학원 정도에서 가능하기는 어렵지 않을까 해요?

제가 몰라서 그런데 이런 algorithm을 중점적으로 연구하는 연구실이 국내에 어디어디가 있는지 궁금합니다.

-------------------------------------------------------------------------------------------

됐습니다. 있군요... -_-.

답글

n개 문자열이라고

글쓴이: terzeron / 작성시간: 화, 2009/04/28 - 10:30오전

n개 문자열이라고 가정할 때, 파일에서 읽어온 문자열 버퍼에 대해 strcmp를 n번 수행하는 방식을 쓰시는 거라면,
regular expression을 쓰는 방법이 더 빠를 것 같습니다만...
질문이 너무 막연해서 뭐라고 답변을 하기가 어렵네요.

답글

strcmp를 이용 비교하는 방식이 아니라..

글쓴이: goguma / 작성시간: 수, 2009/04/29 - 1:39오후

ac 알고리즘을 이용 비교시 단일문자 비교를 수행합니다..

--------------------------------
스물셋.. 독립.. 열심히 살아보자!!
--------------------------------

답글

만약 단어별 검색이

글쓴이: charsyam / 작성시간: 수, 2009/04/29 - 2:33오후

만약 단어별 검색이 목적이시라면

그리고 문자열 패턴이 고정이라면

Burst Trie 형태로 패턴을 저장해놓고,

해당 부분에서 검색하는 형태가 가장 빠르지 않을까요?

=========================
CharSyam ^^ --- 고운 하루
=========================

답글

perl5.10에는

글쓴이: Tony / 작성시간: 수, 2009/04/29 - 5:02오후

perl5.10에는 정규표현식 내부에서 AC알고리즘을 사용해요... 특별한 패턴이 없다면 AC알고리즘이 가장 빠르구요.(메모리문제야 물론 없다고 가정해야겠지만요)

답글

...

글쓴이: 나그네나그네 / 작성시간: 목, 2009/04/30 - 6:13오후

http://www.google.com/search?q=kmp+algorithm&ie=utf-8&oe=utf-8&aq=t&rls=org.mozilla:ko:official&client=firefox-a

참고하시면 좋을 듯 합니다.. 단 여기서는 하나의 긴 문자열 내에서 같은 문자열이 어디에 있는지를 찾습니다

답글

multi pattern matching

글쓴이: prio / 작성시간: 목, 2009/04/30 - 8:53오후

multi pattern matching 으로 검색하시면
최근에 제안된, Aho-Corasick 보다 빠르다고 주장하는 알고리즘들이 많이 나오는데,
그것들이 다 마음에 안드시는지요? ^^;;

그런데 수만개의 단어 정도를 찾아야 하는 상황에서는..
캐시 등 메모리 관리 요소도 성능에 무시 못할 영향을 끼칩니다.
('사실 더 중요합니다.' 라고 말하고 싶으나, asymptotic 이기는 장사 없으니 ㅎㅎ)

그리고 주제넘은 조언일지도 모르나...
많은 경우에 "the fastest"를 찾으려는 것보다,
"meeting the requirement"를 목표로 하는 게 더 효과적이더라구요.

답글

이 분 말씀대로

글쓴이: JuEUS-U / 작성시간: 금, 2009/05/01 - 12:40오전

이 분 말씀대로 입니다 = _=);;;
언제나 최고를 찾기보다는,
조금 덜하더라도 만족스러운 수준까지만 가면 됩니다.

Aho-corasick이 절대로 느린 알고리즘도 아니고 복잡한 물건도 아니라서
그냥 쓰시는게 나을겁니다.

답글

많은 조언 감사드립니다..

글쓴이: goguma / 작성시간: 토, 2009/05/02 - 12:04오후

여러분들 말씀을 참조하여 Aho-corasick로 구현할 계획입니다..

--------------------------------
스물셋.. 독립.. 열심히 살아보자!!
--------------------------------

답글

댓글 달기

이름

제목

댓글 *

텍스트 포맷에 대한 자세한 정보

텍스트 양식

Filtered HTML

텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
You can use Textile markup to format text.
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
Quick Tips:
- Two or more spaces at a line's end = Line break
- Double returns = Paragraph
- *Single asterisks* or _single underscores_ = Emphasis
- **Double** or __double__ = Strong
- This is [a link](http://the.link.example.com "The optional title text")
For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

HTML 태그를 사용할 수 없습니다.
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
줄과 단락은 자동으로 분리됩니다.

CAPTCHA

이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.

부 메뉴

[완료] 현존 하는 문자열 패턴 매치 알고리즘 중 가장 빠른 알고리즘은 무엇인가요...?

굳이 해야 하나요?

현재 작성중인 프로그램에..

직접적인 답변이

가능하시다면 몇 개 추천하심이 어떨까요?

n개 문자열이라고

strcmp를 이용 비교하는 방식이 아니라..

만약 단어별 검색이

perl5.10에는

...

multi pattern matching

이 분 말씀대로

많은 조언 감사드립니다..

댓글 달기

Filtered HTML

BBCode

Textile

Markdown

Plain text

주 메뉴

둘러보기

부 메뉴

현재 위치

[완료] 현존 하는 문자열 패턴 매치 알고리즘 중 가장 빠른 알고리즘은 무엇인가요...?

댓글 달기

Filtered HTML

BBCode

Textile

Markdown

Plain text

주 메뉴

검색 폼

둘러보기

사용자 로그인

Oauth2 Login :