제가 지금 진행하고 있는 프로젝트에...
5만~10만개 사이의 문자열 패턴을...
파일 내에서 검색하는 알고리즘이 필요합니다..
현재 Aho-Corasick 으로 구현할까 하는데...
속도에 중점을 둔다고 하면...
이보다 더 효율적인 알고리즘은 없을까요..?
최근 논문을 검색해봐도 다수의 패턴을 찾을때 더 효과적인 알고리즘을 찾기가 어렵네요...
직접적인 답변이 아니라 죄송합니다만, 회사에서 하는 일이시고 중요한 일이시면 산학협동으로 돈들여서 알고리듬 연구하는 전산과 이론 연구실에다 자문을 구하면서 공동 프로젝트를 추진하는 것이 서로 윈윈하는 방법일 것 같습니다. 밥먹고 그런 비슷한 일만 하는 사람들이 있을거에요. 나중에 계속 필요하면 채용할 좋은 기회가 되기도 하고요.
굳이 해야 하나요?
얼마나 빈번히 검색을 할 지는 모르겠습니다만... 거기서 거기일 거 같은데. Algorithm이 그리 어렵지는 않을 거 같기는 합니다만 굳이 작성을 해야되고, 또 최선의 algorithm이 요구되는지는 모르겠습니다. 물론 공부를 위한 거라면 예외겠습니다만...
현재 작성중인 프로그램에..
상당히 중요한 부분이라 그렇습니다..
프로그램 성능과 직접적으로 연관된 부분입니다..
--------------------------------
스물셋.. 독립.. 열심히 살아보자!!
--------------------------------
직접적인 답변이
직접적인 답변이 아니라 죄송합니다만, 회사에서 하는 일이시고 중요한 일이시면 산학협동으로 돈들여서 알고리듬 연구하는 전산과 이론 연구실에다 자문을 구하면서 공동 프로젝트를 추진하는 것이 서로 윈윈하는 방법일 것 같습니다. 밥먹고 그런 비슷한 일만 하는 사람들이 있을거에요. 나중에 계속 필요하면 채용할 좋은 기회가 되기도 하고요.
임예진 팬클럽 ♡예진아씨♡ http://cafe.daum.net/imyejin
[예진아씨 피카사 웹앨범] 임예진 팬클럽 ♡예진아씨♡ http://cafe.daum.net/imyejin
가능하시다면 몇 개 추천하심이 어떨까요?
대학원 정도에서 가능하기는 어렵지 않을까 해요?
제가 몰라서 그런데 이런 algorithm을 중점적으로 연구하는 연구실이 국내에 어디어디가 있는지 궁금합니다.
-------------------------------------------------------------------------------------------
됐습니다. 있군요... -_-.
n개 문자열이라고
n개 문자열이라고 가정할 때, 파일에서 읽어온 문자열 버퍼에 대해 strcmp를 n번 수행하는 방식을 쓰시는 거라면,
regular expression을 쓰는 방법이 더 빠를 것 같습니다만...
질문이 너무 막연해서 뭐라고 답변을 하기가 어렵네요.
strcmp를 이용 비교하는 방식이 아니라..
ac 알고리즘을 이용 비교시 단일문자 비교를 수행합니다..
--------------------------------
스물셋.. 독립.. 열심히 살아보자!!
--------------------------------
만약 단어별 검색이
만약 단어별 검색이 목적이시라면
그리고 문자열 패턴이 고정이라면
Burst Trie 형태로 패턴을 저장해놓고,
해당 부분에서 검색하는 형태가 가장 빠르지 않을까요?
=========================
CharSyam ^^ --- 고운 하루
=========================
=========================
CharSyam ^^ --- 고운 하루
=========================
perl5.10에는
perl5.10에는 정규표현식 내부에서 AC알고리즘을 사용해요... 특별한 패턴이 없다면 AC알고리즘이 가장 빠르구요.(메모리문제야 물론 없다고 가정해야겠지만요)
...
http://www.google.com/search?q=kmp+algorithm&ie=utf-8&oe=utf-8&aq=t&rls=org.mozilla:ko:official&client=firefox-a
참고하시면 좋을 듯 합니다.. 단 여기서는 하나의 긴 문자열 내에서 같은 문자열이 어디에 있는지를 찾습니다
multi pattern matching
multi pattern matching 으로 검색하시면
최근에 제안된, Aho-Corasick 보다 빠르다고 주장하는 알고리즘들이 많이 나오는데,
그것들이 다 마음에 안드시는지요? ^^;;
그런데 수만개의 단어 정도를 찾아야 하는 상황에서는..
캐시 등 메모리 관리 요소도 성능에 무시 못할 영향을 끼칩니다.
('사실 더 중요합니다.' 라고 말하고 싶으나, asymptotic 이기는 장사 없으니 ㅎㅎ)
그리고 주제넘은 조언일지도 모르나...
많은 경우에 "the fastest"를 찾으려는 것보다,
"meeting the requirement"를 목표로 하는 게 더 효과적이더라구요.
이 분 말씀대로
이 분 말씀대로 입니다 = _=);;;
언제나 최고를 찾기보다는,
조금 덜하더라도 만족스러운 수준까지만 가면 됩니다.
Aho-corasick이 절대로 느린 알고리즘도 아니고 복잡한 물건도 아니라서
그냥 쓰시는게 나을겁니다.
많은 조언 감사드립니다..
여러분들 말씀을 참조하여 Aho-corasick로 구현할 계획입니다..
--------------------------------
스물셋.. 독립.. 열심히 살아보자!!
--------------------------------
댓글 달기