과부하와 관계없이 정규표현식의 복잡도를 따진다면, 해당언어의 grep코드를 분석해야 할 것 같습니다.
grep이 while문 같은 조건식으로 되어있을테고, 얼마나 많은 루프를 시작하는지 체크하거나 하는 방법도 생각해 볼 수 있을 것 같습니다.
짧게 생각해보면 정규표현식이 몇개의 덩어리로 검색이 되는지 생각해보면 좋을 것 같네요.
아니면, 얼마나 구체적으로 찾으려고 하는지, \w+로 찾을 걸 abc로 찾는지 그런 기준이나,
아예 역으로 전체 내용과 결과에 따라 정규표현식의 복잡도를 추론해 볼 수도 있을것 같네요.
하하
재미있어보이네요.
제 생각에는 복잡도의 기준이 필요할 것 같습니다.
단순히 과부하를 위해 과금이 필요하다면 시간에 적당히 비례하면 될 것 같고,
과부하와 관계없이 정규표현식의 복잡도를 따진다면, 해당언어의 grep코드를 분석해야 할 것 같습니다.
grep이 while문 같은 조건식으로 되어있을테고, 얼마나 많은 루프를 시작하는지 체크하거나 하는 방법도 생각해 볼 수 있을 것 같습니다.
짧게 생각해보면 정규표현식이 몇개의 덩어리로 검색이 되는지 생각해보면 좋을 것 같네요.
아니면, 얼마나 구체적으로 찾으려고 하는지, \w+로 찾을 걸 abc로 찾는지 그런 기준이나,
아예 역으로 전체 내용과 결과에 따라 정규표현식의 복잡도를 추론해 볼 수도 있을것 같네요.
어쨌든 정규표현식 과금이라 왠지 아주 중요한 정보를 검색하는 일 같군요. 궁금궁금....
이거 혹시나 논문감 되면 누가 좀 연구좀 해주세요.
이거 혹시나 논문감 되면 누가 좀 연구좀 해주세요.
재벌 2세가 재벌이 될 확률과
금메달리스트 2세가 금메달을 딸 확률이 비슷해지도록
자유오픈소스 대안화폐를 씁시다.
아이디의 아이디어 무한도전
http://blog.aaidee.com
귀태닷컴
http://www.gwitae.com
regular expression
regular expression complexity는 NFA -> DFA, match/grouping 등으로 나눠서 생각할 수도 있으며, 일반적으로 NP-complete으로 알려져 있습니다.
C FAQ: http://www.eskimo.com/~scs/C-faq/top.html
Korean Ver: http://cinsk.github.io/cfaqs/
NP군요. 조언 큰 도움이
NP군요.
조언 큰 도움이 되었습니다.
감사합니다.
재벌 2세가 재벌이 될 확률과
금메달리스트 2세가 금메달을 딸 확률이 비슷해지도록
자유오픈소스 대안화폐를 씁시다.
아이디의 아이디어 무한도전
http://blog.aaidee.com
귀태닷컴
http://www.gwitae.com
근데 검색엔진에서의 정규표현식? 같은게..결국 DB
근데 검색엔진에서의 정규표현식? 같은게..결국 DB Query날리고 그 결과값을 받아 DP하는거라면 그냥 Query Cost를 기반으로 산정하는게 맞지 않을까요?
Query Cost란 함수가 SQL에 있는
Query Cost란 함수가 SQL에 있는 건가요?
검색 전에 알 수 있으면 과금하기 좋은데요.
재벌 2세가 재벌이 될 확률과
금메달리스트 2세가 금메달을 딸 확률이 비슷해지도록
자유오픈소스 대안화폐를 씁시다.
아이디의 아이디어 무한도전
http://blog.aaidee.com
귀태닷컴
http://www.gwitae.com
정확히 어떤 것을 찾으시는지는 모르겠습니다만...
RE2라는 정규식 엔진도 있습니다. Backtracking을 하지 않기 때문에 입력 길이에 linear한 수행시간을 보장합니다. (다만 Perl 등의 RE에서 지원하는 일부 확장 기능을 지원하지 않습니다.)
http://code.google.com/p/re2/
RE2 uses automata theory to guarantee that regular expression searches run in time linear in the size of the input.
댓글 달기