위와 같은 프로그램이 없다면 어떤식으로 개발하는게 좋은지 조언 부탁드립니다.
결국은 String Matching Algoritm을 이용해야 하겠죠 비교를 하려는 문서의 중요 키워드를 추출하고 역시 비교 대상 문서의 중요 키워드를 추출합니다 이 둘을 비교하여 일정 임계치(말씀하시는 50%) 이상일 경우 잠정적으로 유사하다는 판단을 내립니다
임계치를 처음부터 높게 잡지 않습니다 그 이유는, 키워드 추출의 정확도가 떨어질 수 있으니까요 여러 번 반복해서 문자열 일치 작업을 해가면서, 점점 비교 대상 문서의 수를 줄여 나갑니다 가장 적합한 임계치를 찾게 되면, 수동으로 작업할 수 있을 것 같습니다
텍스트 포맷에 대한 자세한 정보
<code>
<blockcode>
<apache>
<applescript>
<autoconf>
<awk>
<bash>
<c>
<cpp>
<css>
<diff>
<drupal5>
<drupal6>
<gdb>
<html>
<html5>
<java>
<javascript>
<ldif>
<lua>
<make>
<mysql>
<perl>
<perl6>
<php>
<pgsql>
<proftpd>
<python>
<reg>
<spec>
<ruby>
<foo>
[foo]
결국은 String Matching Algoritm을 이용해야 하겠죠
결국은 String Matching Algoritm을 이용해야 하겠죠
비교를 하려는 문서의 중요 키워드를 추출하고 역시 비교 대상 문서의 중요 키워드를 추출합니다
이 둘을 비교하여 일정 임계치(말씀하시는 50%) 이상일 경우 잠정적으로 유사하다는 판단을 내립니다
임계치를 처음부터 높게 잡지 않습니다
그 이유는, 키워드 추출의 정확도가 떨어질 수 있으니까요
여러 번 반복해서 문자열 일치 작업을 해가면서, 점점 비교 대상 문서의 수를 줄여 나갑니다
가장 적합한 임계치를 찾게 되면, 수동으로 작업할 수 있을 것 같습니다
댓글 달기