두 가지 글의 유사도를 측정하는 인공지능 라이브러리 있나요?
글쓴이: cleansugar / 작성시간: 수, 2010/07/07 - 8:11오전
두가지 글이 있을 때 이 글은 몇 퍼센트 비슷한 글이라고 측정해주는 인공지능 라이브러리 있나요?
스팸 처리할 때도 쓰일 것 같습니다.
영문일 경우와 한글일 경우 다른 프로그램을 써야 하는지도 궁금합니다.
아시는 분 있는데로 모두 알려주시면 고맙겠습니다.
Forums:
http://www.dcs.shef.ac.uk/~sa
http://www.dcs.shef.ac.uk/~sam/stringmetrics.html
찾아보니 이런게 있네요..
------식은이 처------
길이 끝나는 저기엔 아무 것도 없어요. 희망이고 나발이고 아무 것도 없어.
라이브러리는 모르겠지만
두 글의 "유사성" 의 정의가 뭔가요? 사용하고자 하는 corpus 가 어떤 문서들을 포함하고 있나요? 임의의 문서인가요? "유사성" 은 정의하기 나름이고 어떻게 정의하느냐에 따라 결과는 천차만별로 달라집니다.
어떤 단어가 몇 번 쓰였는지로 유사성을 정의한다면 tf-idf (term frequency - inverse document frequency) 로 검색을 시작해보시기 바랍니다. 만약 "computer", "probability", "Ferrari" 란 단어가
문서 A: 30번, 20번, 0번
문서 B: 20번, 5번, 1번
문서 C: 0번, 1번, 20번
나왔다면 문서 A 는 C 보다는 B 에 가깝겠죠. 단 어디서나 자주 나오는 단어 ("the" 같은) 는 유사성 계산시 제외되어야겠죠. 일단 기본 원리는 이렇습니다. 이해하고 나면 코딩은 자바나 파이썬 같은 언어로 100줄 이내에 끝낼 수 있을 겁니다.
하지만 사실 유사성의 정의는 단어의 분포라기 보다는, 내용의 분포라고 보는게 타당합니다. 즉 겉으로 드러나는 단어보다는 다루고 있는 내용 -- 토픽 -- 이 비슷해야 비슷한 문서라고 볼 수 있겠죠. 그래서 요즘 machine learning 커뮤니티에서는 문서로부터 토픽을 유추해서 토픽의 유사성으로 문서간 유사성을 정의하고자 하는 시도 --- topic modeling --- 이 이슈입니다. 관련 검색어는, topic modeling, latent semantic indexing, latent Dirichlet allocation 등이 있습니다.
관련 패키지로는, 방금 구글 검색 결과
http://www.cs.princeton.edu/~blei/lda-c/
http://mallet.cs.umass.edu/index.php
와 같은 것들이 있는데 아마 관련 내용에 대한 이해 없이 만족할만한 결과가 나올런지는 모르겠습니다.
그리고 영어/한글 문제는, 일단 영어의 경우가 훨씬 잘 될 겁니다. 이유는 한글의 경우 단어의 variation 이 커서 뭔가를 단어 단위로 정의하는게 쉽지 않습니다. 영어에서는 문서를 모델링할 때 단어나 음절 단위의 n-gram 을 이용하는 경우가 많은데, 한글의 경우 단어에 어미 등이 붙는 경우가 많고 음절 하나하나만의 의미가 거의 없는 경우가 많아서, 단어에서 의미가 있는 부분 --- "형태소" --- 를 떼어내야 하는데, 영어만큼은 언어에 대한 연구가 안 되어 있는 관계로 성능이 아직 미진하다고 알고 있습니다.
댓글 달기