두 가지 글의 유사도를 측정하는 인공지능 라이브러리 있나요?

cleansugar의 이미지

두가지 글이 있을 때 이 글은 몇 퍼센트 비슷한 글이라고 측정해주는 인공지능 라이브러리 있나요?

스팸 처리할 때도 쓰일 것 같습니다.

영문일 경우와 한글일 경우 다른 프로그램을 써야 하는지도 궁금합니다.

아시는 분 있는데로 모두 알려주시면 고맙겠습니다.

nthroot의 이미지

http://www.dcs.shef.ac.uk/~sam/stringmetrics.html

찾아보니 이런게 있네요..

------식은이 처------
길이 끝나는 저기엔 아무 것도 없어요. 희망이고 나발이고 아무 것도 없어.

sblade의 이미지

두 글의 "유사성" 의 정의가 뭔가요? 사용하고자 하는 corpus 가 어떤 문서들을 포함하고 있나요? 임의의 문서인가요? "유사성" 은 정의하기 나름이고 어떻게 정의하느냐에 따라 결과는 천차만별로 달라집니다.

어떤 단어가 몇 번 쓰였는지로 유사성을 정의한다면 tf-idf (term frequency - inverse document frequency) 로 검색을 시작해보시기 바랍니다. 만약 "computer", "probability", "Ferrari" 란 단어가

문서 A: 30번, 20번, 0번
문서 B: 20번, 5번, 1번
문서 C: 0번, 1번, 20번

나왔다면 문서 A 는 C 보다는 B 에 가깝겠죠. 단 어디서나 자주 나오는 단어 ("the" 같은) 는 유사성 계산시 제외되어야겠죠. 일단 기본 원리는 이렇습니다. 이해하고 나면 코딩은 자바나 파이썬 같은 언어로 100줄 이내에 끝낼 수 있을 겁니다.

하지만 사실 유사성의 정의는 단어의 분포라기 보다는, 내용의 분포라고 보는게 타당합니다. 즉 겉으로 드러나는 단어보다는 다루고 있는 내용 -- 토픽 -- 이 비슷해야 비슷한 문서라고 볼 수 있겠죠. 그래서 요즘 machine learning 커뮤니티에서는 문서로부터 토픽을 유추해서 토픽의 유사성으로 문서간 유사성을 정의하고자 하는 시도 --- topic modeling --- 이 이슈입니다. 관련 검색어는, topic modeling, latent semantic indexing, latent Dirichlet allocation 등이 있습니다.

관련 패키지로는, 방금 구글 검색 결과
http://www.cs.princeton.edu/~blei/lda-c/
http://mallet.cs.umass.edu/index.php
와 같은 것들이 있는데 아마 관련 내용에 대한 이해 없이 만족할만한 결과가 나올런지는 모르겠습니다.

그리고 영어/한글 문제는, 일단 영어의 경우가 훨씬 잘 될 겁니다. 이유는 한글의 경우 단어의 variation 이 커서 뭔가를 단어 단위로 정의하는게 쉽지 않습니다. 영어에서는 문서를 모델링할 때 단어나 음절 단위의 n-gram 을 이용하는 경우가 많은데, 한글의 경우 단어에 어미 등이 붙는 경우가 많고 음절 하나하나만의 의미가 거의 없는 경우가 많아서, 단어에서 의미가 있는 부분 --- "형태소" --- 를 떼어내야 하는데, 영어만큼은 언어에 대한 연구가 안 되어 있는 관계로 성능이 아직 미진하다고 알고 있습니다.

댓글 달기

Filtered HTML

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • You can use Textile markup to format text.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • Quick Tips:
    • Two or more spaces at a line's end = Line break
    • Double returns = Paragraph
    • *Single asterisks* or _single underscores_ = Emphasis
    • **Double** or __double__ = Strong
    • This is [a link](http://the.link.example.com "The optional title text")
    For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

  • HTML 태그를 사용할 수 없습니다.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 줄과 단락은 자동으로 분리됩니다.
댓글 첨부 파일
이 댓글에 이미지나 파일을 업로드 합니다.
파일 크기는 8 MB보다 작아야 합니다.
허용할 파일 형식: txt pdf doc xls gif jpg jpeg mp3 png rar zip.
CAPTCHA
이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.