어휘의 유창성을 측정하는 라이브러리 있을까요?

cleansugar의 이미지

예전에 미국 유력 신문이 미대통령 연설에 사용된 어휘를 분석한 기사가 있었고 여기 게시판에서도 인용된 적 있습니다.

검색하지는 못 하겠네요.

혹시 아시는 분 알려주시면 고맙겠습니다.

한국말로도 사용된 어휘 갯수 등을 분석하는 연구를 하는 사람도 있을텐데 제품이나 라이브러리가 있을까요?

형태소 분석기로 토큰을 추출해서 갯수를 세보면 되겠지요.

이게 있으면 재밌을 겁니다.

사람별로 어휘의 유창성 혹은 수월성을 측정할 수 있으니까요.

주요 커뮤니티나 카페별, 직업별 차이도 알 수 있고, 책별, 신문사별, 지정학적, 인구통계학적 차이도 알 수 있을 겁니다.

이걸 대행해주는 사이트를 만들어도 재밌고 어느정도 상업성도 있을 것 갈습니다.

어휘 뿐 아니라 전화와 문자 통계, 소셜서비스, 이동 경로 등으로 행동의 유창성을 측정할 수도 있겠죠.

이분야 꾼들은 이미 하고 있을테지만 저변이 확대되면 좋겠습니다.

kudos의 이미지

한국어 형태소 분석기는 검색해보니

http://nlp.kookmin.ac.kr/HAM/kor/
http://cs.sungshin.ac.kr/~shim/demo/mach.html

등등이 있네요. 라이브러리도 제공하는 것 같습니다.

http://nlp.stanford.edu/software/

여기도 유명한걸로 아는데 한국어에도 사용가능할지나 용도가 맞을런진 잘 모르겠지만 라이센스는 GPL 이네요

* elyr.net

cleansugar의 이미지

프로파일러가 보는 제주범죄 특성은?
http://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=102&oid=079&aid=0002292681

김경일 아주대 교수와 함께 발표한 이 연구는 2006년부터 2010년까지 전국에서 2인 이상을 살해한 62명의 연쇄살인범이 쓴 글을 모아 분석했다.

연쇄살인범의 편지와 일기장, 자기를 소개한 문장을 모아서 언어한 적인 언어분석 프로그램(KLIW)을 통해 일반인과 어떤 차이를 나타나는지 조사했다.

서 경장은 "원인과 결과는 모르겠지만 수사를 많이 사용할수록 스트레스를 많이 받고, 맹세어절을 많이 사용할수록 반사회적인 경향을 보였습니다. 또 접속사를 많이 사용할수록 거짓말을 많이 하고, 선어말 어미를 많이 사용할수록 정서가 불안하고 치료 거부 성향이 높아집니다. 글귀와 일기장, 편지 등을 분석해서 용의자의 성향과 심리를 추론하고, 용의자를 몰라도 그의 성향을 분석하는 것입니다."

KLIW가 궁금합니다.

재벌 2세가 재벌이 될 확률과
금메달리스트 2세가 금메달을 딸 확률이 비슷해지도록
자유오픈소스 대안화폐를 씁시다.

아이디의 아이디어 무한도전
http://blog.aaidee.com

귀태닷컴
http://www.gwitae.com