pylucene 관련 질문입니다... :-)
글쓴이: frenzy / 작성시간: 화, 2006/11/21 - 6:24오후
어쩌다 보니 검색이 필요하게 되서 만져보고 있습니다.
여기서 문제점...
1. 한글 analyzer
2. MS 엑셀, ppt 문서에 대한 인덱스생성
(사실 이두가지가 한글검색엔진에서는 핵심이겠군요... )
한글 analyzer 에 관련된 이런저런 내용들은 확인해봤으나, lucene 에 적용할 만한 오픈소스는 전혀없는 것 같습니다. 막무가내로 한글일 경우에는 와일드검색을 하도록 검색어를 다시 파싱한 정도.. -_-;;;
MS word, PDF, RTF 등은 한글이 있을 경우에도 인덱스생성에 문제가 없더군요. 하지만, xls, ppt 등의 문서는 한글을 추출하지 못하더군요. (catdoc, catppt, xls2csv) 역시 java lucene 에서는 xls 관련 프로젝트가 있긴하지만, 그리 신통하지는 않을 것 같습니다. 가능성이 없다면, catdoc 에 perl문서에서 제공하는 unicode 를 억지로 끼워맞추기 정도로 진행해봐야 할 것 같긴한데... 이도 무지한 저로써는 힘든 작업이겠네요... -_-;;;
저 두가지 정도만 어느정도 해결된다면, 로컬검색엔진으로써는 손색이 없을 것 같은 예감입니다.
혹, 정보공유가 된다면 정말 감사하겠습니다...
조금 실망인것은 일본, 러시아, 독일등은 루씬에 자신들의 analyzer를 추가했다는 것... (잘 동작하는지는 모르겠지만...)
koreanAnalyzer 를 추가해보고 싶은 것은 좌절입니다.
Forums:
댓글 달기