검색을 주로 하고자 할때 구현 방법.

googlejoa의 이미지

수백개의 한글 화일이 있습니다.
이 화일들 중에서 필요한 내용이 있는지 주로 검색해보고자 합니다.

이를 위해 가장 유용한 방법이 어떤게 있을까요?

우선 단순하게 생각해 보면.
1. 우선 각각의 한글화일을 html 화일로 만든다.
(이것을 한꺼번에 해 주는 프로그램은 없나요?)
2. html 화일을 db 에 저장한다.
3. 서치기능을 할때 마다 db 를 뒤져 찾아낸다.

db 를 이용한다면 mysql 을 사용하려고 하는데 이경우 그냥 무식하게 저장하면 왠지 효율이 떨어질 것 같은 생각이 드네요.
혹시 이런 경우 db 를 구성하는 방법 및 화일시스템을 그대로 이용하는 그 외의 방법등에 대해서 좀 알려주세요.

그럼.

codebank의 이미지

한글 파일이라는게 아래한글 파일(.hwp같은)을 말하는 것이겠죠?
일반적으로 한글 파일이라면 .txt같은 파일과 혼돈하기 쉬워서...
응용방법은 두가지 정도가 있겠네요.
일반 text로 바꿔서 DB에 저장한후에 해당되는 파일이름을 알려주는 방식과
html로 바꿔서 DB에 저장한후에 화면으로 출력하는 방식...
무식하게 하는방법말고 다른 방법이 있을지 모르겠네요.
할 수 있다면 각 파일에 대한 분류를 세부적으로 하는것이겠죠.
그렇게 되면 검색항목이 줄어들 수 있으니까요.

HWP파일을 한꺼번에 바꾸어주는 일은 접할 기회가 없어서 잘모르겠네요.

------------------------------
좋은 하루 되세요.

charsyam의 이미지

각각의 문서를 색인하고 거기에 대한 역파일을 만들어서 그걸 뒤지시는게 제일 빠를것 같습니다만, 실제로 검색엔진이 이런식이죠 고운 하루되세요.

=========================
CharSyam ^^ --- 고운 하루
=========================

googlejoa의 이미지

charsyam wrote:
각각의 문서를 색인하고 거기에 대한 역파일을 만들어서 그걸 뒤지시는게 제일 빠를것 같습니다만, 실제로 검색엔진이 이런식이죠 고운 하루되세요.

문서를 색인하고 거기에 대한 역파일을 만든다는게 어떤거죠?
지식이 부족하여 느낌이 팍 안 오네요. ^^

lovethecorners의 이미지

mysql 을 사용해서 검색한다면 Full-text search를 이용하면
되지않을까요. :wink:

7339989b62a014c4ce6e31b3540bc7b5f06455024f22753f6235c935e8e5의 이미지

HWP 관련 라이브러리가 있나요? (libhwp? 8) ) 없다면 파일 포맷에 대한 분석 부터 해야 할 것 같은데...

익명 사용자의 이미지

지금 봤더니 아래아한글2002에 "한컴 파일 형식 변환기"라는 문서 일괄 변환기가 있습니다. HWPML 마크업랭귀지, html, txt등으로 변환이 가능합니다.

정지용의 이미지

구글이 좋다 하시니....

google desktop 류의 PC용 검색 시스템을 이용하시는 것도 쉽고 편안한 대안이 되겠네요. 이를 위해서는 윗 분 말씀대로 .txt나 .html로 변환을 해놓아야 겠죠. =)

단순히 file system을 이용해도 몇백개 정도는 거뜬하긴 합니다만, 왠지 구글을 쓰면 더 멋있어 보여서 ... :oops:

;)

익명 사용자의 이미지

DBbuster wrote:
mysql 을 사용해서 검색한다면 Full-text search를 이용하면
되지않을까요. :wink:

너무 오래지 않을까요? 양이 많다면..

atie의 이미지

할수 있으면, 문서 파일을 html 보다는 xml로 만들어 놓으면 검색이나 차후 확장에 용이할 듯 하군요. 어떻게 프로그램을 구성할 것인지 몰라도, DB에 넣고 검색을 하는 것은 파일을 읽어 검색하는 것보다 대개의 경우 DB 커넥션을 고려하면 시간이 느립니다. 그리고, 검색 엔진도 DB에서 제공하는 것으로 제한이 된다는 단점도 있고요.

----
I paint objects as I think them, not as I see them.
atie's minipage

kane의 이미지

googlejoa wrote:
charsyam wrote:
각각의 문서를 색인하고 거기에 대한 역파일을 만들어서 그걸 뒤지시는게 제일 빠를것 같습니다만, 실제로 검색엔진이 이런식이죠 고운 하루되세요.

문서를 색인하고 거기에 대한 역파일을 만든다는게 어떤거죠?
지식이 부족하여 느낌이 팍 안 오네요. ^^


우선 각 문서에서 키워드로 사용할 단어를 추출합니다.
그리고 각 키워드 별로 어떤 문서에 포함되는지를 나타내는 목록을 만듭니다.

kldp -> 1, 3, 10
linux -> 2, 3, 9
X -> 4, 5, 6

그러면 위와 같은 형태가 될 겁니다. (숫자는 문서를 나타내는 번호입니다)
그러고 나서는 키워드로 검색만 하면 되죠. ^^

익명 사용자의 이미지

atie wrote:
할수 있으면, 문서 파일을 html 보다는 xml로 만들어 놓으면 검색이나 차후 확장에 용이할 듯 하군요. 어떻게 프로그램을 구성할 것인지 몰라도, DB에 넣고 검색을 하는 것은 파일을 읽어 검색하는 것보다 대개의 경우 DB 커넥션을 고려하면 시간이 느립니다. 그리고, 검색 엔진도 DB에서 제공하는 것으로 제한이 된다는 단점도 있고요.

화일을 읽어 검색하는 툴은 어떤게 있나요?
윈도우상에서 쓸수 있는 좋은 프로그램 있나요?
(리눅스에선 grep을 이용하겠지만...)

atie의 이미지

Anonymous wrote:
atie wrote:
할수 있으면, 문서 파일을 html 보다는 xml로 만들어 놓으면 검색이나 차후 확장에 용이할 듯 하군요. 어떻게 프로그램을 구성할 것인지 몰라도, DB에 넣고 검색을 하는 것은 파일을 읽어 검색하는 것보다 대개의 경우 DB 커넥션을 고려하면 시간이 느립니다. 그리고, 검색 엔진도 DB에서 제공하는 것으로 제한이 된다는 단점도 있고요.

화일을 읽어 검색하는 툴은 어떤게 있나요?
윈도우상에서 쓸수 있는 좋은 프로그램 있나요?
(리눅스에선 grep을 이용하겠지만...)


글쎄요, 키워드 검색이냐 풀 텍스트 검색이냐 경우에 따라 다르겠죠. 자바도 괜찮다면, Lucene이 대표적인 오픈소스 서치엔진이죠. 몇 개의 키워드를 xml tag에 넣는다면 단순 키워드 서치는 xpath로 해도 되고요.

// 답변을 써놓고 다시 읽어보니, 툴을 물어보신거면 엉뚱한 답을 한 것이군요. 프로그램을 작성한다는 것을 염두에 쓴 거라서요.

----
I paint objects as I think them, not as I see them.
atie's minipage

댓글 달기

Filtered HTML

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • You can use Textile markup to format text.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • Quick Tips:
    • Two or more spaces at a line's end = Line break
    • Double returns = Paragraph
    • *Single asterisks* or _single underscores_ = Emphasis
    • **Double** or __double__ = Strong
    • This is [a link](http://the.link.example.com "The optional title text")
    For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

  • HTML 태그를 사용할 수 없습니다.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 줄과 단락은 자동으로 분리됩니다.
댓글 첨부 파일
이 댓글에 이미지나 파일을 업로드 합니다.
파일 크기는 8 MB보다 작아야 합니다.
허용할 파일 형식: txt pdf doc xls gif jpg jpeg mp3 png rar zip.
CAPTCHA
이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.